AI Research — Mar 14, 2026

InternVL-U：4B 參數打敗 14B 的多模態全能模型

理解、推理、生圖、修圖——一個 4B 小模型全部搞定，還打贏了 3 倍大的 BAGEL。OpenGVLab 證明了「小而精」的多模態路線是可行的。

一個模型同時能看圖理解、能文字推理、能生成圖片、能編輯圖片——而且只有 4B 參數。InternVL-U 在「統一多模態模型」領域開了新局。

什麼是統一多模態模型？

傳統做法是：看圖用一個模型、生圖用另一個模型、文字推理再用一個。統一多模態模型的目標是：一個模型全部搞定。InternVL-U 就是在這個方向上的突破。

它能同時做四件事：視覺理解（看圖回答問題）、文字推理（邏輯思考和知識問答）、圖片生成（從文字描述生成圖片）、圖片編輯（修改現有圖片）。

核心技巧是將視覺編碼器和解碼器統一在同一個架構裡，共享大部分參數。生成圖片時用連續 Token 而不是離散 Token，品質更好。

訓練策略也很關鍵：先用理解任務打好基礎，再加入生成任務。這樣模型不會「忘記」理解能力，同時學會生成。

4B 版本在理解和生成的綜合評測上打贏了 14B 的 BAGEL。在 GenEval 生圖品質上也是同級最佳。

更重要的是效率：4B 的模型可以在消費級 GPU 上運行，不需要企業級硬體。這讓更多人能用上強大的多模態 AI。

如果你需要一個「什麼都能做」的 AI 模型——看圖、理解、生圖、修圖——以前需要好幾個模型串接，現在一個就夠。而且因為小，可以在本地跑。

這也代表 AI 工具會越來越整合。未來不再是「用 A 看圖、用 B 生圖、用 C 修圖」，而是一個統一的介面處理所有視覺任務。

TAKEAWAY

InternVL-U 證明了「小而精」的多模態路線可行。4B 打 14B，理解和生成一個模型搞定。未來的 AI 工具會越來越整合、越來越個人化。

📎

資料來源：https://arxiv.org/abs/2603.09877