
一個模型同時能看圖理解、能文字推理、能生成圖片、能編輯圖片——而且只有 4B 參數。InternVL-U 在「統一多模態模型」領域開了新局。
什麼是統一多模態模型?
傳統做法是:看圖用一個模型、生圖用另一個模型、文字推理再用一個。統一多模態模型的目標是:一個模型全部搞定。InternVL-U 就是在這個方向上的突破。
它能同時做四件事:視覺理解(看圖回答問題)、文字推理(邏輯思考和知識問答)、圖片生成(從文字描述生成圖片)、圖片編輯(修改現有圖片)。
怎麼做到的?
核心技巧是將視覺編碼器和解碼器統一在同一個架構裡,共享大部分參數。生成圖片時用連續 Token 而不是離散 Token,品質更好。
訓練策略也很關鍵:先用理解任務打好基礎,再加入生成任務。這樣模型不會「忘記」理解能力,同時學會生成。
效果怎樣?
4B 版本在理解和生成的綜合評測上打贏了 14B 的 BAGEL。在 GenEval 生圖品質上也是同級最佳。
更重要的是效率:4B 的模型可以在消費級 GPU 上運行,不需要企業級硬體。這讓更多人能用上強大的多模態 AI。
對你有什麼影響?
如果你需要一個「什麼都能做」的 AI 模型——看圖、理解、生圖、修圖——以前需要好幾個模型串接,現在一個就夠。而且因為小,可以在本地跑。
這也代表 AI 工具會越來越整合。未來不再是「用 A 看圖、用 B 生圖、用 C 修圖」,而是一個統一的介面處理所有視覺任務。
TAKEAWAY
InternVL-U 證明了「小而精」的多模態路線可行。4B 打 14B,理解和生成一個模型搞定。未來的 AI 工具會越來越整合、越來越個人化。
更多 AI 新聞
追蹤 IG 第一時間收到 AI 新聞推播。