
以前搜圖要用圖搜、搜文要用文搜,現在一個模型全包。Google 的 Gemini Embedding 2 把所有模態統一到同一個向量空間。
什麼是多模態嵌入?
嵌入(Embedding)是把任何資料轉成一組數字向量的技術。文字、圖片、影片、音頻——不同格式的資料原本活在不同的世界,無法直接比較。多模態嵌入的突破在於:把所有格式的資料映射到「同一個」向量空間,讓它們可以互相搜尋和比較。
Gemini Embedding 2 支援五種模態:文字、圖片、影片、音頻和文件(PDF/PPT 等)。這不是簡單的「把不同模態的嵌入模型綁在一起」,而是從模型架構層面就設計成統一的——所有模態共享同一個語意空間,真正做到跨模態理解。
能做什麼?
用文字搜影片片段:輸入「一個人在雨中撐傘走過橋」,直接找到影片中對應的秒數。用圖片找相關文章:拍一張花的照片,找到所有提到這種花的研究論文。用音頻匹配字幕:一段演講的錄音可以自動對應到逐字稿的每一段。
對 RAG(檢索增強生成)來說,這是革命性的升級。現有的 RAG 系統幾乎都只能處理純文字——你問問題,它搜文字文件。有了多模態嵌入,RAG 可以同時搜尋文字、圖片、影片和音頻,回答會更完整、更準確。想像一個企業知識庫,不只搜文件,還能搜會議錄影、產品照片、語音筆記。
市場競爭
Gemini Embedding 2 的直接競爭對手是阿里巴巴的 Qwen3 Embedding,同樣主打多模態嵌入。但 Google 的優勢在於原生多模態架構——Gemini 從第一天就是多模態設計,不是後來才把不同模態「拼」上去的。這在跨模態搜尋的精準度上會有差異。
OpenAI 和 Cohere 目前的嵌入模型仍以文字為主,雖然 OpenAI 有圖片嵌入但與文字是分離的。Anthropic 尚未推出獨立的嵌入模型。多模態嵌入的賽道目前是 Google 和阿里巴巴在領跑,其他玩家需要加速追趕。
對你有什麼影響?
如果你正在建 RAG 系統或任何需要搜尋功能的 AI 應用,多模態嵌入會大幅擴展你的能力範圍。以前只能搜文字的知識庫,現在可以搜所有格式。以前需要針對不同格式建不同的搜尋管道,現在一個模型搞定。
更長遠來看,多模態嵌入是 AI 搜尋的未來基礎設施。誰能讓「任何東西搜任何東西」變成現實,誰就掌握了 AI 時代的入口。Google 搜尋引擎的霸權就是建立在文字搜尋上,下一個時代的搜尋霸權很可能建立在多模態嵌入上。
多模態嵌入是 AI 搜尋的下一個戰場。誰能讓「任何東西搜任何東西」變成現實,誰就掌握了 AI 時代的入口。Google 這次出手很快,但戰爭才剛開始。
更多 AI 新聞
追蹤 IG 第一時間收到 AI 新聞推播。