
影片生成是「播放」一段預定好的畫面,World Model 是「模擬」一個會回應你操作的環境。Genie 3 做到了後者,這是根本性的不同。
Genie 3 能做什麼?
Google DeepMind 發布的 Genie 3 是一個 World Model——你給它一段文字描述,它能即時生成可互動的 3D 環境。720p 解析度、24 FPS 流暢度、物理一致性可維持數分鐘。你可以在生成的環境中移動、操作物件,環境會像真實世界一樣回應你的動作。
這裡的關鍵詞是「物理一致性」。重力會讓物體掉落、碰撞會產生反彈、流體會自然流動。更重要的是「物件持久性」——你走到另一個房間再回來,桌上的杯子還在原來的位置。這不是特效,是模擬。

跟 Sora 有什麼不同?
OpenAI 的 Sora 生成的是影片——一段預先決定好的畫面序列。你按下播放,它就從頭到尾跑一遍,你無法干預中間的過程。Genie 3 生成的是環境——它不知道接下來會發生什麼,因為這取決於你怎麼操作。
另一個根本差異是物理規則的來源。Sora 的物理效果是從影片資料中「模仿」出來的,看起來像但經不起推敲。Genie 3 從觀察中「學習」物理規則,建立內部的世界模型,所以它能處理訓練資料中沒出現過的情境。這就像一個人理解了重力原理,而不只是記住蘋果會掉下來。
為什麼這很重要?
World Model 的應用場景遠超過影片生成。遊戲開發:一句話描述場景就能生成可玩的遊戲關卡,大幅降低開發成本。機器人訓練:在虛擬環境中訓練機器人,比真實環境便宜一萬倍且零風險。建築與城市規劃:模擬建築物在不同天氣、光照、人流下的表現。教育:讓學生「走進」歷史場景或物理實驗。
更深層的意義是:AI 正在從「生成內容」進化到「模擬現實」。當 AI 能建立一個物理一致的世界模型,它對真實世界的理解就不再停留在語言層面,而是進入了空間和因果層面。這是通往具身智慧的關鍵一步。
當 AI 能模擬整個世界,內容創作、遊戲開發、機器人訓練的範式都會被重寫。World Model 是下一個 AI 競賽的主戰場——不是比誰生成的影片最漂亮,而是比誰模擬的世界最真實。
更多 AI 新聞
追蹤 IG 第一時間收到 AI 新聞推播。