AI Research — Jan 29, 2026

Google Genie 3：AI 不再只是生成影片，而是模擬整個世界

DeepMind 發布 Genie 3，能從文字描述即時生成可互動的 3D 環境——720p、24 FPS、物理一致性維持數分鐘。這不是影片生成，是世界模擬。

影片生成是「播放」一段預定好的畫面，World Model 是「模擬」一個會回應你操作的環境。Genie 3 做到了後者，這是根本性的不同。

Genie 3 能做什麼？

Google DeepMind 發布的 Genie 3 是一個 World Model——你給它一段文字描述，它能即時生成可互動的 3D 環境。720p 解析度、24 FPS 流暢度、物理一致性可維持數分鐘。你可以在生成的環境中移動、操作物件，環境會像真實世界一樣回應你的動作。

這裡的關鍵詞是「物理一致性」。重力會讓物體掉落、碰撞會產生反彈、流體會自然流動。更重要的是「物件持久性」——你走到另一個房間再回來，桌上的杯子還在原來的位置。這不是特效，是模擬。

OpenAI 的 Sora 生成的是影片——一段預先決定好的畫面序列。你按下播放，它就從頭到尾跑一遍，你無法干預中間的過程。Genie 3 生成的是環境——它不知道接下來會發生什麼，因為這取決於你怎麼操作。

另一個根本差異是物理規則的來源。Sora 的物理效果是從影片資料中「模仿」出來的，看起來像但經不起推敲。Genie 3 從觀察中「學習」物理規則，建立內部的世界模型，所以它能處理訓練資料中沒出現過的情境。這就像一個人理解了重力原理，而不只是記住蘋果會掉下來。

World Model 的應用場景遠超過影片生成。遊戲開發：一句話描述場景就能生成可玩的遊戲關卡，大幅降低開發成本。機器人訓練：在虛擬環境中訓練機器人，比真實環境便宜一萬倍且零風險。建築與城市規劃：模擬建築物在不同天氣、光照、人流下的表現。教育：讓學生「走進」歷史場景或物理實驗。

更深層的意義是：AI 正在從「生成內容」進化到「模擬現實」。當 AI 能建立一個物理一致的世界模型，它對真實世界的理解就不再停留在語言層面，而是進入了空間和因果層面。這是通往具身智慧的關鍵一步。

TAKEAWAY

當 AI 能模擬整個世界，內容創作、遊戲開發、機器人訓練的範式都會被重寫。World Model 是下一個 AI 競賽的主戰場——不是比誰生成的影片最漂亮，而是比誰模擬的世界最真實。

📎

資料來源：https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/