
DeepSeek 不只在追趕前沿,它正在定義 agentic AI 訓練的新方法論。
Sparse Attention:讓長上下文不再是瓶頸
V3.2 最核心的技術突破是低秩 KV cache 壓縮。傳統 Transformer 的注意力機制在處理長序列時,KV cache 會線性膨脹,吃掉大量 GPU 記憶體。DeepSeek 的做法是對 KV cache 做低秩分解,在幾乎不損失精度的前提下,把記憶體佔用壓縮到原本的三分之一以下。
搭配 Sparse Attention 策略,模型不再對所有 token 做全量注意力計算,而是動態選擇最相關的 token 子集。這讓 V3.2 能高效處理超長上下文,同時保持推理速度。對於需要閱讀大量文件的 agent 場景,這是關鍵能力。
85K Agentic 合成資料:訓練資料的質變
DeepSeek 團隊用自動化流程生成了 85,000 筆 agentic 任務資料,涵蓋多步驟推理、工具呼叫、錯誤修正等場景。這些不是簡單的問答對,而是完整的 agent 工作流程紀錄。
更值得注意的是「thinking with tools」這個訓練範式。傳統的思維鏈(Chain-of-Thought)是純文字推理,V3.2 則讓模型在推理過程中穿插工具呼叫——計算到一半去查資料庫、寫一段程式碼驗證假設、呼叫 API 取得即時資訊。這讓「思考」不再是封閉的內部運算,而是可以和外部世界互動的開放流程。
MIT 授權:最寬鬆的開源
整個專案採用 MIT 授權釋出,這意味著商業使用完全沒有限制。權重、訓練程式碼、合成資料流程全部公開。相比其他附帶使用限制的「開源」模型,DeepSeek 的誠意是實打實的。
V3.2 傳遞的訊息很清楚:下一代 AI 不是「更大的語言模型」,而是「會用工具思考的 agent」。DeepSeek 不只開源了模型,更開源了訓練 agentic AI 的方法論。如果你在做 agent 相關開發,這套 thinking with tools 的訓練框架值得深入研究——它可能會成為接下來一年的產業標準做法。
更多 AI 新聞
追蹤 IG 第一時間收到 AI 新聞推播。