
Apple Silicon 用戶跑本地 AI 模型,Ollama v0.18 搭配 MLX 是目前最快、最省記憶體的方案。以下是完整設定步驟。
第一步:升級 Ollama 到 v0.18
如果你已經安裝過 Ollama,升級很簡單:macOS 用 brew upgrade ollama,或者直接 curl -fsSL https://ollama.com/install.sh | sh 安裝最新版。確認版本 ollama --version 應該顯示 0.18.x。
v0.18 的關鍵更新是新增了 MLX 推理後端。MLX 是 Apple 自家的機器學習框架,專門針對 Apple Silicon 的統一記憶體架構優化。相比預設的 llama.cpp 後端,MLX 在 M1/M2/M3/M4 系列晶片上快 20-30%,記憶體使用也更有效率。
第二步:啟用 MLX 後端
v0.18 預設仍然使用 llama.cpp,你需要手動啟用 MLX。設定環境變數 export OLLAMA_MLX=1,或者在啟動時指定 OLLAMA_MLX=1 ollama serve。建議把 export OLLAMA_MLX=1 加到你的 ~/.zshrc,這樣每次開機都會自動啟用。
啟用後,Ollama 會自動偵測你的晶片型號並選擇最佳的 MLX 設定。M3 Pro 以上的機型效果最明顯,因為它們有更大的統一記憶體頻寬。
第三步:下載適合的模型
v0.18 新增了 NVIDIA Nemotron 模型的支援,推薦幾個適合本地跑的模型:nemotron:12b(推理能力強,適合程式碼和分析)、qwen3:8b(通用對話,速度和品質平衡)、gemma3:4b(輕量級,適合快速回應)。
以 M3 Pro 36GB 為例,12b 模型大約佔用 8GB 記憶體,推理速度可以達到每秒 40-50 token。搭配 MLX 後端,這個數字會提升到 55-65 token/s。
第四步:效能調校
幾個實用的調校參數:OLLAMA_NUM_GPU=999(Apple Silicon 建議全部放 GPU)、OLLAMA_NUM_PARALLEL=2(設定並行請求數)、OLLAMA_CONTEXT_LENGTH=8192(依記憶體調整)。
如果你的記憶體有 32GB 以上,可以大膽把 context length 拉到 16384 甚至 32768。MLX 的記憶體管理比 llama.cpp 更高效,同樣的記憶體可以塞更長的上下文。
第五步:驗證加速效果
跑一個簡單的基準測試:ollama run nemotron:12b "用 Python 寫一個快速排序演算法,附帶詳細註解" --verbose。注意輸出最後會顯示 eval rate,這就是每秒生成的 token 數。把它和關閉 MLX 時的數字比較,你應該會看到 20-30% 的提升。
Windows ARM64 支援
v0.18 另一個重要更新是正式支援 Windows ARM64(Snapdragon X 系列)。如果你用的是新一代 Windows ARM 筆電,現在可以原生跑 Ollama,不需要 x86 模擬層。
本地 AI 的體驗正在快速改善。Ollama v0.18 + MLX 讓 Apple Silicon 用戶不需要雲端 API、不需要付費訂閱,就能在自己的電腦上跑出堪用的 AI 助手。隱私、速度、成本三個維度都贏。花 10 分鐘升級設定,你會發現本地模型的實用性已經超乎想像。
更多 AI 新聞
追蹤 IG 第一時間收到 AI 新聞推播。