Tutorial — Mar 5, 2026

Ollama v0.18 + MLX 加速實戰：Apple Silicon 跑本地 AI 的最佳設定指南

Ollama v0.18 新增 MLX 後端支援，Apple Silicon 推理速度提升 20-30%，加上 Windows ARM64 與 Nemotron 模型支援，本篇教你從安裝到優化的完整實戰步驟。

Apple Silicon 用戶跑本地 AI 模型，Ollama v0.18 搭配 MLX 是目前最快、最省記憶體的方案。以下是完整設定步驟。

第一步：升級 Ollama 到 v0.18

如果你已經安裝過 Ollama，升級很簡單：macOS 用 brew upgrade ollama，或者直接 curl -fsSL https://ollama.com/install.sh | sh 安裝最新版。確認版本 ollama --version 應該顯示 0.18.x。

v0.18 的關鍵更新是新增了 MLX 推理後端。MLX 是 Apple 自家的機器學習框架，專門針對 Apple Silicon 的統一記憶體架構優化。相比預設的 llama.cpp 後端，MLX 在 M1/M2/M3/M4 系列晶片上快 20-30%，記憶體使用也更有效率。

v0.18 預設仍然使用 llama.cpp，你需要手動啟用 MLX。設定環境變數 export OLLAMA_MLX=1，或者在啟動時指定 OLLAMA_MLX=1 ollama serve。建議把 export OLLAMA_MLX=1 加到你的 ~/.zshrc，這樣每次開機都會自動啟用。

啟用後，Ollama 會自動偵測你的晶片型號並選擇最佳的 MLX 設定。M3 Pro 以上的機型效果最明顯，因為它們有更大的統一記憶體頻寬。

v0.18 新增了 NVIDIA Nemotron 模型的支援，推薦幾個適合本地跑的模型：nemotron:12b（推理能力強，適合程式碼和分析）、qwen3:8b（通用對話，速度和品質平衡）、gemma3:4b（輕量級，適合快速回應）。

以 M3 Pro 36GB 為例，12b 模型大約佔用 8GB 記憶體，推理速度可以達到每秒 40-50 token。搭配 MLX 後端，這個數字會提升到 55-65 token/s。

幾個實用的調校參數：OLLAMA_NUM_GPU=999（Apple Silicon 建議全部放 GPU）、OLLAMA_NUM_PARALLEL=2（設定並行請求數）、OLLAMA_CONTEXT_LENGTH=8192（依記憶體調整）。

如果你的記憶體有 32GB 以上，可以大膽把 context length 拉到 16384 甚至 32768。MLX 的記憶體管理比 llama.cpp 更高效，同樣的記憶體可以塞更長的上下文。

跑一個簡單的基準測試：ollama run nemotron:12b "用 Python 寫一個快速排序演算法，附帶詳細註解" --verbose。注意輸出最後會顯示 eval rate，這就是每秒生成的 token 數。把它和關閉 MLX 時的數字比較，你應該會看到 20-30% 的提升。

v0.18 另一個重要更新是正式支援 Windows ARM64（Snapdragon X 系列）。如果你用的是新一代 Windows ARM 筆電，現在可以原生跑 Ollama，不需要 x86 模擬層。

TAKEAWAY

本地 AI 的體驗正在快速改善。Ollama v0.18 + MLX 讓 Apple Silicon 用戶不需要雲端 API、不需要付費訂閱，就能在自己的電腦上跑出堪用的 AI 助手。隱私、速度、成本三個維度都贏。花 10 分鐘升級設定，你會發現本地模型的實用性已經超乎想像。

📎

資料來源：https://github.com/ollama/ollama