Ollama 发布 0.19 预览版,其核心更新是利用苹果机器学习框架 MLX 重建了 Apple Silicon 设备的推理引擎。新版本充分利用统一内存架构,在 M5/M5 Pro/M5 Max 芯片上调用 GPU 神经网络加速器,显著优化了首 Token 延迟和生成速度。
性能基准测试
在 M5 系列芯片上运行 Qwen3.5-35B-A3B 模型(NVFP4 量化)的测试结果显示,与 Ollama 0.18 相比:
- Prefill 速度:从 1154 tokens/s 提升至 1810 tokens/s。
- Decode 速度:从 58 tokens/s 提升至 112 tokens/s,接近翻倍。
- 若改用 int4 精度,decode 速度可进一步提升至 134 tokens/s。
主要特性更新
- 支持 NVFP4 量化格式:这是一种在降低内存占用同时保持模型精度的量化方式,与英伟达生态及主流云端推理服务格式兼容。
- 缓存系统升级:支持跨会话复用缓存(如与 Claude Code 工具共享系统提示词)、在关键位置存储提示词快照以减少重复处理,并采用更智能的缓存淘汰策略。
使用要求与接入
当前预览版需要配备 32GB 以上统一内存的 Mac 设备。针对编程任务调优的模型 Qwen3.5-35B-A3B,可通过命令 ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 接入 Claude Code 使用。