Ollama 发布 0.19 预览版,其核心更新是利用苹果机器学习框架 MLX 重建了 Apple Silicon 设备的推理引擎。新版本充分利用统一内存架构,在 M5/M5 Pro/M5 Max 芯片上调用 GPU 神经网络加速器,显著优化了首 Token 延迟和生成速度。

性能基准测试
在 M5 系列芯片上运行 Qwen3.5-35B-A3B 模型(NVFP4 量化)的测试结果显示,与 Ollama 0.18 相比:

  • Prefill 速度:从 1154 tokens/s 提升至 1810 tokens/s。
  • Decode 速度:从 58 tokens/s 提升至 112 tokens/s,接近翻倍。
  • 若改用 int4 精度,decode 速度可进一步提升至 134 tokens/s。

主要特性更新

  1. 支持 NVFP4 量化格式:这是一种在降低内存占用同时保持模型精度的量化方式,与英伟达生态及主流云端推理服务格式兼容。
  2. 缓存系统升级:支持跨会话复用缓存(如与 Claude Code 工具共享系统提示词)、在关键位置存储提示词快照以减少重复处理,并采用更智能的缓存淘汰策略。

使用要求与接入
当前预览版需要配备 32GB 以上统一内存的 Mac 设备。针对编程任务调优的模型 Qwen3.5-35B-A3B,可通过命令 ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 接入 Claude Code 使用。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化