Ollama 0.19预览版发布：MLX引擎助力Apple Silicon推理速度翻倍

Ollama 发布 0.19 预览版，其核心更新是利用苹果机器学习框架 MLX 重建了 Apple Silicon 设备的推理引擎。新版本充分利用统一内存架构，在 M5/M5 Pro/M5 Max 芯片上调用 GPU 神经网络加速器，显著优化了首 Token 延迟和生成速度。

性能基准测试
在 M5 系列芯片上运行 Qwen3.5-35B-A3B 模型（NVFP4 量化）的测试结果显示，与 Ollama 0.18 相比：

Prefill 速度：从 1154 tokens/s 提升至 1810 tokens/s。
Decode 速度：从 58 tokens/s 提升至 112 tokens/s，接近翻倍。
若改用 int4 精度，decode 速度可进一步提升至 134 tokens/s。

主要特性更新

支持 NVFP4 量化格式：这是一种在降低内存占用同时保持模型精度的量化方式，与英伟达生态及主流云端推理服务格式兼容。
缓存系统升级：支持跨会话复用缓存（如与 Claude Code 工具共享系统提示词）、在关键位置存储提示词快照以减少重复处理，并采用更智能的缓存淘汰策略。

使用要求与接入
当前预览版需要配备 32GB 以上统一内存的 Mac 设备。针对编程任务调优的模型 Qwen3.5-35B-A3B，可通过命令 ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 接入 Claude Code 使用。

🔥 实时行情点位，群内抢先看！

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

Ollama 0.19预览版发布：MLX引擎助力Apple Silicon推理速度翻倍

分类推荐

相关内容

青岚AI简报（TPV交易系统）

查看更多币种价格>>

更多链上数据指标

青岚观点

币圈日报

交易技术

标签

搜索

您还没有登录

Ollama 0.19预览版发布：MLX引擎助力Apple Silicon推理速度翻倍

分类推荐

相关内容

青岚AI简报 （TPV交易系统）

查看更多币种价格>>

更多链上数据指标

青岚观点

币圈日报

交易技术

标签

搜 索

感谢您的打赏

分享文章

青岚AI简报（TPV交易系统）

搜索