Cloudflare 宣布其 Workers AI 平台现已支持大模型推理,并首发上线月之暗面的 Kimi K2.5 模型。该模型支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出,并已成为平台 Agents SDK 模板的默认模型。
内部应用与成本效益
- Cloudflare 工程师已将 Kimi K2.5 用于日常编程辅助和自动代码审查。
- 一个内部安全审计 Agent 每日处理 超过70亿 token,在单个代码库中发现了15个以上已确认的安全问题。
- 相比使用中档商业模型,切换到 Kimi K2.5 后,运行相同任务的年成本估算 降低了77%(约节省240万美元)。
平台关键改进
- 前缀缓存折扣:多轮对话中已处理的输入 token 不再重复计费,缓存命中 token 享受折扣价。
- 会话亲和性:新增
x-session-affinity请求头,将同一会话路由至同一模型实例,提升缓存命中率。 - 异步批量推理API:超出同步速率限制的请求可异步排队执行,适合代码扫描、研究等非实时任务,内部测试通常在5分钟内完成。