Cloudflare 宣布其 Workers AI 平台现已支持大模型推理,并首发上线月之暗面的 Kimi K2.5 模型。该模型支持 256K 上下文窗口、多轮工具调用、视觉输入和结构化输出,并已成为平台 Agents SDK 模板的默认模型。

内部应用与成本效益

  • Cloudflare 工程师已将 Kimi K2.5 用于日常编程辅助和自动代码审查。
  • 一个内部安全审计 Agent 每日处理 超过70亿 token,在单个代码库中发现了15个以上已确认的安全问题。
  • 相比使用中档商业模型,切换到 Kimi K2.5 后,运行相同任务的年成本估算 降低了77%(约节省240万美元)。

平台关键改进

  1. 前缀缓存折扣:多轮对话中已处理的输入 token 不再重复计费,缓存命中 token 享受折扣价。
  2. 会话亲和性:新增 x-session-affinity 请求头,将同一会话路由至同一模型实例,提升缓存命中率。
  3. 异步批量推理API:超出同步速率限制的请求可异步排队执行,适合代码扫描、研究等非实时任务,内部测试通常在5分钟内完成。

🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化