月之暗面开源了新一代旗舰模型 Kimi K2.6,并已在 Kimi.com 网页、App、开放平台 API 及自研编程工具 Kimi Code 中上线。
核心性能表现
在多项编程与代理任务基准测试中,K2.6 的表现超越了当前主流闭源旗舰模型:
- SWE-Bench Pro: 58.6分,高于GPT-5.4 xhigh的57.7分。
- HLE全集带工具: 54.0分,高于三家闭源模型。
- DeepSearchQA f1: 92.5分,显著高于GPT-5.4的78.6分。
- Terminal-Bench 2.0: 66.7分,仅次于Gemini 3.1 Pro的68.5分。
- SWE-Bench Verified: 80.2分,与Claude Opus 4.6、Gemini 3.1 Pro处于同一水平。
长程执行实测
官方公布了两组长程任务实测结果:
- 在Mac本地使用Zig语言重写Qwen3.5-0.8B推理,经过12小时运行与14轮迭代,吞吐量从约15 tokens/sec提升至193 tokens/sec,比LM Studio快约20%。
- 接管一个8年历史的开源撮合引擎exchange-core,经过13小时运行、修改4000多行代码并重构核心线程拓扑后,吞吐量提高了185%。
Agent能力升级
K2.6 同步升级了 Agent Swarm 能力,可同时运行300个子代理(前代K2.5为100个),最多支持4000步执行(前代为1500步)。月之暗面团队已利用K2.6运行了一个为期5天的自主值班运维代理。