- 内部dogfooding数据公开:50余名工程师完成约200个真实研发任务,覆盖功能开发、bug修复、重构与诊断。
- 技术栈包括PyTorch、CUDA、Rust、C++,经筛选保留30个评测集。
通过率对比
- V4-Pro-Max:67%(显著高于Sonnet 4.5的47%)
- Opus 4.5:70%
- Opus 4.5 Thinking:73%
- Opus 4.6 Thinking:80%
- Haiku 4.5:仅13%
内部调查(N=85)
- 全部受访者日常使用V4-Pro进行agentic coding。
- 52% 认为可将其设为默认主力编码模型。
- 39% 倾向认可,不足9% 否定。
- 主要反馈问题:低级错误、模糊prompt误解、偶发过度思考。