• 内部dogfooding数据公开:50余名工程师完成约200个真实研发任务,覆盖功能开发、bug修复、重构与诊断。
  • 技术栈包括PyTorch、CUDA、Rust、C++,经筛选保留30个评测集。

通过率对比

  • V4-Pro-Max:67%(显著高于Sonnet 4.5的47%)
  • Opus 4.5:70%
  • Opus 4.5 Thinking:73%
  • Opus 4.6 Thinking:80%
  • Haiku 4.5:仅13%

内部调查(N=85)

  • 全部受访者日常使用V4-Pro进行agentic coding。
  • 52% 认为可将其设为默认主力编码模型。
  • 39% 倾向认可,不足9% 否定。
  • 主要反馈问题:低级错误、模糊prompt误解、偶发过度思考。

🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化