Anthropic工程团队确认,近一个月用户反馈的Claude Code质量下降,源于三个独立的产品层改动,API与底层模型未受影响。问题分别于4月7日、10日和20日修复,最终版本为v2.1.116。
原因一:推理力度下调
- 3月4日,为减少Opus 4.6高推理力度下的极长延迟,默认推理力度从high降为medium。
- 用户反馈“变笨”后,4月7日回滚。现Opus 4.7默认xhigh,其他模型默认high。
原因二:缓存Bug
- 3月26日引入缺陷:会话闲置超1小时后,清除旧推理记录的机制出错,导致每轮都重复清除。
- 模型逐步丢失推理上下文,出现健忘、重复操作、工具调用异常,且用户额度加速消耗。
- 内部实验掩盖了复现条件,排查耗时一周多,4月10日修复。回测显示,Opus 4.7能发现该Bug,Opus 4.6不能。
原因三:系统Prompt干扰
- 4月16日随Opus 4.7上线,新增减少冗余输出的指令。
- 内部测试无问题,但上线后与其他Prompt叠加,损害编码质量。扩大评测显示,Opus 4.6与4.7均下降3%,4月20日回滚。
后续改进
Anthropic将要求内部员工使用与用户完全相同的公开构建版本,对系统Prompt每次修改都跑全模型评测套件并设置灰度期。已重置所有订阅用户的用量额度作为补偿。