缓存机制失效:Claude Code用户额度为何“蒸发”?
近期,独立开发者ArkNill通过代理监控工具发现了一个关键问题:在过去一个月内,Claude Code的提示词缓存读取率仅为4%至17%,远低于正常水平(97%-99%)。这意味着用户在恢复之前的对话会话时,系统并未有效复用已处理的上下文,而是每次都进行完整的令牌重建,导致API额度消耗激增至正常情况的10到20倍。

技术故障的时间线与影响
根据npm注册表的发布记录,该Bug最早出现在3月4日发布的v2.1.69版本中,直到4月1日的v2.1.90版本才被修复,持续时间长达28天,涉及20个中间版本。值得注意的是,在3月13日至28日期间,Anthropic推出了非高峰时段额度翻倍的促销活动,这在一定程度上掩盖了Bug的影响。促销结束后,用户额度消耗速度恢复正常基线,问题才集中爆发。

用户遭遇的实际损失
- 极端案例:一位Max 20x订阅用户(月费200美元)报告称,其5小时滚动窗口额度在19分钟内耗尽。
- 普遍现象:Max 5x用户(月费100美元)的额度在90分钟内用完;甚至有用户反映,仅发送一条“hello”消息就消耗了13%的会话配额。
- 长期影响:部分Pro用户(月费20美元)表示,其额度在每周一即告罄,需等到周六重置,导致30天内仅有12天可正常使用。
基准测试显示,在存在Bug的v2.1.89版本上,Max 20x计划的全部配额约70分钟就会耗尽。恢复一个包含50万令牌上下文的会话,单次操作成本约为0.15美元。

官方回应与用户质疑
4月1日,Anthropic团队成员Lydia Hallie发布了调查结论,确认高峰时段限额已收紧,并承认百万令牌上下文的会话消耗增大。她强调“没有任何一个Bug导致了多收费”,并给出了四条节省额度的建议:
- 优先使用Sonnet 4.6模型,而非消耗更快的Opus模型;
- 在无需深度推理时,降低推理强度或关闭扩展思考功能;
- 闲置超过一小时的会话不建议恢复,应重新开启;
- 通过设置环境变量限制上下文窗口大小。
然而,官方并未提及任何额度重置或补偿方案。AI播客主持人Alex Volkov批评这一回应为“你用错了方式”,指出Anthropic一方面将大上下文、高性能模型作为核心卖点推广,另一方面却建议付费用户避免使用这些功能,存在自相矛盾之处。

行业对比与反思
与此形成对比的是,OpenAI在Codex出现类似额度异常问题时,采取了重置用户配额、补发积分并最终移除使用上限的解决方案。而Anthropic的应对策略引发了社区对SaaS服务透明度与责任承担的广泛讨论。用户支付每月20至200美元的费用,期望获得“最强模型+最大上下文+最高推理能力”的服务,一个持续28天的缓存Bug却让额度急速蒸发,官方的处理方式难以令用户满意。
青岚个人视点
此次事件暴露了AI服务商在技术运维与用户沟通上的双重短板。一个影响计费核心的缓存Bug竟潜伏近一个月,且修复过程中的官方沟通仅依赖工程师个人社交账号,缺乏正式公告,这严重损害了品牌信任度。更关键的是,将责任归因于用户使用习惯,而非正视自身技术缺陷,这种态度在竞争日益激烈的AI市场尤为危险。企业不仅需要提供强大的技术,更需建立透明的故障响应机制与用户权益保障体系,否则“最强模型”的光环也难以留住付费用户的心。
🔥 这篇深度分析够不够劲?群里还有更多加密专题干货!
想跟志同道合的朋友一起聊趋势?赶紧进群→青岚免费交易社群 (电报)
💡 感谢阅读
1、市场风云变幻,以上仅为青岚姐个人的复盘与思考,不作为任何投资建议。在加密市场的长跑中,比起预测,更重要的是执行——请务必管好仓位,严带止损,愿我们且行且珍惜,在每一轮波动中稳健前行!
2、关于如何合理设置止盈止损,请点这里查看青岚姐的教程。
3、本文由青岚加密课堂整理优化,如需转载请注明出处。