一项异常的基准测试成绩,引发了社区对Claude Mythos模型架构的猜测。
异常的性能表现
- GraphWalks BFS测试:Claude Mythos得分高达80.0%。
- 对比数据:Claude Opus 4.6为38.7%,GPT-5.4仅为21.4%。该测试要求模型在复杂图结构中进行广度优先搜索。
架构线索指向循环语言模型
社区推测,这一在图搜索任务上的“尖峰”表现,可能指向循环语言模型架构。
- 核心论文:该推测与字节跳动Seed团队于去年10月发表的LoopLM论文思路高度吻合。
- 核心思路:让同一组Transformer层对输入进行多次内部迭代计算,而非依赖生成大量外部文本来“思考”。
- 理论强项:论文明确指出,图搜索是该架构的理论优势所在。其开源小模型Ouro(14亿参数)在部分任务上可匹敌40亿参数的标准模型。
另一项佐证:Token消耗与推理速度的矛盾
- 消耗更低:Mythos在SWE-bench基准上消耗的token量仅为Opus 4.6的1/5。
- 速度更慢:但其整体推理速度反而更慢。
- 矛盾解释:若计算发生在模型内部反复迭代中,而非通过快速生成大量输出来体现,这一现象便说得通。
目前,Anthropic将Mythos的架构列为“研究敏感信息”,未予回应。若推测属实,下一代顶级模型的架构突破可能部分源自中国团队的公开研究。