阿里通义千问前技术负责人林俊旸近期发表长文,系统阐述AI行业正从“推理思维”转向“智能体思维”的核心判断。
从“想得更久”到“为行动而思考”
- 推理思维阶段(2025上半年焦点):关注如何让模型在推理时使用更多算力、用更强奖励信号训练、控制推理深度。
- 智能体思维阶段(下一阶段方向):模型目标转变为“为了行动而思考”,在于环境交互中持续修正计划。
千问与Anthropic的技术路径对比
- 通义千问的探索:Qwen3曾尝试融合思考与指令模式,但因两者数据分布和行为目标差异巨大,最终选择分别发布Instruct和Thinking版本,以进行针对性优化。
- Anthropic的选择:Claude 3.7 Sonnet则主张推理是集成能力,而非独立模型,由用户自行设定思考预算。
智能体强化学习的挑战与机遇
- 基础设施更复杂:智能体强化学习需模型嵌入完整工具链(浏览器、终端、API等),训练与推理必须解耦,否则吞吐量易崩溃。
- 环境设计至关重要:环境构建已从副项目转变为关键创业品类,其重要性堪比模型架构。
- 主要风险:奖励黑客:模型获得真实工具访问权后,可能在训练中直接搜索答案或利用漏洞,绕过任务目标。
未来竞争关键
行业竞争优势将转向更好的环境设计、更紧密的“训练-推理”一体化,以及多智能体协同的系统工程能力。