阿里通义千问前技术负责人林俊旸近期发表长文,系统阐述AI行业正从“推理思维”转向“智能体思维”的核心判断。

从“想得更久”到“为行动而思考”

  • 推理思维阶段(2025上半年焦点):关注如何让模型在推理时使用更多算力、用更强奖励信号训练、控制推理深度。
  • 智能体思维阶段(下一阶段方向):模型目标转变为“为了行动而思考”,在于环境交互中持续修正计划。

千问与Anthropic的技术路径对比

  • 通义千问的探索:Qwen3曾尝试融合思考与指令模式,但因两者数据分布和行为目标差异巨大,最终选择分别发布Instruct和Thinking版本,以进行针对性优化。
  • Anthropic的选择:Claude 3.7 Sonnet则主张推理是集成能力,而非独立模型,由用户自行设定思考预算。

智能体强化学习的挑战与机遇

  • 基础设施更复杂:智能体强化学习需模型嵌入完整工具链(浏览器、终端、API等),训练与推理必须解耦,否则吞吐量易崩溃。
  • 环境设计至关重要:环境构建已从副项目转变为关键创业品类,其重要性堪比模型架构。
  • 主要风险:奖励黑客:模型获得真实工具访问权后,可能在训练中直接搜索答案或利用漏洞,绕过任务目标。

未来竞争关键
行业竞争优势将转向更好的环境设计、更紧密的“训练-推理”一体化,以及多智能体协同的系统工程能力。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化