关闭导航

包含标签"强化学习"的内容

林俊旸首谈AI新趋势:行业重心正从训练模型转向训练智能体
青岚老师 6 天前 44 0

阿里通义千问前技术负责人林俊旸近期发表长文,系统阐述AI行业正从“推理思维”转向“智能体思维”的核心判断。 从“想得更久”到“为行动而思考” 推理思维阶段(2025上半年焦点):关注如何让模型在推理

OpenReward上线:330+强化学习环境,一个API训练AI智能体
青岚老师 8 天前 0 0

由Papers with Code联合创始人Ross Taylor创立的General Reasoning公司,正式发布了开放平台OpenReward。该平台提供了超过330个强化学习环境和450万个

Cursor发布Composer 2技术报告:RL模拟真实编码,性能提升70%
青岚老师 8 天前 13 0

Cursor 发布了 Composer 2 的详细技术报告,首次公开其完整训练方案。 核心架构与训练 底座模型:采用 MoE 架构的 Kimi K2.5,总参数量达 1.04 万亿,激活参数量为 3

OpenAI核心研究员Max Schwarzer离职,加盟Anthropic专注强化学习
青岚老师 29 天前 177 0

3月4日,OpenAI推理模型核心研究员Max Schwarzer在X平台宣布离职,并已加入竞争对手Anthropic。 关键角色:Schwarzer是o1推理模型的早期参与者,主导了o1和o3模型

强化学习与Web3融合:去中心化AI训练投资全景解析
青岚老师 3 个月前 338 0

人工智能训练范式的演进:从预训练到后训练 当前人工智能的发展正经历一次深刻转型,其核心正从依赖海量数据的“模式拟合”统计学习,转向以“结构化推理”为标志的新型能力体系。在这一进程中,“后训练”阶段的重

强化学习驱动去中心化AI:Web3如何重塑智能训练范式
青岚老师 3 个月前 288 0

人工智能正从“模式拟合”迈向“结构化推理”,后训练的重要性日益凸显。以DeepSeek-R1为代表,强化学习(RL)已被证明能系统提升大模型的推理与决策能力,成为持续提升智能水平的关键路径。 与此同时

sitemap