由Papers with Code联合创始人Ross Taylor创立的General Reasoning公司,正式发布了开放平台OpenReward。该平台提供了超过330个强化学习环境和450万个独立任务,开发者可通过单一API训练和评估AI智能体。
核心特性
- 开放标准:基于开源的Open Reward Standard (ORS) HTTP协议,环境代码托管于GitHub,可与任意训练框架对接。
- 托管服务:提供可选的按用量计费的托管基础设施。
- 重点环境:
- 英伟达 Nemotron-Math-Proofs-v1:约58万道数学证明题。
- Nebius SWE-rebench-V2:覆盖Python、JavaScript等语言的3.2万多个软件工程任务。
- Eigent SETA:面向CLI操作的训练环境。
- EndlessTerminals:程序化生成的终端任务环境。
平台目前处于公开测试阶段,训练功能以早期研究预览形式开放。