分布式AI实验室Gradient正式发布Echo-2分布式强化学习框架。该框架旨在通过架构层实现Learner与Actor解耦,显著降低大模型后训练成本。
核心优势与数据
- 成本大幅降低:官方数据显示,该框架可将一个300亿参数模型的后训练成本从约4500美元降至425美元,降幅超过90%。
- 关键技术:采用存算分离技术进行异步训练,支持将采样算力卸载至不稳定的廉价显卡实例,并支持基于Parallax的异构显卡集群。
未来计划
Gradient计划推出强化学习即服务平台Logits,目前已面向学生和研究人员开放预约。