项目概述
Hugging Face 开源了 ml-intern,一个能自主完成「读论文、整理数据集、启动 GPU 训练、评估结果、迭代改进」全流程的 ML 研究代理。项目基于 smolagents 框架构建,提供 CLI 和网页端两种入口,代码已在 GitHub 开源。
核心工具链
ml-intern 的工具链围绕 Hugging Face 生态搭建:
- 论文检索与深读:在 arXiv 和 HF Papers 上检索论文并沿引用链深入阅读。
- 数据集处理:浏览 HF Hub 上的数据集,检查质量后重新格式化再投入训练。
- 云端训练:本地无 GPU 时可调用 HF Jobs 启动云端训练任务,训练结束后自动读取评估输出、诊断失败原因并重跑。
- 决策循环:默认调用 Claude Sonnet 4.5 驱动,单次最多迭代 300 轮,上下文超过 170k token 自动压缩。
应用案例
- 科学推理:代理从基准论文的引用链中找到 OpenScience 和 NemoTron-CrossThink 数据集,从 ARC、SciQ、MMLU 中按难度过滤出 7 个变体,在 Qwen3-1.7B 上跑了 12 轮 SFT,GPQA 得分从 10% 提升至 32%,耗时不到 10 小时。
- 医疗场景:代理判断现有数据集质量不足,自行编写脚本生成 1100 条合成数据并扩增 50 倍用于训练,在 HealthBench 上超过 Codex 60%。
- 竞赛数学:代理自行编写 GRPO 训练脚本,在 A100 上通过 HF Spaces 启动训练,观测到奖励塌缩后跑消融实验排查原因。