谷歌研究团队在《Transactions on Machine Learning Research》上公开了合成数据引擎Simula。该框架将合成数据生成从“逐条造数据”升级为“设计整个数据集”,并已在谷歌内部大规模部署。
Simula是Gemma系列中ShieldGemma(安全)、MedGemma(医疗)等专用模型的主要数据来源,也为Gemini安全分类器、Android诈骗检测等提供训练数据。
Simula的核心优势
与依赖人工提示或真实数据种子的传统方法不同,Simula无需种子数据,可从零构建整个数据集,并通过四步流程精确控制:
- 全局多样性:将目标领域递归拆解为层级知识树,确保数据覆盖长尾场景。
- 局部多样性:在每个知识节点下生成多种不同场景和表述,避免概念单一化。
- 复杂化:可按配置比例提升部分场景难度,独立调节数据集难度分布。
- 质量控制:采用双评审员机制独立判断数据正确性,抵消模型偏差。
测试效果与关键发现
研究团队在网络安全、法律推理等五个领域测试表明:
- Simula完整流程在所有领域均优于简化方案。
- 数据质量比数量更重要:Simula用更少的数据实现了更高的下游性能。
- 效果无通用配方:例如,高难度数据在数学推理上提升准确率,但在法律推理上因教师模型能力限制反而拖累表现。