乐天集团发布 Rakuten AI 3.0,并宣布以 Apache 2.0 协议免费开源。该模型被宣传为“日本最大高性能AI模型”。
核心特性
- 架构与规模:采用 MoE(混合专家)架构,总参数 671B,每次推理激活 37B。
- 性能表现:上下文窗口为 128K,针对日语进行了优化,在多项日语基准测试中据称超越了 GPT-4o。
- 项目背景:该模型是日本经济产业省与 NEDO 联合推进的 GENIAC 项目成果,获得了政府提供的部分训练算力资助。
模型来源
乐天在公告中提及“充分利用开源社区最优成果”。社区通过 HuggingFace 上的模型配置文件发现:
model_type字段明确为 deepseek_v3。architectures字段为 DeepseekV3ForCausalLM。- 其总参数、激活参数及上下文窗口大小与 DeepSeek V3 完全一致。
这表明 Rakuten AI 3.0 是在 DeepSeek V3 基础之上,使用日语数据进行微调而来的模型。