谷歌发布Gemini 3.1 Flash-Lite预览版
该模型是Gemini 3系列中速度最快、成本最低的模型,采用混合专家(MoE)架构以降低推理成本。
核心优势:低成本与高性能
- 定价:输入$0.25/百万token,输出$1.50/百万token,约为Gemini 3.1 Pro价格的1/8。
- 速度:相比前代,首个token延迟缩短2.5倍,输出速度达每秒363个token。
- 性能:在11项基准测试中,有6项表现超越GPT-5 mini和Claude 4.5 Haiku。
- GPQA Diamond(博士级科学问答):86.9%
- MMMU-Pro(多模态推理):76.8%
- LiveCodeBench(代码生成):72.0%
技术规格与可用性
- 上下文:支持最大100万token输入,6.4万token输出。
- 多模态:接受文本、图片、音频和视频输入。
- 可调性:内置“思考级别”控制,开发者可平衡任务质量与成本。
- 获取:目前可通过Gemini API(Google AI Studio)和Vertex AI访问预览版。