谷歌发布新一代文本转语音模型Gemini 3.1 Flash TTS,其核心亮点在于开发者能像导演一样,用自然语言精确控制AI语音。

核心功能:自然语言控制
通过“音频标签”功能,开发者在输入文本中嵌入自然语言指令,即可实时调整语音的语调、节奏、情绪乃至口音,甚至能在单句话中切换风格。

“导演椅”式配置界面
谷歌在Google AI Studio中提供了三层控制界面:

  • 场景指导:设定环境与对话指令,保持角色性格一致性。
  • 角色级调参:为每个角色独立配置语速、语调、口音。
  • 一键导出:将调试好的参数导出为Gemini API代码,便于跨平台复用。

性能与可用性

  • 在Artificial Analysis的TTS排行榜上,它以1211分的Elo评分登顶,并被列入“最具吸引力象限”(高质量、低成本)。
  • 支持70多种语言及原生多角色对话。
  • 所有生成音频均内嵌SynthID水印用于AI内容识别。
  • 模型已通过Gemini API、Google AI Studio、Vertex AI及Google Vids上线。

开发者价值
该模型将TTS从一个简单的朗读工具,转变为可编程的语音表演引擎。开发者无需依赖复杂的后期处理或SSML标记,用自然语言指令即可快速生成富有情感的语音,并轻松实现品牌语音风格的统一与复用。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化