xAI 正式开放了两个独立的音频API:Grok Speech to Text (STT)Grok Text to Speech (TTS)。它们基于支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频技术栈。

Grok Speech to Text (STT) 功能

  • 两种模式:REST API(用于批量转录大文件)和 WebSocket API(面向实时语音流)。
  • 核心能力:提供词级时间戳、说话人分离、多通道识别,以及将口语数字、日期等自动转换为规范文本。
  • 语言支持:覆盖超过25种语言,支持对话中无缝切换。

性能与定价

  • 词错率对比:据xAI测试,Grok STT在整体场景词错率(WER)为6.9%,在电话通话实体识别等场景表现优势更明显。
  • 定价
    • STT批处理:0.10美元/小时
    • STT流式处理:0.20美元/小时
    • TTS:4.20美元/100万字符

Grok Text to Speech (TTS) 功能

TTS支持通过内联语音标签(如 [laugh][whisper])来控制语音的情感与韵律,使合成语音更自然生动。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化