xAI 正式开放了两个独立的音频API:Grok Speech to Text (STT) 和 Grok Text to Speech (TTS)。它们基于支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频技术栈。
Grok Speech to Text (STT) 功能
- 两种模式:REST API(用于批量转录大文件)和 WebSocket API(面向实时语音流)。
- 核心能力:提供词级时间戳、说话人分离、多通道识别,以及将口语数字、日期等自动转换为规范文本。
- 语言支持:覆盖超过25种语言,支持对话中无缝切换。
性能与定价
- 词错率对比:据xAI测试,Grok STT在整体场景词错率(WER)为6.9%,在电话通话实体识别等场景表现优势更明显。
- 定价:
- STT批处理:0.10美元/小时
- STT流式处理:0.20美元/小时
- TTS:4.20美元/100万字符
Grok Text to Speech (TTS) 功能
TTS支持通过内联语音标签(如 [laugh]、[whisper])来控制语音的情感与韵律,使合成语音更自然生动。