微软发布了桌面语音输入工具 Vibing,基于其开源语音AI模型 VibeVoice,支持 macOS 和 Windows,可免费使用。
核心功能
- 快捷录音与转录:按下快捷键(Mac 右 Option / Windows Ctrl+Win)即可在任意应用中录音,结束后自动输出文本,转录速度快且准确。
- 智能文本重写:不仅支持语音转文字,还能通过LLM将口语重写为适合当前场景的书面文本。
- 实时编辑与控制:支持在输入过程中用自然语言直接修改、删除或整理已有内容。
- 其他特性:支持单次5分钟以上连续录音、50+种语言自动识别、中英文混合输入、自定义热词及实时翻译。
技术背景
底层的 VibeVoice 模型家族在 GitHub 上采用 MIT 协议开源,星标超 2.8 万,包含:
- 7B 参数 ASR 模型:可单次处理长达60分钟的音频。
- 1.5B 参数 TTS 模型:能生成90分钟的多说话人语音。
- 0.5B 参数实时模型:延迟低至300ms。
市场定位
Vibing 被视为热门付费工具 WisprFlow(Mac上受欢迎的AI语音输入工具之一)的免费开源替代品,直接进入同一赛道。