语音识别的两种哲学
OpenAI Whisper和Deepgram代表构建语音识别系统的两种不同方法。Whisper被设计为通用、多语言模型,在庞大的互联网音频语料库上训练。Deepgram被构建为商业API优先产品,针对速度和开发人员集成进行了优化。两者都很优秀。都不是通用更好。
理解哪个适合特定用例需要查看架构、基准、定价模型和不同工作负载的实际含义。
架构
Whisper
Whisper是一个编码器解码器转换器模型,由OpenAI在68万小时的从网络上抓取的多语言音频上训练。该架构将音频作为对数梅尔频谱图特征处理,通过卷积编码器传递它们,并使用语言模型解码器解码为文本。
该模型有多种大小:tiny、base、small、medium、large-v2和large-v3。Telvr使用的large-v3模型是最准确的,但也是最重的——在本地运行需要支持的GPU或大量CPU时间。
关键特征:Whisper在互联网上的多样、嘈杂音频上训练。这给予它对口音、背景噪音和非正式语音的显著鲁棒性。权衡是它不是最快的模型,不提供某些用例需要的流式/实时架构。
Deepgram
Deepgram构建了自己的端到端深度学习架构,针对实时流转录进行了优化。他们的Nova-3模型专门为英语训练(随时间添加了强大的多语言支持),在架构上设计为产生低延迟的逐个令牌输出。
Deepgram的模型不公开作为开源提供。它仅通过Deepgram API或自托管Deepgram企业部署运行。虽然广泛,训练数据比Whisper的互联网规模语料库更精编。
准确度基准
准确度比较以上下文依赖而臭名昭著。两个模型表现良好;差异出现在特定条件下。
标准基准上的字错误率(WER):
- Whisper large-v3和Deepgram Nova-3在标准英文基准上有竞争力,两者在干净音频上实现WER低于5%。
- Whisper large-v3在强口音语音和混合语言输入上超过Nova-3。
- Nova-3在需要在说话完成前获得部分结果的流式使用情况上超过Whisper。
Whisper表现出色的真实世界条件:
- 混合语言语音(代码切换)
- 强口音的非母语英语
- 无训练的技术词汇
- 来自不同来源的背景噪音(街道、咖啡馆)
Deepgram表现出色的真实世界条件:
- 呼叫中心音频带已知的说话人档案
- 实时流式处理,其中首个令牌延迟很重要
- 干净或半干净环境中的美国英语
- 发言人二分化(识别谁说了什么)
速度和延迟
Whisper(通过Groq API,如Telvr使用): 仅转录步骤不到1秒。Groq的推理硬件专为转换器模型构建,使Whisper large-v3的运行速度比本地GPU推理快得多。
Whisper(本地,Apple M3): 30秒音频片段3-6秒。较小的模型运行更快。
Deepgram Nova-3(流式): 300-500毫秒用于流式模式下首个词出现。对于完整音频文件的批转录,总延迟与通过API的Whisper相似。
流式能力是Deepgram在实时应用中的杰出优势。对于按键说话工作流(记录、停止、获取结果),通过Groq的Whisper和Deepgram之间的延迟差异在实践中最少。
语言支持
Whisper large-v3: 支持99种语言。性能对于低资源语言优雅降级而不是完全失败。内置自动语言检测。
Deepgram Nova-3: 强大的英语支持,随时间添加额外语言。截至2026年,约35种语言的质量水平不同。英语准确度很好;许多其他语言仍然低于Whisper的水平。
对于多语言工作流,Whisper是明确的选择。对于英语主要应用,其中速度和流式处理很重要,Deepgram是有竞争力的。
定价
Whisper(OpenAI API): 每分钟$0.006。无流式选项。
Whisper(通过Groq API): 按等级变化。快速推理、开发人员工作负载的竞争定价。
Deepgram Nova-3: 按需支付的$0.0043每分钟起。体积折扣可用。流式产生相同费率。
Telvr的使用成本: EUR 0.03每分钟,反映转录加AI增强处理的组合成本。原始Deepgram或Whisper API每分钟更便宜,但这些是没有应用层的原始API。
开发人员体验
Whisper(OpenAI API):
- 简单REST端点,标准音频文件上传
- 无流式
- 音频文件大小限制(25MB免费,100MB付费)
- 响应时间适合按键说话工作流,不是实时字幕
Deepgram:
- 用于实时流式处理的WebSocket API
- 批文件的REST API
- 更多功能:发言人二分化、关键词增强、自定义词汇
- 实时用例的更好开发人员文档
自托管Whisper:
- 完全开源、Docker可部署
- 无API成本
- 需要GPU基础设施
- 自定义管道的最大灵活性
使用哪个用例
按键说话桌面应用: 通过快速推理API的Whisper large-v3。准确度和语言支持使其成为更好的选择,一旦考虑到完整管道,延迟可与Deepgram相比。
实时字幕 / 现场转录: Deepgram流式API。子500毫秒首个令牌延迟对于可读现场字幕是必要的。
呼叫中心 / 电话音频: Deepgram带自定义词汇和发言人二分化功能。
多语言应用: Whisper。没有替代品匹配其99语言覆盖与自动检测。
隐私敏感、本地部署: 自托管Whisper。Deepgram的自托管选项存在但仅企业。
成本敏感、高音量英文转录: Deepgram Nova-3在$0.0043/分钟时比OpenAI的$0.006/分钟更便宜。
Telvr使用什么
Telvr通过Groq推理API使用Whisper large-v3。选择很刻意:large-v3跨语言提供最高准确度,Groq的硬件将转录步骤延迟降低至不到一秒,自动语言检测意味着用户在切换语言时无需配置任何东西。
随后的增强层——AI后处理来清理输出、格式化电子邮件、结构化备注——不是Whisper或Deepgram的一部分。它是一个单独的LLM步骤,将原始转录转换为格式化、可用的文本。
结论
Whisper和Deepgram不是直接竞争对手,而是不同工作的不同工具。Whisper large-v3是多语言、嘈杂、真实世界音频的准确度领导者。Deepgram Nova-3是英语主要、实时应用的速度和流式领导者。
对于桌面生产力工具,其中质量比实时流式处理很重要,通过快速推理API的Whisper large-v3是更好的基础。对于需要用户说话时词出现的应用,Deepgram的流式架构专为该用例构建。