博客

Whisper vs Deepgram:2026年哪个语音引擎更好?

语音识别的两种哲学

OpenAI Whisper和Deepgram代表构建语音识别系统的两种不同方法。Whisper被设计为通用、多语言模型,在庞大的互联网音频语料库上训练。Deepgram被构建为商业API优先产品,针对速度和开发人员集成进行了优化。两者都很优秀。都不是通用更好。

理解哪个适合特定用例需要查看架构、基准、定价模型和不同工作负载的实际含义。

架构

Whisper

Whisper是一个编码器解码器转换器模型,由OpenAI在68万小时的从网络上抓取的多语言音频上训练。该架构将音频作为对数梅尔频谱图特征处理,通过卷积编码器传递它们,并使用语言模型解码器解码为文本。

该模型有多种大小:tiny、base、small、medium、large-v2和large-v3。Telvr使用的large-v3模型是最准确的,但也是最重的——在本地运行需要支持的GPU或大量CPU时间。

关键特征:Whisper在互联网上的多样、嘈杂音频上训练。这给予它对口音、背景噪音和非正式语音的显著鲁棒性。权衡是它不是最快的模型,不提供某些用例需要的流式/实时架构。

Deepgram

Deepgram构建了自己的端到端深度学习架构,针对实时流转录进行了优化。他们的Nova-3模型专门为英语训练(随时间添加了强大的多语言支持),在架构上设计为产生低延迟的逐个令牌输出。

Deepgram的模型不公开作为开源提供。它仅通过Deepgram API或自托管Deepgram企业部署运行。虽然广泛,训练数据比Whisper的互联网规模语料库更精编。

准确度基准

准确度比较以上下文依赖而臭名昭著。两个模型表现良好;差异出现在特定条件下。

标准基准上的字错误率(WER):

  • Whisper large-v3和Deepgram Nova-3在标准英文基准上有竞争力,两者在干净音频上实现WER低于5%。
  • Whisper large-v3在强口音语音和混合语言输入上超过Nova-3。
  • Nova-3在需要在说话完成前获得部分结果的流式使用情况上超过Whisper。

Whisper表现出色的真实世界条件:

  • 混合语言语音(代码切换)
  • 强口音的非母语英语
  • 无训练的技术词汇
  • 来自不同来源的背景噪音(街道、咖啡馆)

Deepgram表现出色的真实世界条件:

  • 呼叫中心音频带已知的说话人档案
  • 实时流式处理,其中首个令牌延迟很重要
  • 干净或半干净环境中的美国英语
  • 发言人二分化(识别谁说了什么)

速度和延迟

Whisper(通过Groq API,如Telvr使用): 仅转录步骤不到1秒。Groq的推理硬件专为转换器模型构建,使Whisper large-v3的运行速度比本地GPU推理快得多。

Whisper(本地,Apple M3): 30秒音频片段3-6秒。较小的模型运行更快。

Deepgram Nova-3(流式): 300-500毫秒用于流式模式下首个词出现。对于完整音频文件的批转录,总延迟与通过API的Whisper相似。

流式能力是Deepgram在实时应用中的杰出优势。对于按键说话工作流(记录、停止、获取结果),通过Groq的Whisper和Deepgram之间的延迟差异在实践中最少。

语言支持

Whisper large-v3: 支持99种语言。性能对于低资源语言优雅降级而不是完全失败。内置自动语言检测。

Deepgram Nova-3: 强大的英语支持,随时间添加额外语言。截至2026年,约35种语言的质量水平不同。英语准确度很好;许多其他语言仍然低于Whisper的水平。

对于多语言工作流,Whisper是明确的选择。对于英语主要应用,其中速度和流式处理很重要,Deepgram是有竞争力的。

定价

Whisper(OpenAI API): 每分钟$0.006。无流式选项。

Whisper(通过Groq API): 按等级变化。快速推理、开发人员工作负载的竞争定价。

Deepgram Nova-3: 按需支付的$0.0043每分钟起。体积折扣可用。流式产生相同费率。

Telvr的使用成本: EUR 0.03每分钟,反映转录加AI增强处理的组合成本。原始Deepgram或Whisper API每分钟更便宜,但这些是没有应用层的原始API。

开发人员体验

Whisper(OpenAI API):

  • 简单REST端点,标准音频文件上传
  • 无流式
  • 音频文件大小限制(25MB免费,100MB付费)
  • 响应时间适合按键说话工作流,不是实时字幕

Deepgram:

  • 用于实时流式处理的WebSocket API
  • 批文件的REST API
  • 更多功能:发言人二分化、关键词增强、自定义词汇
  • 实时用例的更好开发人员文档

自托管Whisper:

  • 完全开源、Docker可部署
  • 无API成本
  • 需要GPU基础设施
  • 自定义管道的最大灵活性

使用哪个用例

按键说话桌面应用: 通过快速推理API的Whisper large-v3。准确度和语言支持使其成为更好的选择,一旦考虑到完整管道,延迟可与Deepgram相比。

实时字幕 / 现场转录: Deepgram流式API。子500毫秒首个令牌延迟对于可读现场字幕是必要的。

呼叫中心 / 电话音频: Deepgram带自定义词汇和发言人二分化功能。

多语言应用: Whisper。没有替代品匹配其99语言覆盖与自动检测。

隐私敏感、本地部署: 自托管Whisper。Deepgram的自托管选项存在但仅企业。

成本敏感、高音量英文转录: Deepgram Nova-3在$0.0043/分钟时比OpenAI的$0.006/分钟更便宜。

Telvr使用什么

Telvr通过Groq推理API使用Whisper large-v3。选择很刻意:large-v3跨语言提供最高准确度,Groq的硬件将转录步骤延迟降低至不到一秒,自动语言检测意味着用户在切换语言时无需配置任何东西。

随后的增强层——AI后处理来清理输出、格式化电子邮件、结构化备注——不是Whisper或Deepgram的一部分。它是一个单独的LLM步骤,将原始转录转换为格式化、可用的文本。

结论

Whisper和Deepgram不是直接竞争对手,而是不同工作的不同工具。Whisper large-v3是多语言、嘈杂、真实世界音频的准确度领导者。Deepgram Nova-3是英语主要、实时应用的速度和流式领导者。

对于桌面生产力工具,其中质量比实时流式处理很重要,通过快速推理API的Whisper large-v3是更好的基础。对于需要用户说话时词出现的应用,Deepgram的流式架构专为该用例构建。