Telvr 如何工作？

按下快捷键，自然说话，Telvr 实时转录。文本直接插入光标所在位置。

支持哪些语言？

通过 Whisper large-v3 支持 50 多种语言。

不需要。按量计费：每月 EUR 3 + 每分钟 EUR 0.03。

支持离线使用吗？

目前基于云端。社区版本支持本地部署在规划中。

支持哪些应用？

系统范围，适用任何应用。

TLS 加密，无永久存储，与 Groq 签署数据处理协议。

← 博客2026-02-23

Whisper vs Deepgram：2026年哪个语音引擎更好？

Q: 支持哪些应用？

系统范围，适用任何应用。

语音识别的两种哲学

OpenAI Whisper和Deepgram代表构建语音识别系统的两种不同方法。Whisper被设计为通用、多语言模型，在庞大的互联网音频语料库上训练。Deepgram被构建为商业API优先产品，针对速度和开发人员集成进行了优化。两者都很优秀。都不是通用更好。

理解哪个适合特定用例需要查看架构、基准、定价模型和不同工作负载的实际含义。

架构

Whisper

Whisper是一个编码器解码器转换器模型，由OpenAI在68万小时的从网络上抓取的多语言音频上训练。该架构将音频作为对数梅尔频谱图特征处理，通过卷积编码器传递它们，并使用语言模型解码器解码为文本。

该模型有多种大小：tiny、base、small、medium、large-v2和large-v3。Telvr使用的large-v3模型是最准确的，但也是最重的——在本地运行需要支持的GPU或大量CPU时间。

关键特征：Whisper在互联网上的多样、嘈杂音频上训练。这给予它对口音、背景噪音和非正式语音的显著鲁棒性。权衡是它不是最快的模型，不提供某些用例需要的流式/实时架构。

Deepgram

Deepgram构建了自己的端到端深度学习架构，针对实时流转录进行了优化。他们的Nova-3模型专门为英语训练（随时间添加了强大的多语言支持），在架构上设计为产生低延迟的逐个令牌输出。

Deepgram的模型不公开作为开源提供。它仅通过Deepgram API或自托管Deepgram企业部署运行。虽然广泛，训练数据比Whisper的互联网规模语料库更精编。

准确度基准

准确度比较以上下文依赖而臭名昭著。两个模型表现良好；差异出现在特定条件下。

标准基准上的字错误率（WER）：

Whisper large-v3和Deepgram Nova-3在标准英文基准上有竞争力，两者在干净音频上实现WER低于5%。
Whisper large-v3在强口音语音和混合语言输入上超过Nova-3。
Nova-3在需要在说话完成前获得部分结果的流式使用情况上超过Whisper。

Whisper表现出色的真实世界条件：

混合语言语音（代码切换）
强口音的非母语英语
无训练的技术词汇
来自不同来源的背景噪音（街道、咖啡馆）

Deepgram表现出色的真实世界条件：

呼叫中心音频带已知的说话人档案
实时流式处理，其中首个令牌延迟很重要
干净或半干净环境中的美国英语
发言人二分化（识别谁说了什么）

速度和延迟

Whisper（通过Groq API，如Telvr使用）： 仅转录步骤不到1秒。Groq的推理硬件专为转换器模型构建，使Whisper large-v3的运行速度比本地GPU推理快得多。

Whisper（本地，Apple M3）： 30秒音频片段3-6秒。较小的模型运行更快。

Deepgram Nova-3（流式）： 300-500毫秒用于流式模式下首个词出现。对于完整音频文件的批转录，总延迟与通过API的Whisper相似。

流式能力是Deepgram在实时应用中的杰出优势。对于按键说话工作流（记录、停止、获取结果），通过Groq的Whisper和Deepgram之间的延迟差异在实践中最少。

语言支持

Whisper large-v3： 支持99种语言。性能对于低资源语言优雅降级而不是完全失败。内置自动语言检测。

Deepgram Nova-3： 强大的英语支持，随时间添加额外语言。截至2026年，约35种语言的质量水平不同。英语准确度很好；许多其他语言仍然低于Whisper的水平。

对于多语言工作流，Whisper是明确的选择。对于英语主要应用，其中速度和流式处理很重要，Deepgram是有竞争力的。

定价

Whisper（OpenAI API）： 每分钟$0.006。无流式选项。

Whisper（通过Groq API）： 按等级变化。快速推理、开发人员工作负载的竞争定价。

Deepgram Nova-3： 按需支付的$0.0043每分钟起。体积折扣可用。流式产生相同费率。

Telvr的使用成本： EUR 0.03每分钟，反映转录加AI增强处理的组合成本。原始Deepgram或Whisper API每分钟更便宜，但这些是没有应用层的原始API。

开发人员体验

Whisper（OpenAI API）：

简单REST端点，标准音频文件上传
无流式
音频文件大小限制（25MB免费，100MB付费）
响应时间适合按键说话工作流，不是实时字幕

Deepgram：

用于实时流式处理的WebSocket API
批文件的REST API
更多功能：发言人二分化、关键词增强、自定义词汇
实时用例的更好开发人员文档

自托管Whisper：

完全开源、Docker可部署
无API成本
需要GPU基础设施
自定义管道的最大灵活性

使用哪个用例

按键说话桌面应用： 通过快速推理API的Whisper large-v3。准确度和语言支持使其成为更好的选择，一旦考虑到完整管道，延迟可与Deepgram相比。

实时字幕 / 现场转录： Deepgram流式API。子500毫秒首个令牌延迟对于可读现场字幕是必要的。

呼叫中心 / 电话音频： Deepgram带自定义词汇和发言人二分化功能。

多语言应用： Whisper。没有替代品匹配其99语言覆盖与自动检测。

隐私敏感、本地部署： 自托管Whisper。Deepgram的自托管选项存在但仅企业。

成本敏感、高音量英文转录： Deepgram Nova-3在$0.0043/分钟时比OpenAI的$0.006/分钟更便宜。

Telvr使用什么

Telvr通过Groq推理API使用Whisper large-v3。选择很刻意：large-v3跨语言提供最高准确度，Groq的硬件将转录步骤延迟降低至不到一秒，自动语言检测意味着用户在切换语言时无需配置任何东西。

随后的增强层——AI后处理来清理输出、格式化电子邮件、结构化备注——不是Whisper或Deepgram的一部分。它是一个单独的LLM步骤，将原始转录转换为格式化、可用的文本。

结论

Whisper和Deepgram不是直接竞争对手，而是不同工作的不同工具。Whisper large-v3是多语言、嘈杂、真实世界音频的准确度领导者。Deepgram Nova-3是英语主要、实时应用的速度和流式领导者。

对于桌面生产力工具，其中质量比实时流式处理很重要，通过快速推理API的Whisper large-v3是更好的基础。对于需要用户说话时词出现的应用，Deepgram的流式架构专为该用例构建。