スピーチ認識の2つの哲学
OpenAI WhisperとDeepgramはスピーチ認識システム構築への2つの異なるアプローチを表わしています。Whisperはインターネットオーディオの広大なコーパスで訓練されたユニバーサルで多言語モデルとして設計。Deepgramは商業API優先製品として構築、速度と開発者統合に最適化。両方素晴らしい。どちらも普遍的に優れている。
特定の使用例に何が適切かを理解するには、アーキテクチャ、ベンチマーク、価格モデル、異なるワークロードの実用的な意味を調べます。
アーキテクチャ
Whisper
Whisperはエンコーダーデコーダートランスフォーマーモデルで、OpenAIによってWebから削除された680,000時間の多言語オーディオで訓練。アーキテクチャはログメルスペクトログラム機能としてオーディオを処理し、畳み込みエンコーダー経由でそれらを渡し、言語モデルデコーダーを使用してテキストにデコード。
モデルは複数のサイズで利用可能: tiny、base、small、medium、large-v2、large-v3。Telvrで使用されたlarge-v3モデルは最も正確だが、最も重い。ローカル実行はcapable GPUまたは大きなCPU時間が必要。
重要な特性: Whisperはインターネットの多様でノイズのあるオーディオで訓練。これはアクセント、背景ノイズ、非公式なスピーチに対する顕著な堅牢性を与えます。トレードオフは、最速モデルではなく、いくつかのユースケースが必要とするストリーミング/リアルタイムアーキテクチャを提供しない。
Deepgram
Deepgramはリアルタイムストリーミングトランスクリプション用に最適化された独自のエンドツーエンド深い学習アーキテクチャを構築。Nova-3モデルは低レイテンシ出力トークントークンを生成するアーキテクチャー固有のためのスピーン英語で訓練。
Deepgramのモデルはオープンソース利用不可。Deepgram APIか自己ホスト Deepgramエンタープライズデプロイメント経由のみで実行。訓練データは、Whisperのインターネット規模コーパスより利用可能なものより入手可能で、より増加。
精度ベンチマーク
精度比較は文脈に依存します。両方は優れて、動作する ; 違いは特定の条件で出現。
標準ベンチマークでの単語エラー率(WER):
- Whisper large-v3 と Deepgram Nova-3はクリーン オーディオ上の標準英語ベンチマークで競争力があり、両方5%未満のWER達成。
- Whisper large-v3はアクセント強い音声と混合言語入力でNova-3を上回る。
- Nova-3は部分的な結果が必要とされるストリーミング使用例でWhisper上で上回る。
Whisperが優れた実世界の条件:
- 混合言語スピーチ(コード切り替え)
- 非ネイティブ英語強いアクセント
- 訓練なしの技術語彙
- 多くの情報源からの背景ノイズ(街路、カフェ)
Deepgramが優れた実世界の条件:
- 既知のスピーカープロフィールでのコールセンターオーディオ
- リアルタイムストリーミングがファーストトークンレイテンシが重要なとき
- クリーンまたは半クリーン環境でのアメリカ英語
- スピーカーダイアライゼーション(誰が何を言ったかを特定)
速度とレイテンシ
Whisper(Groq API経由、Telvrで使用): トランスクリプションステップのみで1秒未満。Groqの推論ハードウェアはトランスフォーマーモデル用に特別に構築、ローカルGPU推論をはるかに高速にWhisper large-v3を実行。
Whisper(ローカル、AppleM3): 30秒オーディオクリップの3-6秒。より小さいモデルはより速く実行。
Deepgram Nova-3(ストリーミング): 最初の単語の外観で300-500ms。ストリーミング書類はバッチトランスクリプション完全オーディオファイルで、合計レイテンシはWhisper APIを通じて同じ。
ストリーミング機能はリアルタイムアプリケーションのDeegramの傑出した利点。プッシュトゥトークワークフロー(記録、停止、結果取得)で、Groq経由WhisperとDeegramの間のレイテンシ違いは実際には最小限。
言語サポート
Whisper large-v3: 99言語をサポート。ロー リソース言語でのパフォーマンスは完全に失敗ではなく等級でデグラード。自動言語検出が組み込まれ。
Deepgram Nova-3: 強いイング支持、時間とともに追加言語。2026年時点で、35言語の周辺、さまざまな品質レベル。英語の精度は優れたが、他の多くの言語はWhisperのレベルを下回ります。
多言語ワークフロー、Whisperはクリアな選択肢。英語優先アプリケーションでスピードとストリーミング要素、Deepgramは競争力あり。
価格設定
Whisper(OpenAI API): 1分当たり$0.006。ストリーミングオプションなし。
Whisper(Groq API経由): 開発者ワークロードのために変動、ティアー。高速推論、競争力のある価格設定による。
Deepgram Nova-3: 従量課金で$0.0043/分から開始。ボリューム割引利用可能。ストリーミングは同じレート負う。
Telvr使用費: 1分あたり0.03ユーロ、トランスクリプション+AI充実処理の結合費用を反映。生のDeegramまたはWhisper APIはより安価/分だが、これはアプリケーション層なしの生APIです。
開発者の経験
Whisper(OpenAI API):
- シンプルなREST エンドポイント、標準オーディオファイルアップロード
- ストリーミングなし
- オーディオファイルサイズ制限(無料25MB、有料100MB)
- リアルタイムキャプションではなく、プッシュトゥトークワークフロー用に適した応答時間
Deepgram:
- リアルタイムストリーミング用WebSocket API
- バッチファイル用REST API
- より多くの機能: スピーカーダイアライゼーション、キーワードブースト、カスタム語彙
- リアルタイム使用例の開発者ドキュメント改善
自己ホスト Whisper:
- 完全にオープンソース、Docker互換
- APIコストなし
- GPU インフラストラクチャが必要
- カスタムパイプラインの最大の柔軟性
どちらの使用例をどれに使用するか
プッシュトゥトークデスクトップアプリ: 高速推論APIを通じてWhisper large-v3。精度と言語サポートは選択肢を作り、レイテンシはパイプラインを通じてDeepgramに比較可能。
リアルタイムキャプション / ライブトランスクリプション: Deepgramストリーミング API。500ms未満の最初のトークンレイテンシは読み取り可能なライブキャプション必要。
コールセンター / 電話オーディオ: カスタム語彙とスピーカーダイアライゼーション機能を備えたDeeproject。
多言語アプリケーション: Whisper。99言語カバレッジで自動検出が一致しない代替。
プライバシー敏感で、ローカルデプロイ: セルフホストされたWhisper。Deepgramのセルフホスト エンタープライズのみオプション存在。
費用敏感、高音量の英語トランスクリプション: Deepgram Nova-3、$0.0043/分でOpenAIの$0.006/分を上回ります。
Telvrが使用するもの
Telvrはが Groq推論API経由でWhisper large-v3を使用します。選択は意図的でした: large-v3はすべての言語全体の最高精度を提供し、Groqのハードウェアはトランスクリプションステップのレイテンシを1秒未満に下げ、自動言語検出は言語を切り替えるときに何も設定する必要がないことを意味します。
その後の充実層 - AIの後処理、出力のクリーンアップ、フォーマットメール、構造ノート - Whisperもしくはdeepgramの一部ではありません。それは生のトランスクリプションをフォーマットされた使用可能なテキストに変換する別々のLLMステップ。
まとめ
Whisper と Deepgramは直接競争相手というより、異なるジョブのための異なるツール。Whisper large-v3はリアルタイムの多言語、ノイズ、実世界のオーディオの精度リーダー。Deepgram Nova-3は英語優先、リアルタイムアプリケーション用のスピードとストリーミングリーダー。
リアルタイムストリーミングより品質が重要なデスクトップ生産性ツールでは、高速推論APIを通じてWhisper large-v3が優れた基礎。ユーザーが話す際に言葉が表示される必要があるアプリケーション については、Deepgramのストリーミングアーキテクチャはその使用例用に特別に目的。