Zwei Philosophien der Spracherkennung
OpenAI Whisper und Deepgram repräsentieren zwei unterschiedliche Ansätze zum Bauen eines Spracherkennungssystems. Whisper wurde als universales, multilingual-Modell konzipiert, trainiert auf riesiger Korpora von Internet-Audio. Deepgram wurde als Commercial-API-first-Produkt gebaut, optimiert für Geschwindigkeit und Entwickler-Integration. Beide sind exzellent. Keines ist universell besser.
Das Verständnis, welches einem bestimmten Anwendungsfall passt, erfordert einen Blick auf die Architektur, Benchmarks, Preismodell und praktische Implikationen für unterschiedliche Arbeitslasten.
Architektur
Whisper
Whisper ist ein Encoder-Decoder-Transformer-Modell, trainiert von OpenAI auf 680.000 Stunden multilingualem Audio aus dem Web. Die Architektur verarbeitet Audio als Log-Mel-Spectrogram-Features, passt sie durch einen Convolutional Encoder und decodiert zu Text mit einem Language-Model Decoder.
Das Modell ist in mehreren Größen verfügbar: tiny, base, small, medium, large-v2 und large-v3. Das large-v3-Modell, das von Telvr verwendet wird, ist das genaueste aber auch schwerste — lokales Ausführen erfordert eine fähige GPU oder bedeutende CPU-Zeit.
Eine Schlüssel-Charakteristik: Whisper wurde auf diverse, laute Audio aus dem Internet trainiert. Das gibt ihm bemerkenswerter Robustheit gegen Akzente, Hintergrundlärm und informelle Sprache. Der Tradeoff ist, dass es nicht das schnellste Modell ist und nicht die Streaming/Echtzeit-Architektur anbietet, die manche Anwendungsfälle brauchen.
Deepgram
Deepgram baute seine eigene End-to-End-Deep-Learning-Architektur, optimiert für Echtzeit-Streaming-Transkription. Ihr Nova-3-Modell ist speziell für gesprochenes Englisch trainiert (mit starker multilingual-Unterstützung hinzugefügt über Zeit) und ist Architektur-mäßig konzipiert um Low-Latency-Ausgaben Token-für-Token zu erzeugen.
Deepgrams Modell ist nicht öffentlich als Open-Source verfügbar. Es läuft nur über Deepgrams API oder auf selbstgehosteten Deepgram-Enterprise-Deployments. Die Trainingsdaten, obwohl ausgedehnt, sind kuratierter als Whispers Internet-Scale-Korpora.
Genauigkeit Benchmarks
Genauigkeit-Vergleiche sind notorisch kontext-abhängig. Beide Modelle performen gut; die Unterschiede entstehen unter spezifischen Bedingungen.
Word Error Rate (WER) auf Standard-Benchmarks:
- Whisper large-v3 und Deepgram Nova-3 sind wettbewerbsfähig auf Standard-Englisch-Benchmarks, beide erreichen WER unter 5% auf sauberen Audio.
- Whisper large-v3 outperformt Nova-3 auf stark akzentuierter Sprache und gemischtem Sprachinput.
- Nova-3 outperformt Whisper auf Streaming-Anwendungsfällen, wo Teilresultate vor der vollendeten Äußerung benötigt werden.
Reale Bedingungen, wo Whisper excelliert:
- Gemischter Sprachinput (Code-Switching)
- Nicht-natives Englisch mit starkem Akzent
- Technisches Vokabular ohne Training
- Hintergrundlärm aus verschiedenen Quellen (Straßen, Cafés)
Reale Bedingungen, wo Deepgram excelliert:
- Call-Center-Audio mit bekannten Sprecher-Profilen
- Echtzeit-Streaming, wo First-Token-Latenz wichtig ist
- Amerikanisches Englisch in sauberer oder semi-sauberer Umgebung
- Speaker-Diarization (wer was sagte identifizieren)
Geschwindigkeit und Latenz
Whisper (via Groq API, wie von Telvr verwendet): Unter 1 Sekunde für den Transkriptions-Schritt allein. Groqs Inference-Hardware ist speziell gebaut für Transformer-Modelle, was Whisper large-v3 weitaus schneller laufen lässt als lokale GPU-Inference.
Whisper (lokal, Apple M3): 3-6 Sekunden für einen 30-Sekunden-Audio-Clip. Kleinere Modelle laufen schneller.
Deepgram Nova-3 (Streaming): 300-500ms für erste Wort-Erscheinung im Streaming-Modus. Für Batch-Transkription einer kompletten Audio-Datei ist die Gesamt-Latenz ähnlich wie Whisper via API.
Die Streaming-Fähigkeit ist Deepgrams hervorragender Vorteil für Echtzeitanwendungen. Für Push-to-Talk-Workflows (Aufnahme, Stopp, Ergebnis bekommen) ist der Latenz-Unterschied zwischen Whisper via Groq und Deepgram in der Praxis minimal.
Sprachunterstützung
Whisper large-v3: Unterstützt 99 Sprachen. Performance degradiert angemessen für Sprachen mit niedrigerem Ressourcen statt zu scheitern. Automatische Spracherkennung ist eingebaut.
Deepgram Nova-3: Starke Englisch-Unterstützung mit zusätzlichen Sprachen über Zeit hinzugefügt. Ab 2026 etwa 35 Sprachen mit varying Quality-Levels. Englisch-Genauigkeit ist exzellent; viele andere Sprachen sind noch unter Whispers Level.
Für multilinguale Workflows ist Whisper die klare Wahl. Für Englisch-primäre Anwendungen, wo Geschwindigkeit und Streaming wichtig sind, ist Deepgram konkurrenzfähig.
Preise
Whisper (OpenAI API): $0,006 pro Minute. Keine Streaming-Option.
Whisper (via Groq API): Varies nach Tier. Schnelle Inference, konkurrenzfähige Preise für Developer-Arbeitslasten.
Deepgram Nova-3: Startend bei $0,0043 pro Minute für Pay-as-you-Go. Volume-Rabatte verfügbar. Streaming kostet den gleichen Satz.
Telvrs Nutzungskosten: EUR 0,03 pro Minute, was die kombinierte Kosten von Transkription plus AI-Anreicherungs-Verarbeitung reflektiert. Rohes Deepgram oder Whisper API ist pro Minute günstiger, aber das sind reine APIs ohne die Application-Schicht.
Developer Experience
Whisper (OpenAI API):
- Einfacher REST-Endpunkt, Standard Audio-Datei Upload
- Keine Streaming
- Audio-Datei-Größen-Limits (25MB kostenlos, 100MB bezahlt)
- Reaktionszeit geeignet für Push-to-Talk-Workflows, nicht Echtzeit-Untertitelung
Deepgram:
- WebSocket API für Echtzeit-Streaming
- REST API für Batch-Dateien
- Mehr Features: Speaker Diarization, Keyword Boosting, Custom Vocabulary
- Bessere Developer-Docs für Echtzeit-Anwendungsfälle
Selbstgehostetes Whisper:
- Vollständig Open-Source, Docker-deploybars
- Keine API-Kosten
- Erfordert GPU-Infrastruktur
- Maximale Flexibilität für Custom-Pipelines
Welches für welchen Anwendungsfall verwenden
Push-to-Talk Desktop-Apps: Whisper large-v3 via schnelle Inference API. Die Genauigkeit und Sprachunterstützung machen es die bessere Wahl, und Latenz ist vergleichbar mit Deepgram wenn man die komplette Pipeline berücksichtigt.
Echtzeit-Untertitelung / Live-Transkription: Deepgram Streaming API. Die sub-500ms First-Token-Latenz ist notwendig für lesbare Live-Untertitel.
Call Center / Telefon-Audio: Deepgram mit Custom Vocabulary und Speaker Diarization Features.
Multilinguale Anwendungen: Whisper. Keine Alternative matched seine 99-Sprachen-Abdeckung mit automatischer Erkennung.
Datenschutz-sensitiv, lokales Deployment: Selbstgehostetes Whisper. Deepgrams Self-Hosted-Option existiert aber ist Enterprise-only.
Kosten-sensitiv, High-Volume Englisch-Transkription: Deepgram Nova-3 bei $0,0043/min ragt OpenAIs $0,006/min leicht aus.
Was Telvr verwendet
Telvr verwendet Whisper large-v3 via Groqs Inference API. Die Wahl war deliberat: large-v3 bietet höchste Genauigkeit über Sprachen, Groqs Hardware bringt Latenz auf unter eine Sekunde für den Transkriptions-Schritt und die automatische Spracherkennung bedeutet Nutzer müssen nichts konfigurieren beim Sprachenwechsel.
Die Anreicherungsschicht, die folgt — AI-Nachbearbeitung zur Ausgabe-Bereinigung, E-Mail-Formatierung, Notizbefestigung — ist nicht Teil von Whisper oder Deepgram. Es ist ein separater LLM-Schritt, der roh Transkription in formatiertem, nutzbarem Text transformiert.
Fazit
Whisper und Deepgram sind nicht direkte Konkurrenten so sehr wie unterschiedliche Werkzeuge für unterschiedliche Jobs. Whisper large-v3 ist der Genauigkeits-Anführer für multilinguale, laute, reale-Welt-Audio. Deepgram Nova-3 ist der Geschwindigkeits- und Streaming-Anführer für Englisch-primäre, Echtzeit-Anwendungen.
Für ein Desktop-Produktivitäts-Werkzeug, wo Qualität über Echtzeit-Streaming wichtig ist, ist Whisper large-v3 via schnelle Inference API die bessere Grundlage. Für Anwendungen, wo Wörter erscheinen müssen, während der Nutzer spricht, ist Deepgrams Streaming-Architektur speziell gebaut für diesen Anwendungsfall.