Wie funktioniert Telvr?

Drücke eine Taste irgendwo auf deinem System, sprich natürlich, und Telvr transkribiert deine Stimme in Echtzeit mit Whisper. Der fertige Text wird automatisch an der Cursorposition eingefügt — kein Kopieren, kein App-Wechsel.

Welche Sprachen werden unterstützt?

Telvr unterstützt über 50 Sprachen über OpenAIs Whisper large-v3 Modell. Die Spracherkennung erfolgt automatisch — sprich einfach in deiner bevorzugten Sprache und Telvr erledigt den Rest.

Brauche ich ein Abonnement?

Nein. Telvr nutzt ein Pay-as-you-go-Modell: 3 EUR monatliche Infrastrukturgebühr plus 0,03 EUR pro Minute Nutzung. Keine Bindung, keine automatische Verlängerung. Du lädst dein Guthaben auf und nutzt es in deinem eigenen Tempo.

Funktioniert Telvr offline?

Derzeit benötigt Telvr eine Internetverbindung für die cloudbasierte Transkription über Groq. Eine Community Edition mit lokaler Verarbeitung über deinen eigenen API-Schlüssel ist für die Zukunft geplant.

Welche Apps werden unterstützt?

Telvr funktioniert systemweit — es fügt Text an der Cursorposition in jeder Anwendung ein. E-Mail-Programme, Chat-Apps, Code-Editoren, Browser, Textverarbeitungen — wenn du darin tippen kannst, funktioniert Telvr dort.

Sind meine Daten sicher?

Alle Daten werden über TLS-Verschlüsselung übertragen. Audioaufnahmen werden nach der Transkription nicht dauerhaft gespeichert. Groq verarbeitet dein Audio unter einem Auftragsverarbeitungsvertrag (AVV). Wir verkaufen oder teilen deine Daten nicht.

← Blog2026-02-23

Whisper vs Deepgram: Welche Speech Engine ist besser in 2026?

Zwei Philosophien der Spracherkennung

OpenAI Whisper und Deepgram repräsentieren zwei unterschiedliche Ansätze zum Bauen eines Spracherkennungssystems. Whisper wurde als universales, multilingual-Modell konzipiert, trainiert auf riesiger Korpora von Internet-Audio. Deepgram wurde als Commercial-API-first-Produkt gebaut, optimiert für Geschwindigkeit und Entwickler-Integration. Beide sind exzellent. Keines ist universell besser.

Das Verständnis, welches einem bestimmten Anwendungsfall passt, erfordert einen Blick auf die Architektur, Benchmarks, Preismodell und praktische Implikationen für unterschiedliche Arbeitslasten.

Architektur

Whisper

Whisper ist ein Encoder-Decoder-Transformer-Modell, trainiert von OpenAI auf 680.000 Stunden multilingualem Audio aus dem Web. Die Architektur verarbeitet Audio als Log-Mel-Spectrogram-Features, passt sie durch einen Convolutional Encoder und decodiert zu Text mit einem Language-Model Decoder.

Das Modell ist in mehreren Größen verfügbar: tiny, base, small, medium, large-v2 und large-v3. Das large-v3-Modell, das von Telvr verwendet wird, ist das genaueste aber auch schwerste — lokales Ausführen erfordert eine fähige GPU oder bedeutende CPU-Zeit.

Eine Schlüssel-Charakteristik: Whisper wurde auf diverse, laute Audio aus dem Internet trainiert. Das gibt ihm bemerkenswerter Robustheit gegen Akzente, Hintergrundlärm und informelle Sprache. Der Tradeoff ist, dass es nicht das schnellste Modell ist und nicht die Streaming/Echtzeit-Architektur anbietet, die manche Anwendungsfälle brauchen.

Deepgram

Deepgram baute seine eigene End-to-End-Deep-Learning-Architektur, optimiert für Echtzeit-Streaming-Transkription. Ihr Nova-3-Modell ist speziell für gesprochenes Englisch trainiert (mit starker multilingual-Unterstützung hinzugefügt über Zeit) und ist Architektur-mäßig konzipiert um Low-Latency-Ausgaben Token-für-Token zu erzeugen.

Deepgrams Modell ist nicht öffentlich als Open-Source verfügbar. Es läuft nur über Deepgrams API oder auf selbstgehosteten Deepgram-Enterprise-Deployments. Die Trainingsdaten, obwohl ausgedehnt, sind kuratierter als Whispers Internet-Scale-Korpora.

Genauigkeit Benchmarks

Genauigkeit-Vergleiche sind notorisch kontext-abhängig. Beide Modelle performen gut; die Unterschiede entstehen unter spezifischen Bedingungen.

Word Error Rate (WER) auf Standard-Benchmarks:

Whisper large-v3 und Deepgram Nova-3 sind wettbewerbsfähig auf Standard-Englisch-Benchmarks, beide erreichen WER unter 5% auf sauberen Audio.
Whisper large-v3 outperformt Nova-3 auf stark akzentuierter Sprache und gemischtem Sprachinput.
Nova-3 outperformt Whisper auf Streaming-Anwendungsfällen, wo Teilresultate vor der vollendeten Äußerung benötigt werden.

Reale Bedingungen, wo Whisper excelliert:

Gemischter Sprachinput (Code-Switching)
Nicht-natives Englisch mit starkem Akzent
Technisches Vokabular ohne Training
Hintergrundlärm aus verschiedenen Quellen (Straßen, Cafés)

Reale Bedingungen, wo Deepgram excelliert:

Call-Center-Audio mit bekannten Sprecher-Profilen
Echtzeit-Streaming, wo First-Token-Latenz wichtig ist
Amerikanisches Englisch in sauberer oder semi-sauberer Umgebung
Speaker-Diarization (wer was sagte identifizieren)

Geschwindigkeit und Latenz

Whisper (via Groq API, wie von Telvr verwendet): Unter 1 Sekunde für den Transkriptions-Schritt allein. Groqs Inference-Hardware ist speziell gebaut für Transformer-Modelle, was Whisper large-v3 weitaus schneller laufen lässt als lokale GPU-Inference.

Whisper (lokal, Apple M3): 3-6 Sekunden für einen 30-Sekunden-Audio-Clip. Kleinere Modelle laufen schneller.

Deepgram Nova-3 (Streaming): 300-500ms für erste Wort-Erscheinung im Streaming-Modus. Für Batch-Transkription einer kompletten Audio-Datei ist die Gesamt-Latenz ähnlich wie Whisper via API.

Die Streaming-Fähigkeit ist Deepgrams hervorragender Vorteil für Echtzeitanwendungen. Für Push-to-Talk-Workflows (Aufnahme, Stopp, Ergebnis bekommen) ist der Latenz-Unterschied zwischen Whisper via Groq und Deepgram in der Praxis minimal.

Sprachunterstützung

Whisper large-v3: Unterstützt 99 Sprachen. Performance degradiert angemessen für Sprachen mit niedrigerem Ressourcen statt zu scheitern. Automatische Spracherkennung ist eingebaut.

Deepgram Nova-3: Starke Englisch-Unterstützung mit zusätzlichen Sprachen über Zeit hinzugefügt. Ab 2026 etwa 35 Sprachen mit varying Quality-Levels. Englisch-Genauigkeit ist exzellent; viele andere Sprachen sind noch unter Whispers Level.

Für multilinguale Workflows ist Whisper die klare Wahl. Für Englisch-primäre Anwendungen, wo Geschwindigkeit und Streaming wichtig sind, ist Deepgram konkurrenzfähig.

Preise

Whisper (OpenAI API): $0,006 pro Minute. Keine Streaming-Option.

Whisper (via Groq API): Varies nach Tier. Schnelle Inference, konkurrenzfähige Preise für Developer-Arbeitslasten.

Deepgram Nova-3: Startend bei $0,0043 pro Minute für Pay-as-you-Go. Volume-Rabatte verfügbar. Streaming kostet den gleichen Satz.

Telvrs Nutzungskosten: EUR 0,03 pro Minute, was die kombinierte Kosten von Transkription plus AI-Anreicherungs-Verarbeitung reflektiert. Rohes Deepgram oder Whisper API ist pro Minute günstiger, aber das sind reine APIs ohne die Application-Schicht.

Developer Experience

Whisper (OpenAI API):

Einfacher REST-Endpunkt, Standard Audio-Datei Upload
Keine Streaming
Audio-Datei-Größen-Limits (25MB kostenlos, 100MB bezahlt)
Reaktionszeit geeignet für Push-to-Talk-Workflows, nicht Echtzeit-Untertitelung

Deepgram:

WebSocket API für Echtzeit-Streaming
REST API für Batch-Dateien
Mehr Features: Speaker Diarization, Keyword Boosting, Custom Vocabulary
Bessere Developer-Docs für Echtzeit-Anwendungsfälle

Selbstgehostetes Whisper:

Vollständig Open-Source, Docker-deploybars
Keine API-Kosten
Erfordert GPU-Infrastruktur
Maximale Flexibilität für Custom-Pipelines

Welches für welchen Anwendungsfall verwenden

Push-to-Talk Desktop-Apps: Whisper large-v3 via schnelle Inference API. Die Genauigkeit und Sprachunterstützung machen es die bessere Wahl, und Latenz ist vergleichbar mit Deepgram wenn man die komplette Pipeline berücksichtigt.

Echtzeit-Untertitelung / Live-Transkription: Deepgram Streaming API. Die sub-500ms First-Token-Latenz ist notwendig für lesbare Live-Untertitel.

Call Center / Telefon-Audio: Deepgram mit Custom Vocabulary und Speaker Diarization Features.

Multilinguale Anwendungen: Whisper. Keine Alternative matched seine 99-Sprachen-Abdeckung mit automatischer Erkennung.

Datenschutz-sensitiv, lokales Deployment: Selbstgehostetes Whisper. Deepgrams Self-Hosted-Option existiert aber ist Enterprise-only.

Kosten-sensitiv, High-Volume Englisch-Transkription: Deepgram Nova-3 bei $0,0043/min ragt OpenAIs $0,006/min leicht aus.

Was Telvr verwendet

Telvr verwendet Whisper large-v3 via Groqs Inference API. Die Wahl war deliberat: large-v3 bietet höchste Genauigkeit über Sprachen, Groqs Hardware bringt Latenz auf unter eine Sekunde für den Transkriptions-Schritt und die automatische Spracherkennung bedeutet Nutzer müssen nichts konfigurieren beim Sprachenwechsel.

Die Anreicherungsschicht, die folgt — AI-Nachbearbeitung zur Ausgabe-Bereinigung, E-Mail-Formatierung, Notizbefestigung — ist nicht Teil von Whisper oder Deepgram. Es ist ein separater LLM-Schritt, der roh Transkription in formatiertem, nutzbarem Text transformiert.

Fazit

Whisper und Deepgram sind nicht direkte Konkurrenten so sehr wie unterschiedliche Werkzeuge für unterschiedliche Jobs. Whisper large-v3 ist der Genauigkeits-Anführer für multilinguale, laute, reale-Welt-Audio. Deepgram Nova-3 ist der Geschwindigkeits- und Streaming-Anführer für Englisch-primäre, Echtzeit-Anwendungen.

Für ein Desktop-Produktivitäts-Werkzeug, wo Qualität über Echtzeit-Streaming wichtig ist, ist Whisper large-v3 via schnelle Inference API die bessere Grundlage. Für Anwendungen, wo Wörter erscheinen müssen, während der Nutzer spricht, ist Deepgrams Streaming-Architektur speziell gebaut für diesen Anwendungsfall.