Wie funktioniert Telvr?

Drücke eine Taste irgendwo auf deinem System, sprich natürlich, und Telvr transkribiert deine Stimme in Echtzeit mit Whisper. Der fertige Text wird automatisch an der Cursorposition eingefügt — kein Kopieren, kein App-Wechsel.

Welche Sprachen werden unterstützt?

Telvr unterstützt über 50 Sprachen über OpenAIs Whisper large-v3 Modell. Die Spracherkennung erfolgt automatisch — sprich einfach in deiner bevorzugten Sprache und Telvr erledigt den Rest.

Brauche ich ein Abonnement?

Nein. Telvr nutzt ein Pay-as-you-go-Modell: 3 EUR monatliche Infrastrukturgebühr plus 0,03 EUR pro Minute Nutzung. Keine Bindung, keine automatische Verlängerung. Du lädst dein Guthaben auf und nutzt es in deinem eigenen Tempo.

Funktioniert Telvr offline?

Derzeit benötigt Telvr eine Internetverbindung für die cloudbasierte Transkription über Groq. Eine Community Edition mit lokaler Verarbeitung über deinen eigenen API-Schlüssel ist für die Zukunft geplant.

Welche Apps werden unterstützt?

Telvr funktioniert systemweit — es fügt Text an der Cursorposition in jeder Anwendung ein. E-Mail-Programme, Chat-Apps, Code-Editoren, Browser, Textverarbeitungen — wenn du darin tippen kannst, funktioniert Telvr dort.

Sind meine Daten sicher?

Alle Daten werden über TLS-Verschlüsselung übertragen. Audioaufnahmen werden nach der Transkription nicht dauerhaft gespeichert. Groq verarbeitet dein Audio unter einem Auftragsverarbeitungsvertrag (AVV). Wir verkaufen oder teilen deine Daten nicht.

← Blog2026-02-20

Sprache-zu-Text-Vergleich 2026: Telvr vs Whisper vs Native Diktiertools

Der Stand der Sprache-zu-Text-Technologie in 2026

Spracheingabe hat sich über einfaches Diktieren hinaus entwickelt. Moderne Sprache-zu-Text-Tools können mehrere Sprachen handhaben, entfernen Füllwörter und formatieren die Ausgabe intelligent. Aber welche Lösung passt wirklich in einen Desktop-Produktivitäts-Workflow?

Wir haben drei Ansätze verglichen: Telvr (Push-to-Talk mit KI-Anreicherung), OpenAI Whisper (Open-Source-Transkription) und native Betriebssystem-Diktiertools (macOS Diktieren / Windows Spracheingabe).

Genauigkeit

Alle drei Lösungen liefern starke Genauigkeit als Baseline für Englisch in ruhigen Umgebungen. Die Unterschiede entstehen unter realistischen Bedingungen:

Telvr nutzt Whisper large-v3 über Groqs Inference-API und erreicht nahezu identische Genauigkeit wie eigenständiges Whisper mit deutlich niedrigerer Latenz. Die KI-Anreicherungs-Schicht korrigiert Grammatik und entfernt Füllwörter automatisch.
Whisper (selbst gehostet) bietet exzellente rohe Transkription, erfordert aber Nachbearbeitung für saubere Ausgabe. Das lokale Ausführen erfordert erhebliche GPU-Ressourcen.
Native Diktiertools funktionieren gut für kurze Phrasen, struggeln aber mit technischen Begriffen, gemischten Sprachen und längeren Texten.

Geschwindigkeit und Latenz

Geschwindigkeit ist wichtig, wenn Spracheingabe Tippen in echten Produktivitäts-Workflows ersetzt:

Telvr: Unter 2 Sekunden End-to-End-Latenz. Cloud-Verarbeitung über Groqs optimierte Inference bedeutet keine Anforderungen an lokale Hardware.
Whisper (lokal): Hängt komplett von deiner Hardware ab. Eine moderne GPU liefert 2-5 Sekunden für typische Texte. Nur CPU kann 10-30 Sekunden dauern.
Native Diktiertools: Nahezu sofort für kurze Phrasen. Längere Texte können Verzögerungen und Genauigkeitsverluste einführen.

Integration

Hier unterscheiden sich die Ansätze am meisten:

Telvr: System-weit funktionierend, Hotkey fügt Text direkt an deine Cursor-Position ein. Funktioniert in jeder Anwendung ohne Fenster-Wechsel. Sechs KI-Anreicherungs-Modi transformieren rohe Sprache in E-Mails, Besprechungsnotizen oder bereinigten Text.
Whisper: Erfordert eine benutzerdefinierte Pipeline. Du musst Audio aufnehmen, Transkription ausführen und das Ergebnis manuell einfügen. Mehrere Open-Source-Wrapper existieren, aber keine entspricht System-weiter Integration.
Native Diktiertools: Im Betriebssystem eingebaut, aber limitiert auf unterstützte Textfelder. Keine Anreicherung, keine Formatierung, keine Mehrfach-Modus-Ausgabe.

Sprachunterstützung

Telvr: Über 50 Sprachen über Whisper large-v3. Automatische Spracherkennung.
Whisper: Gleiches Modell, gleiche Sprachunterstützung. Selbst gehostet gibt dir volle Kontrolle.
Native Diktiertools: Variiert nach Betriebssystem. macOS unterstützt ca. 60 Sprachen, Windows Spracheingabe ist limitierter.

Preisgestaltung

Telvr: EUR 3/Monat Infrastruktur + EUR 0,03/Minute Nutzung. 14-Tage kostenlos mit EUR 3 Startguthaben.
Whisper (selbst gehostet): Kostenlos (Open-Source), erfordert aber GPU-Hardware oder Cloud-Compute-Kosten.
Whisper (API): $0,006/Minute über OpenAI API.
Native Diktiertools: Kostenlos, im Betriebssystem enthalten.

Das Fazit

Wähle Telvr wenn du Spracheingabe möchtest, die überall auf deinem Desktop funktioniert ohne Setup-Komplexität. Die KI-Anreicherungs-Modi verwandeln rohe Sprache in formatierten, professionellen Text — etwas, das weder Whisper noch native Diktiertools von Haus aus bieten.

Wähle Whisper (selbst gehostet) wenn du volle Kontrolle über deine Daten brauchst, fähige Hardware hast und komfortabel mit einer benutzerdefinierten Pipeline arbeiten kannst.

Wähle native Diktiertools für schnelle, gelegentliche Spracheingabe, wo Genauigkeit und Formatierung nicht kritisch sind.

Der größte Unterscheidungsfaktor ist Integrations-Tiefe. Telvr ist die einzige Lösung, die Transkription, KI-Verarbeitung und System-weite Text-Einfügung in einen einzelnen Hotkey kombiniert. Für Desktop-Produktivität eliminiert diese Integration die Reibung, die andere Lösungen wie einen Workaround statt als Tool anfühlen lässt.