Blog

Speech-to-Text für Mac: Alle Optionen verglichen (2026)

Voice-Eingabe auf macOS in 2026

macOS hatte schon immer starke Voice-Input-Grundlagen. Apple führte serverseitiges Diktieren bereits mit OS X Mountain Lion ein, und die enge Hardware-Software-Integration des Mac bedeutet, dass auch Tools von Drittanbietern tief in das System eingehakt werden können. In 2026 haben Mac-Nutzer mehr Voice-Input-Optionen als je zuvor — einschließlich Werkzeuge, die vor fünf Jahren wie Science Fiction ausgesehen hätten.

Die Herausforderung ist zu wissen, welche Option wirklich zu deinem Arbeitsablauf passt. Dieser Vergleich deckt jede relevante Option für Mac ab, mit ehrlichen Bewertungen, wo jede gewinnt und wo sie fällt.

Apple Diktieren (integriert)

Apple Diktieren ist die erste Option zu bewerten, weil es kostenlos ist und keine Installation erfordert. Aktiviere es in den Systemeinstellungen unter Tastatur, weise einen Hotkey zu (Standard ist zweimal Fn drücken oder die Diktiertaste), und du bist bereit.

Funktionsweise: Kurze Sätze verarbeiten auf dem Gerät mit Apples Sprachmodell. Längere Diktiersitzungen können optional Apples Server nutzen. Die Ausgabe erscheint in Echtzeit im aktiven Textfeld.

Genauigkeit: Stark für gemeines Englisch. Verarbeitet Umgangssprache gut. Kämpft mit technischen Begriffen, Eigennamen nicht in Apples Wörterbuch und Code-nahem Vokabular.

Formatierung: Keine über basic-Interpunktion hinaus, wenn du explizite Befehle aussprichst. Keine AI-Anreicherung. Wenn du "äh" oder "wie" sagst, erscheinen diese Wörter in deinem Text.

Datenschutz: Auf-dem-Gerät-Verarbeitung für kurze Sätze ist wirklich privat. Serververarbeitung beinhaltet das Senden von Audio an Apple.

Am besten für: Gelegentliche Diktatur in alltäglichen Apps, Nutzer, die nichts installieren wollen, iOS/macOS-Ökosystem-Nutzer.

Telvr

Telvr ist eine dedizierte Push-to-Talk-Diktatur-App für macOS. Es installiert sich als Menüleisten-App und bietet systemweite Voice-Eingabe mit AI-Anreicherung.

Funktionsweise: Du hältst einen konfigurierbaren Hotkey überall auf deinem Mac — in jeder App, in jedem Textfeld, sogar im Terminal. Sprich deinen Inhalt, lasse los und innerhalb von etwa zwei Sekunden erscheint der verarbeitete Text genau dort, wo dein Cursor ist.

Die Verarbeitungspipeline nutzt Whisper large-v3 über Groqs Inference API zur Transkription, gefolgt von einem AI-Anreicherungsschritt, der rohes Sprechen in formatierte Ausgabe transformiert.

Sechs Anreicherungsmodi:

  • Raw Transkription: exakte Sprachausgabe, minimal verarbeitet
  • Sauber und Korrekt: entfernt Füllwörter, behebt Grammatik, fügt Interpunktion ein
  • Professionelle E-Mail: formatiert Sprache als komplette E-Mail mit Betreffzeile und Gruß
  • Besprechungsnotizen: strukturiert Inhalt in Bullet Points mit Entscheidungen und Aktionspunkten
  • 2-3 Satz Zusammenfassung: verdichtet längere Sprache in enge Zusammenfassung
  • Dev-Aufgabe: strukturiert eine Entwicklungsaufgabe mit Kontext und Akzeptanzkriterien

Genauigkeit: Whisper large-v3 ist unter den genauesten verfügbaren Modellen. Kombiniert mit der Anreicherungsschicht, die Grammatik korrigiert und Unflüssigkeit entfernt, ist die Ausgabqualität konsequent höher als reine Transkriptionswerkzeuge.

Latenz: Unter 2 Sekunden für typische Passage. Die Cloud-Verarbeitung über Groqs optimierte Inference ist schnell genug, dass die Verzögerung sich "denkend" anfühlt, nicht "puffernd".

Sprachunterstützung: 50+ Sprachen mit automatischer Erkennung. Telvr verlangt nicht, dass du deine Sprache einstellst — es erkennt sie aus deiner Sprache.

Preise: EUR 3 pro Monat Infrastrukturgebühr plus EUR 0,03 pro Minute tatsächliches Diktieren. Eine 14-Tage-Testversion enthält EUR 3 Startguthaben.

Am besten für: Profis, die systemweite Voice-Eingabe wollen, die saubere, formatierte Ausgabe ohne manuelle Bearbeitung erzeugt.

Wispr Flow

Wispr Flow ist Telvrs nächster Konkurrent auf macOS. Es verfolgt den gleichen Push-to-Talk-Ansatz und fügt AI-Verarbeitung hinzu, um saubere Ausgabe zu erzeugen.

Stärken: Polierte Benutzeroberfläche, solide AI-Ausgabequality und "Flow-Modus", der längere Diktursitzungen mit natürlichen Pausen eleganter verarbeitet.

Preise: $14 pro Monat, pauschaler Satz. Das ist besser für Nutzer mit viel Nutzung (30+ Minuten pro Tag) und schlechter für moderate Nutzer gegenüber Telvrs nutzungsbasiertem Modell.

Einschränkungen: Kein Custom-Prompt-Modus. Sprachunterstützung ist enger als Whisper-basierte Werkzeuge.

Am besten für: Mac-Nutzer, die viel diktieren und einen vorhersehbaren Monatspreis bevorzugen.

Whisper (selbstgehostet)

OpenAIs Whisper-Modell ist als Open-Source-Projekt verfügbar. Mit den richtigen Werkzeugen kannst du es lokal auf einem Mac mit Apple Silicon ausführen.

Funktionsweise: Du nimmst Audio auf (mit etwas wie sox oder ein Wrapper wie whisper-mic), führst es durch das lokale Whisper-Modell und erhältst ein Transkript. Keine Cloud API erforderlich.

Genauigkeit: Identisch mit Telvrs Transkriptionsqualität — gleiches Whisper-large-v3-Modell. Der Unterschied ist völlig in der Pipeline und Anreicherungsschicht.

Latenz: Auf Apple Silicon (M2/M3/M4-Chips) läuft Whisper large-v3 in 3-8 Sekunden lokal. Kleinere Modelle (medium, small) laufen in 1-3 Sekunden mit etwas Genauigkeitsverlust.

Integration: Keine standardmäßig. Du musst eine Custom-Pipeline bauen, um Text in deine aktive Anwendung zu bekommen. Mehrere Community-Projekte existieren (whispering, MacWhisper, etc.) aber erfordern Setup.

Anreicherung: Null. Du erhältst reine Transkription. Nachbearbeitung erfordert zusätzliche Werkzeuge.

Datenschutz: Völlig lokal. Kein Audio verlässt deinen Computer.

Am besten für: Entwickler, die volle Kontrolle wollen, Datenschutz-fokussierte Nutzer, Menschen, die Custom-Workflows bauen.

Dragon für Mac (eingestellt)

Dragon NaturallySpeaking für Mac wurde von Nuance 2023 eingestellt. Keine aktuelle Version ist für macOS verfügbar. Wenn du Dragon-Level-Genauigkeit und Vokabular-Management auf Mac suchst, sind die Optionen Telvr, Wispr Flow oder selbstgehostetes Whisper.

Das wird erwähnt, weil viele Suchergebnisse noch Dragon für Mac referenzieren — es ist keine praktikable Option mehr für macOS-Nutzer.

Vergleichstabelle

| Feature | Apple Diktieren | Telvr | Wispr Flow | Whisper (lokal) | |---|---|---|---|---| | Systemweit | Ja | Ja | Ja | Mit Custom Setup | | AI-Anreicherung | Nein | Ja (6 Modi) | Ja | Nein | | Latenz | 1-3s | Unter 2s | Unter 2s | 3-8s | | Sprachunterstützung | ~60 | 50+ (automatische Erkennung) | ~40 | 99 | | Datenschutz | Auf-dem-Gerät-Option | Cloud | Cloud | Völlig lokal | | Preis | Kostenlos | EUR 3/Monat + Nutzung | $14/Monat | Kostenlos | | Custom-Prompt | Nein | Ja | Nein | Nein |

Unsere Empfehlung

Für die meisten Mac-Nutzer, die Voice-Eingabe als echtes Produktivitätswerkzeug nutzen wollen — nicht nur gelegentliches Diktieren — Telvr ist die vollständigste Lösung. Die Kombination aus systemweiter Einfügung, schneller Cloud-Verarbeitung und AI-Anreicherungsmodi adressiert die zwei Gründe, warum Voice-Input normalerweise als Workflow-Werkzeug fehlschlägt: du musst Apps wechseln um es zu nutzen und die Ausgabe braucht schwere Bearbeitung.

Wähle Apple Diktieren, wenn du nur gelegentliche Voice-Eingabe in Standard-Apps brauchst und nichts installieren willst.

Wähle Wispr Flow, wenn du täglich viel diktierst und einen pauschal Monatsspreis bevorzugst.

Wähle lokales Whisper, wenn Datenschutz nicht verhandelbar ist und du mit einer Custom-Pipeline komfortabel bist.

Die Schlüsseleinsicht ist, dass reine Genauigkeit, obwohl wichtig, nicht der differenzierende Faktor in 2026 ist. Whisper large-v3, verfügbar über mehrere Produkte, ist extrem genau. Der Differenziator ist, was mit dem Text nach Transkription geschieht — ob du roh Sprach-Ausgabe oder formatiertem, nutzbarem Text bekommst.