Blog

AI Text-Anreicherung: Von roher Sprache zu perfektem Text

Warum roh Transkription nicht genug ist

Stelle dir vor, einen Gedanken laut zu sprechen und jedes "äh," "uh," "weißt du" und falschen Start erfasst wörtlich. Das ist roh Sprach-Transkription. Das Whisper-Modell — unter den genauesten verfügbar — transkribiert treu, was du sagst, einschließlich alles, das du lieber ignorieren würdest.

Die bearbeitete Version dieses Gedankens, wie du ihn in einer E-Mail oder Dokument schreiben würdest, schaut komplett unterschiedlich aus. Bessere Interpunktion. Entfernte Füllwörter. Angemessene Struktur. Professionelle Register.

Die Lücke zwischen diesen zwei Versionen ist, was AI Text-Anreicherung überbrückt.

Was zwischen deiner Stimme und dem Text geschieht

Eine Speech-to-Text-Pipeline mit AI-Anreicherung hat zwei unterschiedliche Bühnen:

Bühne 1: Transkription. Dein Audio wird von einem Spracherkennung-Modell verarbeitet — in Telvrs Fall, Whisper large-v3. Das konvertiert Audio-Waveforms zu Text mit hoher Genauigkeit. Die Ausgabe ist ein roh Transkript: was du sagtest, einschließlich alle natürlich Mängel der gesprochenen Sprache.

Bühne 2: Anreicherung. Das roh Transkript wird zu einem Language-Modell mit einem spezifischen Prompt, beschreibend, was damit zu tun ist, gegeben. Das Language-Modell transformiert das Transkript in formatiert Ausgabe — entfernt Füllwörter, umstrukturiert Sätze, benutzt Formatierungs-Regeln und passt das Register zum Ziel-Kontext.

Der Anreicherungs-Schritt ist nicht ein einfach Find-and-Replace für "äh" und "uh." Es benutzt genuine Language-Verständnis um Ausgabe zu erzeugen, die liest, als wenn eine durchdachte Person es schrieb.

Die sechs Anreicherungsmodi erklärt

Raw Transkription

Der einfachste Modus: minimal Post-Processing, Ausgabe nah bei was Whisper erzeugt. Nützlich wenn du das Transkript brauchst — etwas zitierend, exakte Wörter aufnehmend oder eine spezifische Phrasing, die du bewahren willst.

Input: "die äh die haupt Problem hier ist dass wir sehen äh drei Mal normal Fehler-Rate auf dem Payment-Endpunkt ab um ungefähr zwei Nachmittag gestern"

Ausgabe: "Das Haupt-Problem hier ist, dass wir drei Mal normal-Fehler-Rate auf dem Payment-Endpunkt sehen, ab ungefähr 2 Uhr Nachmittag gestern."

Selbst in Raw-Modus, basics Bereinigung (Großschreibung, Zahlen konsistent formatiert) benutzt.

Sauber und Korrekt

Die alltägliche Workhorse-Modus. Entfernt Unflüssigkeit (äh, uh, wie, weißt du), behebt Grammatik, fügt richtige Interpunktion hinzu und erzeugt saubere Prosa, die liest, als if sorgfältig getippt wurde. Das ist die richtige Standard für meiste Allzweck-Text: Slack-Nachrichten, informale E-Mails, Notizen, Dokumentation.

Input: "so grundlegend was ich versuche zu sagen ist der äh aktuelle Ansatz zu wie äh Authentication verarbeiten wird Probleme verursachen, wenn wir hochscalen, weil wir äh die Session-Tabelle nutzen und das wird äh ein Bottleneck werden"

Ausgabe: "Der aktuelle Ansatz zu Authentication-Verarbeitung wird Probleme bei Scale verursachen. Wir nutzen die Session-Tabelle für Auth-Zustand, was ein Bottleneck werden wird."

Bemerke, dass die Anreicherung gegangen ist über dem nur Füllwörter entfernen — es umstrukturiert den Gedanke in zwei klare Sätze.

Professionelle E-Mail

Transformiert gesprochene Inhalte in eine komplette E-Mail mit Betreffzeile, Gruß, Körper und Abschluss. Der Ton wechselt zu professionell aber natürlich. Angemessen für Business-Kommunikation, wo du den Stoff diktieren willst und die AI die Formatierung verarbeiten lässt.

Input: "hey kannst du Jake sagen dass wir den Server-Migration-Plan bis Ende Woche brauchen und auch erinnere ihn über die Security-Audit, die für die 15. geplant ist, frag ihn ob sein Team vorbereitet ist"

Ausgabe:

Betreff: Server-Migration-Plan und Security-Audit Update

Hi Jake,

Kannst du bitte den Server-Migration-Plan bis Ende dieser Woche senden? Ich wollte auch zum Security-Audit, der für die 15. geplant ist, checken — ist dein Team vorbereitet?

Danke.

Besprechungsnotizen

Strukturiert gesprochene Inhalte in ein Standard-Besprechungsnotizen-Format: Entscheidungen, Aktionspunkte, Kontext und nächste Schritte. Konzipiert für Post-Meeting-Zusammenfassungen, die sofort nach der Besprechung gesprochen werden, während Gedächtnis frisch ist.

Input: "Produkt-Besprechung heute, entschlossen die Mobile-Launch zu Q3 verschieben, Tom aktualisiert den Fahrplan, wir brauchen auch eine Legal-Review der neuen Bedingungen vor Launch, Sarah owns das, wir checken nächste Woche"

Ausgabe:

Entscheidungen

  • Mobile-Launch verschoben zu Q3

Aktionspunkte

  • Tom: Update-Produkt-Fahrplan — laufend
  • Sarah: Initiiere Legal-Review neuer Bedingungen vor Launch

Nächster Check-in

  • Nächste Woche

2-3 Satz Zusammenfassung

Verdichtet längere Sprache in enge zwei bis drei Satz Zusammenfassung. Nützlich für Executive-Zusammenfassungen, Status-Updates und Situationen wo du viel Inhalte in eine kurze Statement verdichten brauchst.

Input: [Eine 3-Minuten-gesprochene Erklärung eines Projekt-Status, abdeckend Hintergrund, aktuelle Blocker, geplante Lösungen und erwarteter Zeitplan]

Ausgabe: "Das Projekt ist derzeit blockiert auf API-Zugang vom Drittanbieter-Provider, verzögernd die Integration um ungefähr zwei Wochen. Das Team implementiert eine Mock-API-Layer, um die Entwicklung fortsetzend. Volle Integration ist derzeit erwartet am Ende des Monats."

Dev-Aufgabe

Strukturiert gesprochene Inhalte als eine Entwicklungs-Aufgabe mit Kontext, Anforderungen und Akzeptanz-Kriterien. Die Ausgabe matched häufig Formate für GitHub-Issues, Linear-Aufgaben und Jira-Tickets.

Input: "wir brauchen Rate-Limiting zum API hinzufügen, jetzt ist es keine Schutz, also jemand könnte die Endpunkte hämmern, sollte zu 100 Anfragen pro Minute pro Nutzer limitieren, zurückgeben 429 wenn überschritten, nutze Redis für den Counter"

Ausgabe:

Aufgabe: API Rate-Limiting hinzufügen

Kontext Die API hat derzeit kein Rate-Limiting, lassend Endpunkte verwundbar für Missbrauch.

Anforderungen

  • Limitiere jeden authentifizierten Nutzer zu 100 Anfragen pro Minute
  • Zurückgeben HTTP 429 (Zu viele Anfragen) wenn Limit überschritten
  • Nutze Redis für die Rate-Counter-Implementierung

Akzeptanz-Kriterien

  • [ ] Rate-Limit erzwungen pro Nutzer bei 100 req/min
  • [ ] 429-Antwort zurückgegeben mit angemessenen Headers
  • [ ] Redis-Counter setzt korrekt nach eine Minute zurück

Wie Anreicherung implementiert ist

Der Anreicherungs-Schritt nutzt ein großes Language-Modell mit einem sorgfältig entwickelten Systemprompt für jeden Modus. Der Prompt definiert die Rolle ("Du bist ein professioneller Text-Editor"), die Aufgabe ("Transformiere das folgende roh Sprach-Transkript in eine professionelle E-Mail"), die Regeln ("Entferne Füllwörter, behebt Grammatik, füge Betreffzeile und Gruß ein") und das erwartete Ausgabe-Format.

Das roh Whisper-Transkript wird dann als User-Nachricht angehängt. Das LLM erzeugt die formatiert Ausgabe in einem einzelnen Inference-Pass.

Das ist die Architektur, warum Anreicherung nur ungefähr eine Sekunde zur Gesamt-Latenz hinzufügt — eine gut-Geprompt LLM-Inference auf einem effizienten Modell ist schnell.

Wähle den richtigen Modus

Der richtige Modus hängt ab vom Kontext, den du schreibst für:

  • Jeden Allzweck-Text, Slack, Notizen: Clean-Modus
  • E-Mail in einem professionellen Kontext: E-Mail-Modus
  • Post-Meeting-Dokumentation: Besprechungsnotizen-Modus
  • Status-Updates, TLDRs, Abstracts: Zusammenfassungs-Modus
  • GitHub-Issues, Linear, Jira-Aufgaben: Dev-Task-Modus
  • Custom-Workflow: Custom-Modus mit deinem eigenen Systemprompt

Wechsle Modi in Telvr nimmt einen Klick auf den Modus-Selector. Für Nutzer mit einem konsistent-primären Anwendungsfall, persistiert der letzte-ausgewählte Modus zwischen Sitzungen, also du musst nicht ihn erneut-auswählen.

Anreicherung vs einfache Bereinigung

Der Unterschied zwischen "Anreicherung" und "Bereinigung" ist wichtig. Einfache Bereinigung-Werkzeuge entfernen Füllwörter und behebt Großschreibung — eine relativ mechanische Operation, die jedes Text-Processing-Skript ungefähr könnte.

Genuine Anreicherung benutzt Language-Verständnis. Es umstrukturiert Sätze für Klarheit, nicht bloß Korrektur. Es identifiziert Aktionspunkte in einem Stream von Sprache und formatiert sie mit Ownern und Deadlines. Es nimmt "Ich schreibe zu frag..." und konvertiert es zu "Ich würde fragen..." in E-Mail-Modus.

Der Unterschied ist sichtbar in der Ausgabe: mechanisch-bereinigt Text liest wie Sprache mit den Ähs entfernt. Angereichert Text liest wie etwas, das eine Person schrieb.