Dlaczego surowa transkrypcja nie wystarczy
Wyobraź sobie mówiącą myśl na głos i każde "um," "uh," "you know" i fałszywy start przechwycone dosłownie. To surowa transkrypcja mowy. Model Whisper — jeden z najbardziej dokładnych dostępnych — wiernie zapisuje to, co mówisz, łącznie ze wszystkim, co wolałbyś, aby zignorował.
Edytowana wersja tej myśli, jak byś ją napisał w e-mailu lub dokumencie, wygląda całkowicie inaczej. Lepsza interpunkcja. Usunięte wypełniacze. Odpowiednia struktura. Profesjonalny rejestr.
Luka między tymi dwiema wersjami to to, co mostuje wzbogacanie tekstu AI.
Co się dzieje między twoim głosem a tekstem
Pipeline zamieniania mowy na tekst z wzbogacaniem AI ma dwa odrębne etapy:
Etap 1: Transkrypcja. Twoje audio jest przetwarzane przez model rozpoznawania mowy — w przypadku Telvr, Whisper large-v3. To konwertuje fale audio na tekst z wysoką dokładnością. Wyjście to surowa transkrypcja: to, co powiedziałeś, łącznie ze wszystkimi naturalnymi niedoskonałościami mówionego języka.
Etap 2: Wzbogacanie. Surowa transkrypcja jest przekazana do modelu języka z konkretnym promptem opisującym co z nią zrobić. Model języka transformuje transkrypcję w sformatowane wyjście — usuwając wypełniacze, przstruktury zdania, stosując reguły formatowania i dostosowując rejestr do docelowego kontekstu.
Krok wzbogacania nie jest prostą zamianą "um" i "uh." Stosuje genuine zrozumienie języka do produkcji wyjścia, które czyta się tak, jakby rozważna osoba to napisała.
Sześć trybów wzbogacania wyjaśnione
Surowa transkrypcja
Najprostszy tryb: minimalne przetwarzanie po, wyjście bliskie do tego, co Whisper produkuje. Użyteczne, gdy potrzebujesz dosłownej transkrypcji — cytowanie czegoś, nagranie dokładnych słów, lub przechwycenie konkretnego zwrotu, który chcesz zachować.
Wejście: "the uh główny problem tutaj to że widzimy uh trzy razy normalne współczynniki błędów na endpoincie płatności zaczynając od około dwa pm wczoraj"
Wyjście: "Głównym problemem tutaj jest to, że widzimy trzy razy normalne współczynniki błędów na endpoincie płatności zaczynając od około 2 PM wczoraj."
Nawet w trybie Raw, podstawowe czyszczenie (kapitalizacja, liczby sformatowane konsystentnie) się zastosuje.
Czyszczenie i korekta
Codzienny tryb roboczy. Usuwa disfluencje (um, uh, like, you know), naprawia gramatykę, dodaje właściwą interpunkcję i tworzy czysty tekst, który czyta się tak, jakby był pisany ostrożnie. To jest właściwy domyślny dla większości tekstu ogólnego przeznaczenia: wiadomości Slack, przypadkowe e-maile, notatki, dokumentacja.
Wejście: "tak zasadniczo to co próbuję powiedzieć to że uh obecne podejście do Like obsługi uwierzytelniania będzie powodować problemy gdy skalujemy bo używamy You know tabeli sesji i to będzie uh stać się wąskim gardłem"
Wyjście: "Obecne podejście do obsługi uwierzytelniania będzie powodować problemy przy skalowaniu. Używamy tabeli sesji dla stanu auth, która stanie się wąskim gardłem."
Zauważ wzbogacanie poszło poza tylko usuwanie wypełniaczy — przestrukturyzowało myśl w dwa jasne zdania.
Profesjonalny e-mail
Transformuje mówioną zawartość w kompletny e-mail z linią tematu, pozdrowieniem, treścią i zamknięciem. Ton przesunięty na profesjonalny, ale naturalny. Odpowiednie dla komunikacji biznesowej, gdzie chcesz dyktować substancję i pozwolić AI obsługiwać format.
Wejście: "hej czy możesz powiedzieć Jake'owi że potrzebujemy planu migracji serwera do końca tygodnia i też przypomnieć mu o audycie bezpieczeństwa, który jest zaplanowany na 15, zapytaj czy jego zespół jest gotowy"
Wyjście:
Temat: Plan migracji serwera i aktualizacja audytu bezpieczeństwa
Cześć Jake,
Czy możesz wysłać plan migracji serwera do końca tego tygodnia? Chciałem też sprawdzić o audycie bezpieczeństwa zaplanowanym na 15 — czy twój zespół jest przygotowany?
Dziękuję.
Notatki ze spotkania
Strukturyzuje mówioną zawartość w standardowy format notatek ze spotkania: decyzje, elementy działań, kontekst i następne kroki. Zaprojektowane do podsumowań po spotkaniu mówiony natychmiast po spotkaniu podczas świeżej pamięci.
Wejście: "spotkanie produktu dzisiaj, zdecydowaliśmy opóźnić mobilne uruchomienie do Q3, Tom aktualizuje mapę drogową, też potrzebujemy przeglądu prawnego nowych warunków przed uruchomieniem, Sarah ma to, sprawdzimy się w następnym tygodniu"
Wyjście:
Decyzje
- Uruchomienie mobilne przesunięte do Q3
Elementy działań
- Tom: Aktualizuj mapę drogową produktu — bieżący
- Sarah: Inicjuj przegląd prawny nowych warunków przed uruchomieniem
Następne sprawdzenie
- Następny tydzień
Podsumowanie 2-3 zdań
Kondensuje dłuższą mowę w ścisłe dwa do trzech zdań podsumowania. Użyteczne dla streszczań wykonawczych, aktualizacji statusu i sytuacji, gdzie potrzebujesz destylować dużo zawartości w krótkie stwierdzenie.
Wejście: [3-minutowe mówione wyjaśnienie statusu projektu, obejmujące tło, obecne blokady, planowane rozwiązania i spodziewany harmonogram]
Wyjście: "Projekt jest obecnie zablokowany na dostęp API od dostawcy stron trzecich, opóźniając integrację o około dwa tygodnie. Zespół implementuje warstwę mock API w międzyczasie, aby kontynuować rozwój. Pełna integracja jest teraz spodziewana do końca miesiąca."
Dev Task
Strukturyzuje mówioną zawartość jako zadanie rozwojowe z kontekstem, wymaganiami i kryteriami akceptacji. Wyjście pasuje do wspólnych formatów dla GitHub issues, Linear tasks i Jira tickets.
Wejście: "potrzebujemy dodać ograniczenie szybkości do API, teraz nie ma ochrony, więc ktoś mógłby uderzyć endpointy, powinno ograniczać do 100 żądań na minutę na użytkownika, zwróć 429 jeśli przekroczone, użyj Redis dla licznika"
Wyjście:
Zadanie: Dodaj ograniczenie szybkości API
Kontekst API obecnie nie ma ograniczenia szybkości, pozostawiając endpointy podatne na nadużycia.
Wymagania
- Ogranicz każdego uwierzytelnionego użytkownika do 100 żądań na minutę
- Zwróć odpowiedź HTTP 429 (Too Many Requests) gdy limit jest przekroczony
- Użyj Redis dla implementacji licznika szybkości
Kryteria akceptacji
- [ ] Ograniczenie szybkości wymuszane na użytkownika na 100 req/min
- [ ] Odpowiedź 429 zwrócona z odpowiednimi nagłówkami
- [ ] Licznik Redis resetuje się poprawnie po jednej minucie
Jak wzbogacanie jest implementowane
Krok wzbogacania używa dużego modelu języka z ostrożnie zaprojektowanym system promptem dla każdego trybu. Prompt definiuje rolę ("Jesteś profesjonalnym edytorem tekstu"), zadanie ("Transformuj następującą surową transkrypcję mowy w profesjonalny e-mail"), reguły ("Usuń słowa wypełniające, napraw gramatykę, dodaj linię tematu i powitanie") i spodziewany format wyjścia.
Surowa transkrypcja Whisper jest następnie dołączana jako wiadomość użytkownika. LLM produkuje sformatowane wyjście w jednym przebiegu wnioskowania.
To jest dlaczego wzbogacanie dodaje tylko około jedną sekundę do całkowitego opóźnienia — dobrze dostrojone wnioskowanie LLM na wydajnym modelu jest szybkie.
Wybór właściwego trybu
Właściwy tryb zależy od kontekstu, w którym piszesz:
- Każdy ogólny tekst, Slack, notatki: Tryb Clean
- E-mail w kontekście profesjonalnym: Tryb Email
- Dokumentacja po spotkaniu: Tryb Meeting Notes
- Aktualizacje statusu, TLDRs, abstracts: Tryb Summary
- GitHub issues, Linear, Jira tasks: Tryb Dev Task
- Niestandardowy przepływ pracy: Tryb Custom z twój własnym system promptem
Przełączanie trybów w Telvr trwa jeden klik na selektorze trybu. Dla użytkowników, którzy mają konsystentny główny przypadek użycia, ostatnio wybrany tryb utrzymuje się między sesjami, więc nie musisz go ponownie wybierać.
Wzbogacanie vs proste czyszczenie
Rozróżnienie między "wzbogacaniem" a "czyszczeniem" ma znaczenie. Proste narzędzia czyszczące usuwają słowa wypełniające i naprawiają kapitalizację — stosunkowo mechaniczną operację, którą każdy skrypt przetwarzania tekstu mógł zbliżać się.
Genuine wzbogacanie stosuje zrozumienie języka. Przestrukturyzowuje zdania dla jasności, nie tylko poprawności. Identyfikuje elementy działań w strumieniu mowy i formatuje je z właścicielami i terminami. Bierze "Piszę aby zapytać o..." i konwertuje do "Chciałbym zapytać o..." w trybie Email.
Różnica jest widoczna w wyjściu: mechanicznie czysty tekst czyta się jak mowa z usunięte ums. Wzbogacony tekst czyta się jak coś, co osoba napisała.