Varför rå transkribering inte räcker
Föreställ dig att tala en tanke högt och ha varje "um", "uh", "du vet" och falsk start fångad bokstavligt. Det är rå taltranskribering. Whisper-modellen — bland de mest korrekta tillgängliga — spelar trogen in vad du säger, inklusive allt du hellre ville att den ignorera.
Den redigerade versionen av den tanken, som du skulle skriva den i ett e-postmeddelande eller dokument, ser helt annorlunda ut. Bättre interpunktion. Borttagna fyllord. Lämplig struktur. Professionell ton.
Gapet mellan dessa två versioner är vad AI-textberikning bygger en bro över.
Vad händer mellan din röst och texten
En tal-till-text-pipeline med AI-berikning har två distinkta steg:
Steg 1: Transkribering. Ditt ljud bearbetas av en talignkänningsmodell — i Telvrs fall Whisper large-v3. Detta konverterar ljudvågformer till text med hög noggrannhet. Utdata är en rå transkribering: vad du sa, inklusive alla talspråkets naturliga imperfektioner.
Steg 2: Berikning. Den råa transkriptionen passeras till en språkmodell med en specifik prompt som beskriver vad man ska göra med det. Språkmodellen förvandlar transkriptionen till formaterad utdata — tar bort fyllord, omstrukturerar meningar, tillämpar formateringsregler och anpassar tonen till målkontexten.
Berikningssteget är inte en enkel sök-och-ersätt för "um" och "uh". Det tillämpar verklig språkförståelse för att producera utdata som läses som om en thoughtful person skrev det.
De sex berikningslägen förklarade
Raw Transcription
Det enklaste läget: minimal efterbearbetning, utdata nära vad Whisper producerar. Användbar när du behöver den bokstavliga transkriptionen — citera något, spela in exakta ord eller fånga en specifik formulering du vill bevara.
Inmatning: "the uh the main issue here is that we're seeing, uh, three times normal error rates on the payment endpoint starting from around two pm yesterday"
Utdata: "Det huvudsakliga problemet här är att vi ser tre gånger normala felfrekvenser på betalningsslutpunkten från ungefär 14 igår."
Även i Raw-läge tillämpar grundläggande rengöring (kapitalisering, siffror formaterade konsekvent).
Rensa och korrigera
Det vardagliga arbetshästläget. Tar bort oflyt (um, uh, som, du vet), fixar grammatik, lägger till lämplig interpunktion och producerar ren prosa som läses som om det skrevs noggrant. Detta är rätt standard för det mesta allmän prosa: Slack-meddelanden, tillfälliga e-post, anteckningar, dokumentation.
Inmatning: "so basically what I'm trying to say is that the, um, current approach to, like, handling authentication is gonna cause problems when we scale up because we're using, you know, the session table and that's gonna, uh, become a bottleneck"
Utdata: "Den nuvarande autentiseringsmetoden kommer att orsaka problem vid stor skala. Vi använder sessionstabellen för autentiseringstillstånd, vilket kommer att bli en flaskhals."
Märke att berikingen gick bortom bara att ta bort fyllord — det omstrukturerade tanken till två tydliga meningar.
Professionell e-post
Förvandlar talat innehål till ett fullständigt e-postmeddelande med ämnesrad, hälsning, brödtext och avslutning. Tonen skiftar till professionell men naturlig. Lämplig för affärskommunikation där du vill dikterar substansen och låta AI hantera formatet.
Inmatning: "hey can you tell Jake that we need the server migration plan by end of week and also remind him about the security audit that's scheduled for the 15th, ask him if his team is ready"
Utdata:
Ämne: Servermigreringplan och säkerhetsgranskningsuppdatering
Hej Jake,
Kan du skicka servermigreringplanen senast denna vecka? Jag ville också checka in angående säkerhetsgranskningen planerad för 15:e — är ditt team beredd?
Tack.
Mötesanteckningar
Strukturerar talat innehål till ett standard-mötesanteckningsformat: beslut, åtgärdspunkter, kontext och nästa steg. Designat för post-möte-sammanfattningar som talats omedelbar efter mötet medan minnet är färskt.
Inmatning: "product meeting today, decided to push the mobile launch to Q3, Tom is updating the roadmap, we also need a legal review of the new terms before launch, Sarah owns that, we'll check in next week"
Utdata:
Beslut
- Mobilapp lansering omplanerad till Q3
Åtgärdspunkter
- Tom: Uppdatera produktvägen — pågående
- Sarah: Initiera juridisk granskning av nya villkor före lansering
Nästa kontroll
- Nästa vecka
2–3 meningar sammanfattning
Komprimerar längre tal till en straff två till tre meningar sammanfattning. Användbar för verkställande sammanfattningar, statusuppdateringar och situationer där du behöver destillera mycket innehål till ett kort uttalande.
Inmatning: [En 3-minuters talad förklaring av projektstatus, täcker bakgrund, nuvarande blockerare, planerade lösningar och förväntad tidslinje]
Utdata: "Projektet är för närvarande blockerat på API-åtkomst från tredjepartsleverantören, vilket försenar integreringen med ungefär två veckor. Teamet implementerar ett mock API-lager under tiden för att fortsätta utveckling. Fullständig integrering förväntas nu senast månadskiftet."
Dev Task
Strukturerar talat innehål som en utvecklingsuppgift med kontext, krav och acceptanskriterier. Utdata matchar vanliga format för GitHub-problem, Linear-uppgifter och Jira-biljetter.
Inmatning: "we need to add rate limiting to the API, right now there's no protection so someone could hammer the endpoints, should limit to 100 requests per minute per user, return 429 if exceeded, use Redis for the counter"
Utdata:
Uppgift: Lägg till API-frekvensgräns
Kontext API:n har för närvarande ingen frekvensgräns, vilket lämnar slutpunkter mottagliga för missbruk.
Krav
- Begränsa varje autentiserad användare till 100 förfrågningar per minut
- Returnera HTTP 429 (För många förfrågningar) när gränsen överskrids
- Använd Redis för implementering av frekvensgränsräknaren
Acceptanskriterier
- [ ] Frekvensgräns framtvingad per användare på 100 req/min
- [ ] 429-svar returnerad med lämpliga headers
- [ ] Redis-räknaren återställs korrekt efter en minut
Hur berikingnen implementeras
Berikningssteget använder en stor språkmodell med en noggrant designad systemprompt för varje läge. Prompten definierar rollen ("Du är en professionell textredaktör"), uppgiften ("Förvandla följande rå taltranskribering till ett professionellt e-postmeddelande"), reglerna ("Ta bort fyllord, fixar grammatik, lägg till ämnesrad och hälsning") och förväntat utdataformat.
Den råa Whisper-transkriptionen bifogas sedan som användarmeddelandet. LLM producerar den formaterade utdata i en enda inferenspass.
Den här arkitekturen är varför berikning bara lägger till ungefär en sekund till total latens — en väl-promptad LLM-inferens på en effektiv modell är snabb.
Välja rätt läge
Rätt läge beror på det sammanhang du skriver för:
- All allmän text, Slack, anteckningar: Rent läge
- E-post i professionell kontext: E-postläge
- Post-möte-dokumentation: Mötesanteckningar-läge
- Statusuppdateringar, TLDR:er, sammandrag: Sammanfattningsläge
- GitHub-problem, Linear, Jira-uppgifter: Dev Task-läge
- Anpassat arbetsflöde: Anpassat läge med din egen systemprompt
Att växla lägen i Telvr tar ett klick på lägesväljalren. För användare som har ett konsekvent primärt användningsfall kvarstår det senast valda läget mellan sessioner så du behöver inte välja det igen.
Berikning vs enkel rengöring
Skillnaden mellan "berikning" och "rengöring" spelar roll. Enkla rengöringsverktyg tar bort fyllord och fixar kapitalisering — en relativt mekanisk operation som vilket textbehandlingsskript som helst kunde approximera.
Verklig berikning tillämpar språkförståelse. Den omstrukturerar meningar för klarhet, inte bara korrekthet. Den identifierar åtgärdspunkter i en talström och formaterar dem med ägare och tidsfrister. Det tar "Jag skriver för att fråga om..." och konverterar det till "Jag skulle vilja fråga om..." i e-postläge.
Skillnaden är synlig i utdata: mekaniskt rensat tal läses som tal med "um" borttagen. Berikad text läses som något en person skrev.