Två filosofier för taligenkänning
OpenAI Whisper och Deepgram representerar två distinkta tillvagagångar för att bygga ett talignkänningssystem. Whisper designades som en universell flerspråkig modell tränad på ett enormt korpus av internetljud. Deepgram byggdes som en kommersiell API-first-produkt, optimerad för hastighet och utvecklarintegrering. Båda är utmärkta. Inget är universellt bättre.
Att förstå vilket som passar ett särskilt användningsfall kräver att titta på arkitektur, jämföranden, prissättningsmodell och praktiska följder för olika arbetsbelastningar.
Arkitektur
Whisper
Whisper är en encoder-decoder transformer-modell tränad av OpenAI på 680 000 timmar flerspråkig ljud skrapat från webben. Arkitekturen bearbetar ljud som log-mel spektrogramfunktioner, går igenom dem genom en faltningsencoder och avkodar till text med hjälp av en språkmodelldekoder.
Modellen är tillgänglig i flera storlekar: tiny, base, small, medium, large-v2 och large-v3. Large-v3-modellen som används av Telvr är mest korrekt men även tyngst — att köra lokalt kräver en kapabel GPU eller betydande CPU-tid.
En nyckelegenskap: Whisper tränas på mångfaldigt, bullrigt ljud från internet. Detta ger det anmärkningsvärd motståndskraft mot accenter, bakgrundsljud och informellt tal. Kompromissen är att det inte är den snabbaste modellen och erbjuder inte streaming/realtids-arkitekturen som vissa användningsfall kräver.
Deepgram
Deepgram byggde sin egen end-to-end djupinlärningsarkitektur optimerad för realtids-streaming-transkribering. Deras Nova-3-modell tränas specifikt för talad engelska (med starkt flerspråkigt stöd tillagt över tid) och är arkitektoniskt utformad för att producera låga latens-utmatningar token-för-token.
Deepgrams modell är inte offentligt tillgänglig som öppen källkod. Den körs bara via Deepgrams API eller på själv-värdade Deepgram enterprise-distributioner. Träningsdata, även om omfattande, är mer kurerad än Whispers internetskala-korpus.
Noggrannhetsbenchmark
Noggrannhetsjämförelser är notoriskt kontextberoende. Båda modeller presterar väl; skillnaderna dyker upp under specifika förhållanden.
Word Error Rate (WER) på standardbenchmark:
- Whisper large-v3 och Deepgram Nova-3 är konkurrenskraftiga på standard engelska benchmarks, båda uppnår WER under 5% på ren ljud.
- Whisper large-v3 överträffar Nova-3 på starkt accenterat tal och flerspråkig inmatning.
- Nova-3 överträffar Whisper på streaming-användningsfall där delresultat behövs innan utsägningen är fullständig.
Verkliga förhållanden där Whisper utmärker sig:
- Flerspråkigt tal (kod-byting)
- Icke-infödd engelska med stark accent
- Tekniskt ordförråd utan träning
- Bakgrundsljud från varierade källor (gator, kaféer)
Verkliga förhållanden där Deepgram utmärker sig:
- Callcenter-ljud med kända talararprofiler
- Realtids-streaming där första-token-latens spelar roll
- Amerikansk engelska i rena eller semi-rena miljöer
- Talarprofilerring (identifiering av vem som sa vad)
Hastighet och latens
Whisper (via Groq API, som använt av Telvr): Under 1 sekund för transkriberingsstegen ensamt. Groqs inference-hårdvara är ändamålsenligt byggd för transformer-modeller, vilket möjliggör Whisper large-v3 att köra långt snabbare än lokal GPU-inference.
Whisper (lokal, Apple M3): 3–6 sekunder för ett 30-sekundersljudklipp. Mindre modeller körs snabbare.
Deepgram Nova-3 (streaming): 300–500ms för första ordets framträdande i streaming-läge. För batchtranskribering av en fullständig ljudfil är den totala latensen liknande Whisper via API.
Streaming-kapaciteten är Deepgrams framstående fördel för realtidsapplikationer. För push-to-talk-arbetsflöden (spela in, stoppa, få resultat) är latenskillnaden mellan Whisper via Groq och Deepgram minimal i praktiken.
Språkstöd
Whisper large-v3: Stödjer 99 språk. Prestanda minskar gradvis för språk med lägre resurser snarare än att misslyckas helt. Automatisk språkdetektering är inbyggd.
Deepgram Nova-3: Starkt engelskt stöd, med ytterligare språk tillagda över tid. Från 2026 omkring 35 språk med varierande kvalitetsnivåer. Engelsk noggrannhet är utmärkt; många andra språk är fortfarande under Whispers nivå.
För flerspråkiga arbetsflöden är Whisper det tydliga valet. För engelskprimära applikationer där hastighet och streaming spelar roll är Deepgram konkurrenskraftig.
Prissättning
Whisper (OpenAI API): $0,006 per minut. Inget streaming-alternativ.
Whisper (via Groq API): Varierar efter nivå. Snabb inference, konkurrenskraftig prissättning för utvecklararbetsbelastningar.
Deepgram Nova-3: Från $0,0043 per minut för betala-som-du-går. Volymrabatter tillgängliga. Streaming medför samma pris.
Telvrs användningskostnad: EUR 0,03 per minut, vilket återspeglar den kombinerade kostnaden för transkribering plus AI-berikningsbearbetning. Rå Deepgram eller Whisper API är billigare per minut, men dessa är råa API:er utan applikationslagret.
Utvecklarupplevelse
Whisper (OpenAI API):
- Enkelt REST-ändpunkt, standard-ljudfiluppladdning
- Inget streaming
- Begränsningar för ljudfilstorlek (25MB gratis, 100MB betalt)
- Svarstid lämplig för push-to-talk-arbetsflöden, inte realtids-undertextning
Deepgram:
- WebSocket API för realtids-streaming
- REST API för batchfiler
- Fler funktioner: talarprofilerring, nyckelordsboosting, anpassat ordförråd
- Bättre utvecklardokumentation för realtidsanvändningsfall
Själv-värdad Whisper:
- Helt öppen källkod, Docker-deploerbar
- Inga API-kostnader
- Kräver GPU-infrastruktur
- Maximal flexibilitet för anpassade pipelines
Vilket ska användas för vilket användningsfall
Push-to-talk desktop-appar: Whisper large-v3 via ett snabbt inference-API. Noggrannheten och språkstödet gör det till det bättre valet, och latensen är jämförbar med Deepgram när du räknar in hela pipelinen.
Realtids-undertextning / direktsänd transkribering: Deepgram streaming-API. Sub-500ms första-token-latensen är nödvändig för läsbara direktsänd undertextning.
Callcenter / telefonljud: Deepgram med anpassat ordförråd och talarprofilerringsfunktioner.
Flerspråkiga applikationer: Whisper. Inget alternativ motsvarar dess 99-språkstöd med automatisk detektering.
Integritetskänslig, lokal distribution: Själv-värdad Whisper. Deepgrams själv-värdade alternativ finns men är endast enterprise.
Kostnadskänslig, högt volym engelsk transkribering: Deepgram Nova-3 på $0,0043/min överträffar knappa OpenAIs $0,006/min.
Vad Telvr använder
Telvr använder Whisper large-v3 via Groqs inference-API. Valet var avsiktligt: large-v3 tillhandahåller högsta noggrannhet på tvärs av språk, Groqs hårdvara för ner latensen till under en sekund för transkriberingsstegen, och automatisk språkdetektering innebär att användare inte behöver konfigurera något när de byter språk.
Berikningslagret som följer — AI-efterbearbetning för att rensa utdata, formatera e-post, strukturera anteckningar — är inte del av varken Whisper eller Deepgram. Det är ett separat LLM-steg som förvandlar rå transkribering till formaterad, användbar text.
Slutsats
Whisper och Deepgram är inte direkta konkurrenter så mycket som olika verktyg för olika jobb. Whisper large-v3 är noggrannhetsledaren för flerspråkig, bullrig, verklig världens ljud. Deepgram Nova-3 är hastighets- och streaming-leadern för engelskprimära, realtidsapplikationer.
För ett desktop-produktivitetsverktyg där kvalitet spelar roll över realtids-streaming är Whisper large-v3 via ett snabbt inference-API den bättre grunden. För applikationer där du behöver ord att visas när användaren talar är Deepgrams streaming-arkitektur ändamålsenligt byggd för det användningsfallet.