Dwie filozofie rozpoznawania mowy
OpenAI Whisper i Deepgram reprezentują dwa odrębne podejścia do budowania systemu rozpoznawania mowy. Whisper został zaprojektowany jako uniwersalny model wielojęzyczny wytrenowany na ogromnym korpusie audio z internetu. Deepgram został zbudowany jako komercyjny produkt API-first, zoptymalizowany pod kątem szybkości i integracji deweloperów. Oba są doskonałe. Żaden nie jest uniwersalnie lepszy.
Zrozumienie, który pasuje do konkretnego przypadku użycia, wymaga zbadania architektury, benchmarków, modelu cen i praktycznych implikacji dla różnych obciążeń.
Architektura
Whisper
Whisper to model encoder-decoder transformer trenowany przez OpenAI na 680 000 godzin wielojęzycznego audio skrobując z internetu. Architektura przetwarza audio jako cechy spektrogramu log-mel, przechodzi je przez encoder konwolucyjny i dekoduje do tekstu za pomocą dekodera modelu języka.
Model dostępny jest w wielu rozmiarach: tiny, base, small, medium, large-v2 i large-v3. Model large-v3 używany przez Telvr jest najbardziej dokładny, ale także najcięższy — lokalne uruchomienie wymaga zdolnego GPU lub znacznego czasu CPU.
Kluczową cechą: Whisper został wytrenowany na różnorodnym, hałaśliwym audio z internetu. Daje to niezwykłą odporność na akcenty, szum tła i nieformalną mowę. Kompromisem jest to, że nie jest to najszybszy model i nie oferuje architektury streaming/real-time, którą wymagają niektóre przypadki użycia.
Deepgram
Deepgram zbudował własną end-to-end architekturę deep learning zoptymalizowaną do transkrypcji streamingu w czasie rzeczywistym. Ich model Nova-3 jest wytrenowany specjalnie dla angielskiego mówionego (z dodaną silną obsługą wielojęzyczną w czasie) i jest architektonicznie zaprojektowany do produkcji wyjść o niskim opóźnieniu token-po-tokenie.
Model Deepgram nie jest publicznie dostępny jako open-source. Działa tylko za pośrednictwem API Deepgram lub wdrożeń enterprise hostowanych samodzielnie. Dane treningowe, choć obfite, są bardziej wyselekcjonowane niż internetowy korpus Whisper w skali.
Benchmarki dokładności
Porównania dokładności są notoryjnie zależne od kontekstu. Oba modele działają dobrze; różnice pojawiają się w określonych warunkach.
Word Error Rate (WER) na standardowych benchmarkach:
- Whisper large-v3 i Deepgram Nova-3 są konkurencyjne na standardowych benchmarkach angielskich, osiągając WER poniżej 5% na czystym audio.
- Whisper large-v3 przewyższa Nova-3 na mocno akcentowanej mowie i wejściu wielojęzycznym.
- Nova-3 przewyższa Whisper na przypadkach streamingu, gdzie potrzebne są wyniki częściowe przed ukończeniem wypowiedzi.
Warunki rzeczywiste, gdzie Whisper przewyższa:
- Mowa wielojęzyczna (code-switching)
- Angielski non-native z silnymi akcentami
- Specjalistyczne słownictwo bez szkolenia
- Szum tła z różnych źródeł (ulice, kawiarnie)
Warunki rzeczywiste, gdzie Deepgram przewyższa:
- Audio centrum obsługi z znanymi profilami mówców
- Streaming w czasie rzeczywistym, gdzie opóźnienie pierwszego tokenu ma znaczenie
- Angielski amerykański w czystych lub półczystych środowiskach
- Diarizacja mówcy (identyfikacja kto mówił co)
Szybkość i opóźnienie
Whisper (via Groq API, jak używane przez Telvr): Poniżej 1 sekundy dla samego kroku transkrypcji. Sprzęt wnioskowania Groq jest specjalnie zbudowany dla modeli transformer, umożliwiając Whisper large-v3 działanie znacznie szybciej niż lokalne wnioskowanie GPU.
Whisper (lokalnie, Apple M3): 3-6 sekund dla 30-sekundowego klipu audio. Mniejsze modele działają szybciej.
Deepgram Nova-3 (streaming): 300-500ms dla pojawienia się pierwszego słowa w trybie streamingu. Do transkrypcji wsadowej kompletnego pliku audio, całkowite opóźnienie jest podobne do Whisper via API.
Możliwość streamingu jest wyróżniającą się zaletą Deepgram dla aplikacji w czasie rzeczywistym. Dla przepływów pracy push-to-talk (nagranie, zatrzymanie, uzyskanie wyniku), różnica opóźnienia między Whisper via Groq i Deepgram jest minimalna w praktyce.
Obsługa języka
Whisper large-v3: Obsługuje 99 języków. Wydajność degeneruje się stopniowo dla języków o niższych zasobach zamiast całkowicie zawieszać się. Automatyczne wykrywanie języka jest wbudowane.
Deepgram Nova-3: Silna obsługa angielskiego, z dodatkowymi językami dodawanymi w czasie. Od 2026 r., około 35 języków z różnymi poziomami jakości. Dokładność angielskiego jest doskonała; wiele innych języków nadal jest poniżej poziomu Whisper.
Dla przepływów pracy wielojęzycznych Whisper jest wyraźnym wyborem. Dla aplikacji anglojęzycznych, gdzie szybkość i streaming mają znaczenie, Deepgram jest konkurencyjny.
Ceny
Whisper (OpenAI API): $0.006 za minutę. Brak opcji streamingu.
Whisper (via Groq API): Zmienia się w zależności od poziomu. Szybkie wnioskowanie, konkurencyjne ceny dla obciążeń deweloperów.
Deepgram Nova-3: Zaczynając od $0.0043 za minutę dla pay-as-you-go. Dostępne rabaty za wolumen. Streaming ponosi tę samą stawkę.
Koszt użycia Telvr: EUR 0.03 za minutę, co odzwierciedla połączony koszt transkrypcji i przetwarzania wzbogacania AI. Surowe API Deepgram lub Whisper jest tańsze na minutę, ale to surowe API bez warstwy aplikacji.
Doświadczenie deweloperów
Whisper (OpenAI API):
- Prosty endpoint REST, standardowe przesyłanie pliku audio
- Brak streamingu
- Limity rozmiaru pliku audio (25MB bezpłatnie, 100MB płatnie)
- Czas odpowiedzi odpowiedni do przepływów pracy push-to-talk, a nie napisów w czasie rzeczywistym
Deepgram:
- WebSocket API do streamingu w czasie rzeczywistym
- REST API dla plików wsadowych
- Więcej funkcji: diarizacja mówcy, boost słów kluczowych, niestandardowe słownictwo
- Lepsze dokumenty deweloperów dla przypadków użycia w czasie rzeczywistym
Samo-hostowany Whisper:
- Całkowicie open-source, deployable Docker
- Brak kosztów API
- Wymaga infrastruktury GPU
- Maksymalna elastyczność dla niestandardowych potoków
Który do użytku dla którego przypadku użycia
Aplikacje push-to-talk na pulpit: Whisper large-v3 via szybkie API wnioskowania. Dokładność i obsługa języka czynią to lepszym wyborem, a opóźnienie jest porównywalne do Deepgram gdy wziąć pod uwagę pełny pipeline.
Napisy w czasie rzeczywistym / transkrypcja na żywo: API streamingu Deepgram. Opóźnienie pierwszego tokenu poniżej 500ms jest niezbędne dla czytelnych napisów na żywo.
Audio centrum obsługi / telefon: Deepgram z niestandardowym słownictwem i funkcjami diarizacji mówcy.
Aplikacje wielojęzyczne: Whisper. Żadna alternatywa nie dopasowuje jej pokrycia 99 języków z automatycznym wykrywaniem.
Wdrażanie wrażliwe na prywatność, lokalnie: Samo-hostowany Whisper. Opcja self-hosted Deepgram istnieje, ale jest tylko dla enterprise.
Transkrypcja angielska o dużej objętości, wrażliwa na koszt: Deepgram Nova-3 za $0.0043/min nieco przewyższa OpenAI $0.006/min.
Co Telvr używa
Telvr używa Whisper large-v3 via API wnioskowania Groq. Wybór był celowy: large-v3 zapewnia najwyższą dokładność dla wszystkich języków, sprzęt Groq sprowadza opóźnienie do poniżej jednej sekundy dla kroku transkrypcji, a automatyczne wykrywanie języka oznacza, że użytkownicy nie muszą nic konfigurować podczas przełączania języków.
Warstwa wzbogacania, która następuje — przetwarzanie tekstu AI do czyszczenia wyjścia, formatowania e-maili, strukturyzacji notatek — nie jest częścią Whisper ani Deepgram. To oddzielny krok LLM, który transformuje surową transkrypcję w sformatowany, użyteczny tekst.
Podsumowanie
Whisper i Deepgram nie są bezpośrednimi konkurentami tyle co różne narzędzia dla różnych zadań. Whisper large-v3 jest liderem dokładności dla wielojęzycznego, hałaśliwego, rzeczywistego audio. Deepgram Nova-3 jest liderem szybkości i streamingu dla aplikacji anglojęzycznych, rzeczywistego czasu.
Dla narzędzia produktywności na pulpit, gdzie jakość ma znaczenie nad streamingiem w czasie rzeczywistym, Whisper large-v3 via szybkie API wnioskowania to lepszy fundament. Dla aplikacji, gdzie słowa muszą pojawiać się w miarę jak użytkownik mówi, architektura streamingu Deepgram jest specjalnie zbudowana do tego przypadku użycia.