Blog

Whisper vs Deepgram: Który silnik mowy jest lepszy w 2026?

Dwie filozofie rozpoznawania mowy

OpenAI Whisper i Deepgram reprezentują dwa odrębne podejścia do budowania systemu rozpoznawania mowy. Whisper został zaprojektowany jako uniwersalny model wielojęzyczny wytrenowany na ogromnym korpusie audio z internetu. Deepgram został zbudowany jako komercyjny produkt API-first, zoptymalizowany pod kątem szybkości i integracji deweloperów. Oba są doskonałe. Żaden nie jest uniwersalnie lepszy.

Zrozumienie, który pasuje do konkretnego przypadku użycia, wymaga zbadania architektury, benchmarków, modelu cen i praktycznych implikacji dla różnych obciążeń.

Architektura

Whisper

Whisper to model encoder-decoder transformer trenowany przez OpenAI na 680 000 godzin wielojęzycznego audio skrobując z internetu. Architektura przetwarza audio jako cechy spektrogramu log-mel, przechodzi je przez encoder konwolucyjny i dekoduje do tekstu za pomocą dekodera modelu języka.

Model dostępny jest w wielu rozmiarach: tiny, base, small, medium, large-v2 i large-v3. Model large-v3 używany przez Telvr jest najbardziej dokładny, ale także najcięższy — lokalne uruchomienie wymaga zdolnego GPU lub znacznego czasu CPU.

Kluczową cechą: Whisper został wytrenowany na różnorodnym, hałaśliwym audio z internetu. Daje to niezwykłą odporność na akcenty, szum tła i nieformalną mowę. Kompromisem jest to, że nie jest to najszybszy model i nie oferuje architektury streaming/real-time, którą wymagają niektóre przypadki użycia.

Deepgram

Deepgram zbudował własną end-to-end architekturę deep learning zoptymalizowaną do transkrypcji streamingu w czasie rzeczywistym. Ich model Nova-3 jest wytrenowany specjalnie dla angielskiego mówionego (z dodaną silną obsługą wielojęzyczną w czasie) i jest architektonicznie zaprojektowany do produkcji wyjść o niskim opóźnieniu token-po-tokenie.

Model Deepgram nie jest publicznie dostępny jako open-source. Działa tylko za pośrednictwem API Deepgram lub wdrożeń enterprise hostowanych samodzielnie. Dane treningowe, choć obfite, są bardziej wyselekcjonowane niż internetowy korpus Whisper w skali.

Benchmarki dokładności

Porównania dokładności są notoryjnie zależne od kontekstu. Oba modele działają dobrze; różnice pojawiają się w określonych warunkach.

Word Error Rate (WER) na standardowych benchmarkach:

  • Whisper large-v3 i Deepgram Nova-3 są konkurencyjne na standardowych benchmarkach angielskich, osiągając WER poniżej 5% na czystym audio.
  • Whisper large-v3 przewyższa Nova-3 na mocno akcentowanej mowie i wejściu wielojęzycznym.
  • Nova-3 przewyższa Whisper na przypadkach streamingu, gdzie potrzebne są wyniki częściowe przed ukończeniem wypowiedzi.

Warunki rzeczywiste, gdzie Whisper przewyższa:

  • Mowa wielojęzyczna (code-switching)
  • Angielski non-native z silnymi akcentami
  • Specjalistyczne słownictwo bez szkolenia
  • Szum tła z różnych źródeł (ulice, kawiarnie)

Warunki rzeczywiste, gdzie Deepgram przewyższa:

  • Audio centrum obsługi z znanymi profilami mówców
  • Streaming w czasie rzeczywistym, gdzie opóźnienie pierwszego tokenu ma znaczenie
  • Angielski amerykański w czystych lub półczystych środowiskach
  • Diarizacja mówcy (identyfikacja kto mówił co)

Szybkość i opóźnienie

Whisper (via Groq API, jak używane przez Telvr): Poniżej 1 sekundy dla samego kroku transkrypcji. Sprzęt wnioskowania Groq jest specjalnie zbudowany dla modeli transformer, umożliwiając Whisper large-v3 działanie znacznie szybciej niż lokalne wnioskowanie GPU.

Whisper (lokalnie, Apple M3): 3-6 sekund dla 30-sekundowego klipu audio. Mniejsze modele działają szybciej.

Deepgram Nova-3 (streaming): 300-500ms dla pojawienia się pierwszego słowa w trybie streamingu. Do transkrypcji wsadowej kompletnego pliku audio, całkowite opóźnienie jest podobne do Whisper via API.

Możliwość streamingu jest wyróżniającą się zaletą Deepgram dla aplikacji w czasie rzeczywistym. Dla przepływów pracy push-to-talk (nagranie, zatrzymanie, uzyskanie wyniku), różnica opóźnienia między Whisper via Groq i Deepgram jest minimalna w praktyce.

Obsługa języka

Whisper large-v3: Obsługuje 99 języków. Wydajność degeneruje się stopniowo dla języków o niższych zasobach zamiast całkowicie zawieszać się. Automatyczne wykrywanie języka jest wbudowane.

Deepgram Nova-3: Silna obsługa angielskiego, z dodatkowymi językami dodawanymi w czasie. Od 2026 r., około 35 języków z różnymi poziomami jakości. Dokładność angielskiego jest doskonała; wiele innych języków nadal jest poniżej poziomu Whisper.

Dla przepływów pracy wielojęzycznych Whisper jest wyraźnym wyborem. Dla aplikacji anglojęzycznych, gdzie szybkość i streaming mają znaczenie, Deepgram jest konkurencyjny.

Ceny

Whisper (OpenAI API): $0.006 za minutę. Brak opcji streamingu.

Whisper (via Groq API): Zmienia się w zależności od poziomu. Szybkie wnioskowanie, konkurencyjne ceny dla obciążeń deweloperów.

Deepgram Nova-3: Zaczynając od $0.0043 za minutę dla pay-as-you-go. Dostępne rabaty za wolumen. Streaming ponosi tę samą stawkę.

Koszt użycia Telvr: EUR 0.03 za minutę, co odzwierciedla połączony koszt transkrypcji i przetwarzania wzbogacania AI. Surowe API Deepgram lub Whisper jest tańsze na minutę, ale to surowe API bez warstwy aplikacji.

Doświadczenie deweloperów

Whisper (OpenAI API):

  • Prosty endpoint REST, standardowe przesyłanie pliku audio
  • Brak streamingu
  • Limity rozmiaru pliku audio (25MB bezpłatnie, 100MB płatnie)
  • Czas odpowiedzi odpowiedni do przepływów pracy push-to-talk, a nie napisów w czasie rzeczywistym

Deepgram:

  • WebSocket API do streamingu w czasie rzeczywistym
  • REST API dla plików wsadowych
  • Więcej funkcji: diarizacja mówcy, boost słów kluczowych, niestandardowe słownictwo
  • Lepsze dokumenty deweloperów dla przypadków użycia w czasie rzeczywistym

Samo-hostowany Whisper:

  • Całkowicie open-source, deployable Docker
  • Brak kosztów API
  • Wymaga infrastruktury GPU
  • Maksymalna elastyczność dla niestandardowych potoków

Który do użytku dla którego przypadku użycia

Aplikacje push-to-talk na pulpit: Whisper large-v3 via szybkie API wnioskowania. Dokładność i obsługa języka czynią to lepszym wyborem, a opóźnienie jest porównywalne do Deepgram gdy wziąć pod uwagę pełny pipeline.

Napisy w czasie rzeczywistym / transkrypcja na żywo: API streamingu Deepgram. Opóźnienie pierwszego tokenu poniżej 500ms jest niezbędne dla czytelnych napisów na żywo.

Audio centrum obsługi / telefon: Deepgram z niestandardowym słownictwem i funkcjami diarizacji mówcy.

Aplikacje wielojęzyczne: Whisper. Żadna alternatywa nie dopasowuje jej pokrycia 99 języków z automatycznym wykrywaniem.

Wdrażanie wrażliwe na prywatność, lokalnie: Samo-hostowany Whisper. Opcja self-hosted Deepgram istnieje, ale jest tylko dla enterprise.

Transkrypcja angielska o dużej objętości, wrażliwa na koszt: Deepgram Nova-3 za $0.0043/min nieco przewyższa OpenAI $0.006/min.

Co Telvr używa

Telvr używa Whisper large-v3 via API wnioskowania Groq. Wybór był celowy: large-v3 zapewnia najwyższą dokładność dla wszystkich języków, sprzęt Groq sprowadza opóźnienie do poniżej jednej sekundy dla kroku transkrypcji, a automatyczne wykrywanie języka oznacza, że użytkownicy nie muszą nic konfigurować podczas przełączania języków.

Warstwa wzbogacania, która następuje — przetwarzanie tekstu AI do czyszczenia wyjścia, formatowania e-maili, strukturyzacji notatek — nie jest częścią Whisper ani Deepgram. To oddzielny krok LLM, który transformuje surową transkrypcję w sformatowany, użyteczny tekst.

Podsumowanie

Whisper i Deepgram nie są bezpośrednimi konkurentami tyle co różne narzędzia dla różnych zadań. Whisper large-v3 jest liderem dokładności dla wielojęzycznego, hałaśliwego, rzeczywistego audio. Deepgram Nova-3 jest liderem szybkości i streamingu dla aplikacji anglojęzycznych, rzeczywistego czasu.

Dla narzędzia produktywności na pulpit, gdzie jakość ma znaczenie nad streamingiem w czasie rzeczywistym, Whisper large-v3 via szybkie API wnioskowania to lepszy fundament. Dla aplikacji, gdzie słowa muszą pojawiać się w miarę jak użytkownik mówi, architektura streamingu Deepgram jest specjalnie zbudowana do tego przypadku użycia.