Блог

Whisper против Deepgram: какой движок речи лучше в 2026 году?

Две философии распознавания речи

OpenAI Whisper и Deepgram представляют два различных подхода к построению системы распознавания речи. Whisper был разработан как универсальная многоязычная модель, обученная на огромном корпусе звука в интернете. Deepgram был построен как коммерческий продукт, ориентированный на API первым, оптимизированный для скорости и интеграции разработчика. Оба отличные. Ни один не является универсально лучше.

Понимание того, какой подходит для конкретного варианта использования, требует рассмотрения архитектуры, эталонов, модели ценообразования и практических последствий для различных рабочих нагрузок.

Архитектура

Whisper

Whisper — это энкодер-декодер трансформер модель, обученная OpenAI на 680,000 часах многоязычного звука, соскрёпленного из интернета. Архитектура обрабатывает звук как логмель спектрограмму особенностей, передаёт их через сверточный энкодер и декодирует в текст, используя декодер языковой модели.

Модель доступна в нескольких размерах: tiny, base, small, medium, large-v2 и large-v3. Модель large-v3, используемая Telvr, является наиболее точной, но также самой тяжелой — запуск локально требует способного GPU или значительного времени CPU.

Ключевая характеристика: Whisper была обучена на разнообразном, шумном звуке из интернета. Это даёт ей замечательную устойчивость к акцентам, фоновому шуму и неформальной речи. Компромисс в том, что это не самая быстрая модель и не предлагает потоковую архитектуру реального времени, которая требуется для некоторых вариантов использования.

Deepgram

Deepgram построил собственную архитектуру глубокого обучения от конца к концу, оптимизированную для потоковой расшифровки в реальном времени. Их модель Nova-3 обучена специально для разговорного английского (с сильной поддержкой других языков, добавленной со временем) и архитектурно разработана для выведения выходов с низкой задержкой токен за токеном.

Модель Deepgram недоступна как с открытым исходным кодом. Она работает только через API Deepgram или на самостоятельно размещённых развёртываниях предприятия Deepgram. Данные обучения, хотя и обширные, более подготовлены, чем интернет-масштабный корпус Whisper.

Эталоны точности

Сравнения точности печально знамениты тем, что они зависят от контекста. Обе модели работают хорошо; различия появляются в определённых условиях.

Word Error Rate (WER) на стандартных эталонах:

  • Whisper large-v3 и Deepgram Nova-3 конкурентны на стандартных английских эталонах, оба достигают WER ниже 5% на чистом звуке.
  • Whisper large-v3 превосходит Nova-3 на сильно акцентированной речи и смешанном языке ввода.
  • Nova-3 превосходит Whisper на потоковых случаях использования, где нужны частичные результаты до того, как высказывание завершено.

Условия реального мира, где Whisper преуспевает:

  • Речь на смешанных языках (переключение кодов)
  • Не-родной английский с сильными акцентами
  • Техническая лексика без обучения
  • Фоновый шум из различных источников (улицы, кафе)

Условия реального мира, где Deepgram преуспевает:

  • Звук центра обработки вызовов с известными профилями динамика
  • Потоковая передача в реальном времени, где задержка первого токена имеет значение
  • Американский английский в чистых или полу-чистых окружениях
  • Диаризация динамика (определение того, кто что сказал)

Скорость и задержка

Whisper (через API Groq, как используется Telvr): Менее 1 секунды только для шага расшифровки. Оборудование вывода Groq специально разработано для трансформер моделей, позволяя Whisper large-v3 работать намного быстрее, чем локальный вывод GPU.

Whisper (локально, Apple M3): 3–6 секунд для 30-секундного звукового клипа. Меньшие модели работают быстрее.

Deepgram Nova-3 (потоковый): 300–500ms для появления первого слова в потоковом режиме. Для пакетной расшифровки полного звукового файла общая задержка похожа на Whisper через API.

Потоковая способность — это выдающееся преимущество Deepgram для приложений реального времени. Для рабочих процессов push-to-talk (запись, остановка, получение результата) разница в задержке между Whisper через Groq и Deepgram минимальна на практике.

Поддержка языков

Whisper large-v3: Поддерживает 99 языков. Производительность снижается плавно для языков с менее ресурсами, а не полностью отказывает. Автоматическое обнаружение языка встроено.

Deepgram Nova-3: Сильная поддержка английского, с дополнительными языками, добавленными со временем. По состоянию на 2026 год, около 35 языков с различными уровнями качества. Точность английского отличная; многие другие языки всё ещё ниже уровня Whisper.

Для многоязычных рабочих процессов Whisper — явный выбор. Для приложений с первичным английским, где скорость и потоковая передача имеют значение, Deepgram конкурентен.

Тарифы

Whisper (OpenAI API): $0,006 за минуту. Нет опции потоковой передачи.

Whisper (через Groq API): Зависит от уровня. Быстрый вывод, конкурентные цены для рабочих нагрузок разработчика.

Deepgram Nova-3: Начиная с $0,0043 за минуту для оплаты по мере использования. Доступны скидки за объём. Потоковая передача несёт ту же ставку.

Стоимость использования Telvr: EUR 0,03 за минуту, что отражает объединённую стоимость расшифровки плюс обработка обогащения AI. Raw Deepgram или Whisper API дешевле за минуту, но это сырые API без уровня приложения.

Опыт разработчика

Whisper (OpenAI API):

  • Простая конечная точка REST, стандартная загрузка звукового файла
  • Нет потоковой передачи
  • Ограничения размера звукового файла (25MB бесплатно, 100MB платно)
  • Время отклика, подходящее для рабочих процессов push-to-talk, а не живых подписей

Deepgram:

  • WebSocket API для потоковой передачи в реальном времени
  • REST API для пакетных файлов
  • Больше функций: диаризация динамика, усиление ключевого слова, пользовательский словарь
  • Лучшая документация разработчика для вариантов использования реального времени

Самостоятельно размещённый Whisper:

  • Полностью с открытым исходным кодом, развёрнутый Docker-ом
  • Никаких затрат на API
  • Требует инфраструктуру GPU
  • Максимальная гибкость для пользовательских конвейеров

Какой использовать для какого варианта использования

Приложения push-to-talk рабочего стола: Whisper large-v3 через быстрый API вывода. Точность и поддержка языков делают это лучшим выбором, и задержка сравнима с Deepgram, когда вы учитываете полный конвейер.

Живые подписи реального времени / живая расшифровка: API потоковой передачи Deepgram. Задержка первого токена sub-500ms необходима для читаемых живых подписей.

Звук центра обработки вызовов / телефона: Deepgram с пользовательским словарём и функциями диаризации динамика.

Многоязычные приложения: Whisper. Никакая альтернатива не соответствует его покрытию 99 языков с автоматическим обнаружением.

Чувствительное к конфиденциальности, локальное развёртывание: Самостоятельно размещённый Whisper. Опция самостоятельного размещения Deepgram существует, но только для предприятия.

Экономный, высокообъёмный английский расшифровки: Deepgram Nova-3 в $0,0043/мин превосходит OpenAI $0,006/мин.

Что использует Telvr

Telvr использует Whisper large-v3 через API вывода Groq. Выбор был намеренным: large-v3 обеспечивает наивысшую точность на всех языках, оборудование Groq снижает задержку до менее одной секунды для шага расшифровки, и автоматическое обнаружение языка означает, что пользователи не нуждаются в настройке при переключении языков.

Слой обогащения, который следует — постобработка AI для очистки вывода, форматирования писем, структурирования заметок — не является частью Whisper или Deepgram. Это отдельный шаг LLM, который преобразует сырую расшифровку в форматированный, пригодный для использования текст.

Заключение

Whisper и Deepgram — это не прямые конкуренты, а скорее разные инструменты для разных работ. Whisper large-v3 — лидер точности для многоязычного, шумного, реального звука. Deepgram Nova-3 — лидер скорости и потоковой передачи для приложений с первичным английским, реальным временем.

Для инструмента производительности рабочего стола, где качество имеет значение над потоковой передачей в реальном времени, Whisper large-v3 через быстрый API вывода — лучший фундамент. Для приложений, где вам нужны слова для появления по мере того, как пользователь говорит, архитектура потоковой передачи Deepgram специально разработана для этого варианта использования.