Блог

Speech-to-Text для Mac: каждый вариант сравнён (2026)

Голосовой ввод на macOS в 2026 году

macOS всегда имел сильные основы голосового ввода. Apple представил диктовку на сервере ещё с OS X Mountain Lion, и тесная интеграция оборудования и программного обеспечения Mac означает, что даже инструменты третьих сторон могут глубоко подключиться к системе. В 2026 году пользователи Mac имеют больше опций голосового ввода, чем когда-либо — включая инструменты, которые казались бы научной фантастикой пять лет назад.

Проблема состоит в том, чтобы узнать, какой вариант действительно подходит вашему рабочему процессу. Это сравнение охватывает все релевантные опции для Mac с честной оценкой того, где каждая побеждает и где она не достаёт.

Apple Dictation (встроенный)

Apple Dictation — это первый вариант для оценки, потому что он стоит ничего и не требует установки. Активируйте это в System Settings под Keyboard, назначьте ярлык (по умолчанию нажимая Fn дважды или клавишу Dictation), и вы готовы.

Как это работает: Короткие фразы обрабатываются на устройстве, используя модель речи Apple. Более длительные сеансы диктовки могут дополнительно использовать серверы Apple. Вывод появляется в активном текстовом поле в реальном времени.

Точность: Сильная для распространённого английского языка. Хорошо справляется с разговорной речью. Борется с технической терминологией, собственными именами не в словаре Apple и словаря, прилегающего к коду.

Форматирование: Нет ничего, кроме базовой пунктуации, когда вы явно произносите команды. Нет обогащения AI. Если вы скажете «м» или «как», эти слова появляются в вашем тексте.

Конфиденциальность: Обработка на устройстве для коротких фраз действительно приватна. Обработка на сервере включает отправку аудио в Apple.

Лучше всего для: Случайной диктовки в повседневных приложениях, пользователей, которые не хотят устанавливать что-либо, быстрого голосового ввода, где форматирование не имеет значения.

Telvr

Telvr — это специализированное приложение push-to-talk для диктовки на macOS. Оно устанавливается как приложение строки меню и обеспечивает системный голосовой ввод с обогащением AI.

Как это работает: Вы удерживаете настраиваемую клавишу быстрого доступа где угодно на вашем Mac — в любом приложении, в любом текстовом поле, даже в терминале. Произнесите ваше содержание, отпустите клавишу, и в течение примерно двух секунд обработанный текст появляется именно там, где находится ваш курсор.

Конвейер обработки использует Whisper large-v3 через API вывода Groq для расшифровки, а затем шаг обогащения AI, который преобразует сырую речь в форматированный вывод.

Шесть режимов обогащения:

  • Дословное переложение: точный вывод речи, минимально обработанный
  • Clean and Correct: удаляет слова-паразиты, исправляет грамматику, добавляет пунктуацию
  • Professional Email: форматирует речь как полное письмо с темой и приветствием
  • Meeting Notes: структурирует содержание в маркированные списки с решениями и пунктами действия
  • 2–3 Sentence Summary: сжимает более длинную речь в плотное резюме
  • Dev Task: структурирует задачу разработки с контекстом и критериями приёмки

Точность: Whisper large-v3 является одной из наиболее точных доступных моделей. В сочетании со слоем обогащения, который исправляет грамматику и удаляет неплавность, качество вывода постоянно выше, чем инструменты сырой расшифровки.

Задержка: Менее 2 секунд для типичных отрывков. Облачная обработка через оптимизированный вывод Groq достаточно быстра, чтобы задержка казалась, что инструмент «думает», а не буферизует.

Поддержка языков: 50+ языков с автоматическим обнаружением. Telvr не требует от вас установки вашего языка — он идентифицирует его из вашей речи.

Тарифы: EUR 3 в месяц плата за инфраструктуру плюс EUR 0,03 за минуту фактической диктовки. 14-дневный бесплатный пробный период включает EUR 3 стартового кредита.

Лучше всего для: Профессионалов, которые хотят системного голосового ввода, который выдаёт чистый, форматированный вывод без ручного редактирования.

Wispr Flow

Wispr Flow — самый близкий конкурент Telvr на macOS. Он применяет тот же подход push-to-talk и добавляет обработку AI для производства чистого вывода.

Сильные стороны: Полированный интерфейс, качество вывода solid AI и режим "flow", который более элегантно справляется с более длительными сеансами диктовки с естественными паузами.

Тарифы: $14 в месяц, фиксированная ставка. Это лучше для активных пользователей (30+ минут в день) и хуже для умеренных пользователей по сравнению с моделью использования Telvr.

Ограничения: Нет режима пользовательского промпта. Поддержка языков уже, чем инструменты на основе Whisper.

Лучше всего для: Пользователей Mac, которые часто диктуют и хотят предсказуемую ежемесячную стоимость.

Whisper (самостоятельно размещённый)

Модель OpenAI Whisper доступна как проект с открытым исходным кодом. С правильными инструментами вы можете запустить его локально на Mac с Apple Silicon.

Как это работает: Вы записываете звук (используя что-то вроде sox или оболочку вроде whisper-mic), запускаете его через локальную модель Whisper и получаете расшифровку. Не требуется облачный API.

Точность: Идентична качеству расшифровки Telvr — та же модель Whisper large-v3. Разница исключительно в конвейере и слое обогащения.

Задержка: На Apple Silicon (M2/M3/M4 чипы), Whisper large-v3 работает в 3–8 секунд локально. Меньшие модели (средняя, маленькая) работают в 1–3 секунды с некоторым снижением точности.

Интеграция: Нет из коробки. Вам нужно создать пользовательский конвейер, чтобы получить текст в активное приложение. Несколько проектов сообщества существуют (whispering, MacWhisper и т. д.), но требуют настройки.

Обогащение: Нуль. Вы получаете сырую расшифровку. Постобработка требует дополнительного инструментария.

Конфиденциальность: Полностью локально. Никакой звук не покидает вашу машину.

Лучше всего для: Разработчиков, которые хотят полного контроля, пользователей, ориентированных на конфиденциальность, людей, создающих пользовательские рабочие процессы.

Dragon для Mac (прекращено)

Dragon NaturallySpeaking для Mac был прекращён Nuance в 2023 году. Текущая версия для macOS недоступна. Если вы ищете точность уровня Dragon и управление словаром на Mac, варианты — это Telvr, Wispr Flow или самостоятельно размещённый Whisper.

Это упоминается, потому что многие результаты поиска всё ещё ссылаются на Dragon для Mac — это больше не жизнеспособный вариант для пользователей macOS.

Таблица сравнения

| Функция | Apple Dictation | Telvr | Wispr Flow | Whisper (локально) | |---|---|---|---|---| | Системный | Да | Да | Да | С пользовательской установкой | | Обогащение AI | Нет | Да (6 режимов) | Да | Нет | | Задержка | 1–3s | Менее 2s | Менее 2s | 3–8s | | Поддержка языков | ~60 | 50+ (автообнаружение) | ~40 | 99 | | Конфиденциальность | На устройстве опция | Облако | Облако | Полностью локально | | Цена | Бесплатно | EUR 3/мес + использование | $14/мес | Бесплатно | | Пользовательский промпт | Нет | Да | Нет | Нет |

Наша рекомендация

Для большинства пользователей Mac, которые хотят использовать голосовой ввод как истинный инструмент производительности — не просто случайную диктовку — Telvr является наиболее полным решением. Комбинация вставки на уровне системы, быстрой облачной обработки и режимов обогащения AI решает две причины, по которым голосовой ввод обычно не работает как инструмент рабочего процесса: вам нужно переключать приложения, чтобы использовать его, и вывод нуждается в тяжёлом редактировании.

Выберите Apple Dictation, если вам нужен только случайный голосовой ввод в стандартные приложения и вы не хотите устанавливать что-либо.

Выберите Wispr Flow, если вы диктуете много каждый день и предпочитаете фиксированный ежемесячный сбор.

Выберите локальный Whisper, если конфиденциальность не подлежит обсуждению и вы удобны с созданием пользовательского конвейера.

Ключевое понимание в том, что сырая точность, хотя и важна, не является дифференцирующим фактором в 2026 году. Whisper large-v3, доступный через несколько продуктов, чрезвычайно точен. Дифференциатор — это то, что происходит с текстом после расшифровки — получаете ли вы вывод сырой речи или форматированный, пригодный для использования текст.