Блог

Распознавание речи на Windows: полное руководство по настройке (2026)

Опции голосового ввода Windows

Windows предлагает больше опций распознавания речи, чем любая другая платформа рабочего стола, начиная от полностью бесплатных встроенных инструментов до профессионального программного обеспечения корпоративного уровня. Настройка правильной опции занимает от двух минут до целого дня в зависимости от того, что вам нужно.

Это руководство охватывает три уровня: встроенный Windows Voice Typing, который готов сразу, Dragon Professional для специализированного профессионального использования и текущее состояние современных опций на основе AI для пользователей Windows, которые хотят больше, чем встроенный инструмент.

Опция 1: Windows Voice Typing (встроенная)

Windows Voice Typing — это самый быстрый путь к голосовому вводу на Windows. Это требует нулевой установки и доступен на Windows 10 версии 20H2 и позже, а также Windows 11.

Настройка

  1. Нажмите Win + H из любого приложения с активным текстовым полем
  2. Виджет микрофона появляется в верхней части экрана
  3. Нажмите кнопку микрофона или нажмите Win+H снова
  4. Начните говорить

Это всё. Никакой установки, никакого учётной записи, никакой конфигурации для основного использования.

Включение автоматической пунктуации

Автоматическая пунктуация (Windows 11 и недавние сборки Windows 10) добавляет запятые и точки автоматически, без необходимости явно их произносить.

  1. Нажмите Win+H для открытия Voice Typing
  2. Нажмите значок шестерёнки в виджете
  3. Включите «Auto-punctuation»

Настройка языка

Если вы хотите диктовать на языке, отличном от вашего системного по умолчанию:

  1. Перейдите в Settings > Time and Language > Language and Region
  2. Добавьте ваш желаемый пакет языка
  3. Загрузите пакет распознавания речи для этого языка
  4. Переключите язык ввода через селектор языка в панели задач перед диктовкой

Поддерживаемые языки для Windows Voice Typing (по состоянию на 2026): английский (US, UK, AU, IN), китайский (упрощённый, традиционный), французский, немецкий, испанский, итальянский, португальский, японский, корейский, арабский и примерно 15 других. Полный список в официальной документации Microsoft.

Команды голоса для Voice Typing

Windows Voice Typing поддерживает несколько голосовых команд:

  • «Stop listening» — деактивирует микрофон
  • «Delete that» — удаляет последний диктуемый текст
  • «Scratch that» — удаляет последнее высказывание
  • «Go to sleep» / «Wake up» — переключает состояние прослушивания

Ограничения

Windows Voice Typing выдаёт сырую расшифровку. Нет обогащения AI, нет форматирования электронной почты и нет структурированного вывода. Слова-паразиты появляются в тексте. Пунктуация справляется автоматической пунктуацией, если включена, но сложные структуры предложений могут потребовать ручной очистки.

Это хорошо работает для повседневной диктовки, где вы ожидаете редактирования вывода. Это не правильный инструмент, если вам нужен профессиональный текст без редактирования.

Опция 2: Dragon Professional (Windows)

Dragon Professional — это выбор для пользователей Windows, которым нужна профессиональная точность с областью специализированной лексики — в основном в праве, медицине, финансах и технических областях.

Установка

  1. Приобретите Dragon Professional на веб-сайте Nuance ($699 по состоянию на 2026)
  2. Загрузите установщик
  3. Запустите мастер установки
  4. Создайте голосовой профиль (начальное обучение занимает 5–10 минут)

Обучение голосового профиля

Обучение голоса Dragon значительно улучшает точность. Во время настройки:

  1. Прочитайте предоставленные текстовые отрывки (2–3 минуты чтения)
  2. Dragon анализирует ваши голосовые паттерны, акцент и стиль речи
  3. Профиль сохраняется в вашей учётной записи пользователя

Точность дополнительно улучшается со временем, когда Dragon учится исправлениям, которые вы делаете.

Пользовательский словарь

Функция пользовательского словаря — это самое сильное преимущество Dragon для профессионального использования:

  1. Откройте редактор словаря Dragon
  2. Добавьте доменные термины (медицинские условия, правовые ссылки, названия продуктов, технические термины)
  3. Добавьте письменную форму и устную форму для аббревиатур (произносится: «компания», написано: «Acme Corporation»)

Для специалистов со специализированной лексикой эта функция одна оправдывает стоимость.

Основы Dragon

Эквивалент push-to-talk в Dragon: нажмите и отпустите настраиваемую клавишу (по умолчанию клавиша минус на цифровой панели) для начала прослушивания. Скажите «stop listening» или нажмите клавишу снова для остановки.

Dragon также поддерживает команды управления приложениями — вы можете диктовать для переключения между приложениями, нажимать кнопки, навигировать по меню и управлять функциями Windows голосом. Это полезно для пользователей с проблемами мобильности.

Опция 3: современное распознавание речи AI для Windows

Разрыв на рынке Windows в 2026 году — это отсутствие инструмента, который объединяет расшифровку уровня Whisper с обогащением текста AI в системном интерфейсе push-to-talk. Инструменты с этой комбинацией существуют на macOS (Telvr, Wispr Flow), но ещё не на Windows.

Что пользователи Windows могут использовать сегодня

Whisper Desktop (с открытым исходным кодом): Несколько инструментов сообщества приносят Whisper на Windows. Наиболее поддерживаемые:

  • Whispering (с открытым исходным кодом, GitHub) — записывает звук, расшифровывает через локальный Whisper, вставляет в буфер обмена
  • FasterWhisper на Windows — требует настройки Python, лучшая производительность через квантизованные модели

Они выдают сырую расшифровку Whisper без обогащения. Настройка требует технического комфорта с инструментами командной строки.

Voice In (расширение Chrome): Расширение браузера, которое добавляет голосовой ввод к любому текстовому полю в Chrome. Использует Google Web Speech API, не Whisper. Точность хорошая для английского; ограниченная для других языков. Работает только внутри Chrome.

Telvr для Windows

Версия Telvr для Windows находится в разработке. Когда доступна, она принесёт полный опыт Telvr на Windows: push-to-talk, расшифровку Whisper large-v3, шесть режимов обогащения AI и вставку текста на уровне системы.

Подпишитесь на список ожидания на веб-сайте Telvr, чтобы быть уведомлённым, когда версия для Windows запустится.

Настройка микрофона (применяется ко всем методам)

Качество микрофона имеет большее значение, чем какой инструмент распознавания речи вы используете. Плохой микрофон ограничит точность, независимо от основной модели.

Встроенный микрофон ноутбука

Работает в тихих окружениях. Может бороться с фоновым шумом, HVAC или окружающими офисными звуками.

Внешний USB микрофон

Значительное обновление. Микрофоны USB начального уровня ($50–100, Blue Yeti Nano, Rode NT-USB Mini) выдают значительно чище звук, чем встроенные микрофоны ноутбука. Улучшенное качество входа напрямую переводится в лучшую точность.

Микрофон гарнитуры

Согласованное расстояние микрофона и позиция делают гарнитуры особенно хороши для диктовки. USB или Bluetooth гарнитуры обе работают; избегайте аналогового 3,5 мм, если возможно, так как они склонны вносить шум.

Настройка микрофона в Windows

  1. Перейдите в Settings > System > Sound
  2. Под Input выберите ваш предпочтительный микрофон
  3. Нажмите «Configure microphone» и следуйте мастеру калибровки
  4. Используйте счётчик громкости для проверки, что уровень входа сильный без отсечки

Целевой уровень входа: Полоса громкости должна достичь примерно 75% максимума при разговоре на нормальном разговорном уровне. Слишком тихо означает более слабое распознавание; слишком громко вызывает отсечку.

Поиск и устранение неисправностей общих проблем

Voice Typing не активируется (Win+H):

  • Проверьте, что текстовое поле активно (сначала нажмите в текстовое поле)
  • Проверьте разрешения микрофона: Settings > Privacy and Security > Microphone

Плохая точность в любом инструменте:

  • Протестируйте с другим микрофоном
  • Переместитесь в более тихую окружающую среду
  • Говорите немного медленнее и яснее
  • Для Dragon: запустите мастер настройки точности после нескольких часов использования

Текст появляется в неправильных местах:

  • Целевое приложение может не поддерживать голосовой ввод в этом конкретном поле
  • Убедитесь, что фокус на правильном окне и текстовом поле

Высокая задержка (долгое ожидание между речью и появлением текста):

  • Windows Voice Typing обрабатывает на серверах Microsoft; проверьте соединение интернета
  • Для Dragon: локальная обработка, проверьте использование CPU — другие требовательные приложения могут замедлить это