Как работает Telvr?

Нажми горячую клавишу в любом месте системы, говори естественно, Telvr транскрибирует в реальном времени. Готовый текст автоматически вставляется в позицию курсора.

На каких языках работает?

Поддерживает 50+ языков через Whisper large-v3 с автоматическим определением языка.

Нужна подписка?

Нет. Система Pay-as-you-go: EUR 3/месяц (инфраструктура) + EUR 0.03/минуту (использование).

Работает ли без интернета?

Сейчас только облачная обработка. Community Edition для локальной установки находится в разработке.

В каких приложениях работает?

Система-независимо — в любом приложении. Telvr работает на уровне системы, не нужна интеграция с каждым приложением.

Безопасны ли мои данные?

Да. TLS-шифрование передачи, аудиоданные не сохраняются постоянно, заключено соглашение об обработке данных с Groq.

← Блог2026-02-19

Push-to-Talk против Always-On диктовки: какой стиль побеждает?

Два подхода к голосовому вводу

Каждый инструмент голосового ввода принимает фундаментальное решение о дизайне: когда микрофон слушает?

Две доминирующие модели — это push-to-talk (микрофон активен только во время нажатия кнопки) и always-on (микрофон постоянно слушает, обычно используя слово пробуждения или команды старт/стоп). Каждый подход имеет разные последствия для конфиденциальности, точности, интеграции рабочего процесса и использования ресурсов.

Выбор — это не просто предпочтение UX — он отражает фундаментально различные предположения о том, как голосовой ввод вписывается в рабочую окружающую среду.

Push-to-Talk: намеренный и ограниченный

При диктовке push-to-talk вы держите клавишу быстрого доступа для активации микрофона, говорите ваше содержание и отпускаете клавишу, когда готовы. Микрофон неактивен во все остальные времена.

Конфиденциальность: Это наиболее сильная гарантия конфиденциальности, доступная в голосовом вводе. Приложение может захватывать звук только пока клавиша быстрого доступа физически удерживается. Нет фонового прослушивания, нет случайного захвата приватных разговоров и нет вопроса о том, был ли звук из непредусмотренного момента обработан. Для рабочих сред, где коллеги, клиенты или конфиденциальная информация часто слышны, это имеет значение.

Точность: Push-to-talk обычно выдаёт лучшую точность, потому что сегмент звука чистый и ограниченный. Модель получает ровно одно высказывание — от нажатия клавиши быстрого доступа к отпусканию клавиши быстрого доступа — без необходимости обнаруживать границы речи из фонового шума. Нет вопроса о том, был ли фоновый разговор предназначен как ввод.

Рабочий процесс: Жест push-to-talk явный и намеренный. Вы подготавливаете то, что хотите сказать, нажимаете клавишу, говорите и отпускаете. Это соответствует мысленной модели «я сейчас пишу» и «я сейчас закончил писать». Это вписывается естественно рядом с использованием клавиатуры и мышки, потому что это не требует условия без рук.

Батарея и ресурсы: Микрофон неактивен, когда не активно диктуете. Активность CPU и сети происходит только во время сеансов диктовки.

Ограничения: Каждая диктовка требует намеренного действия. Непрерывная, безруковая диктовка — обычная при медицинской расшифровке, пока руки врача заняты, например — не является естественным режимом для push-to-talk.

Always-On диктовка: непрерывная и безруковая

Always-on (или непрерывная) диктовка использует обнаружение активности голоса для автоматического выявления того, когда вы говорите и обработки этого звука. Apple Dictation при работе непрерывно, Google Voice Typing на Android и инструменты доступности без рук обычно работают таким образом.

Конфиденциальность: Always-on прослушивание требует постоянного доступа к микрофону. Инструмент должен обрабатывать звук непрерывно для обнаружения того, когда вы начинаете говорить. Даже при хорошей локальной обработке есть присущее раскрытие: любой разговор рядом с вашим микрофоном может быть захвачен, даже если это не предназначалось как ввод. Для большинства корпоративных окружений и общих пространств это реальная проблема.

Точность: Переменная. Модель должна различать намеренную диктовку и фоновую речь — разговор с коллегой, видео, воспроизводимое в фоне или кто-то говорящий поблизости. Ложные активации и пропущенные начальные точки добавляют шум к выводу.

Рабочий процесс: Лучше для сценариев без рук. Медицинские специалисты, использующие диктовку, пока они осматривают пациентов, рабочие, которым нужны обе руки, и пользователи с проблемами мобильности, которые делают удержание клавиши непрактичным, все выигрывают от непрерывной диктовки.

Батарея и ресурсы: Постоянный доступ к микрофону с постоянным обнаружением активности голоса потребляет значительно больше батареи и обработки, чем push-to-talk.

Ограничения: Не подходит хорошо для общих или открытых офисных окружений. Ложные активации создают шум. Непрерывный «разговор» с инструментом может казаться неестественным в контекстах, где вы часто переключаетесь между голосовым и печатным вводом.

Модель слова пробуждения

Третий подход использует слово пробуждения («Hey [product]») для начала прослушивания и команду остановки или тайм-аут молчания для завершения сеанса. Это модель, используемая Siri, Alexa и Google Assistant. Для настольной диктовки она редко используется, потому что слово пробуждения становится трением в высокочастотных случаях использования.

Влияние на качество вывода

Помимо сырой точности расшифровки, модель активации влияет на качество обогащения AI:

Преимущество push-to-talk: AI получает ровно одно ограниченное высказывание. Модель обогащения обрабатывает полное, намеренное утверждение. Нет шума от непредусмотренной речи, и модель не нуждается в справке по обнаружению границы — отпускание клавиши быстрого доступа пользователем определяет сегмент.

Вызов всегда включённого: Модели обогащения получают сегменты звука, которые могут включать ложные старты, фоновую речь и неясные границы. Это делает работу AI более сложной и может привести к артефактам в форматированном выводе.

Выбор дизайна Telvr

Telvr полностью построен вокруг push-to-talk. Это был намеренный выбор, основанный на двух убеждениях:

Во-первых, конфиденциальность имеет значение в профессиональных окружениях. Инструмент, разработанный для производительности рабочего стола — где происходят конфиденциальные разговоры — должен предоставить пользователям абсолютный контроль над тем, когда микрофон активен. Push-to-talk обеспечивает этот контроль без конфигурации.

Во-вторых, явность push-to-talk выдаёт лучший вывод. Пользователи, которые нажимают клавишу быстрого доступа для диктовки, склонны составлять свою мысль перед речью, вместо того чтобы думать вслух и ожидать, что AI извлечёт смысл из потока сознания. Результирующий ввод более связный, и вывод обогащения AI соответственно лучше.

Какой подход правильный для вас

Выберите push-to-talk, если:

Вы работаете в общем офисе или открытом офисном помещении
Конфиденциальность является проблемой (звонки, конфиденциальные разговоры, конфиденциальная информация рядом)
Вы часто переключаетесь между печатью и голосовым вводом
Вы хотите явный контроль над каждым сеансом диктовки
Вы используете голос для замены печати в конкретные моменты, а не для непрерывного использования без рук

Выберите all-on, если:

Вам нужна полностью бесруковая работа (медицинские процедуры, физическая работа)
Вы работаете в приватной, тихой окружающей среде
Вы диктуете длинные непрерывные отрывки без необходимости взаимодействовать с компьютером

Выберите слово пробуждения, если:

Вы используете голосовой ассистент, а не инструмент диктовки
Вам нужна фоновая активация без физической кнопки

Для большинства работников умственного труда, которые хотят использовать голосовой ввод как дополнение к клавиатуре — написание писем, документации, сообщений и заметок при работе за столом — push-to-talk — это лучший подходящий вариант. Явная, ограниченная активация соответствует тому, как фактически происходит работа за столом: прерывистые всплески создания текста, а не непрерывный монолог.