Почему сырой расшифровки недостаточно
Представьте произнесение мысли вслух и захват каждого «м», «ух», «вы знаете» и ложного старта дословно. Это сырая расшифровка речи. Модель Whisper — среди наиболее точных доступных — верно записывает то, что вы говорите, включая всё, что вы предпочли бы, чтобы игнорировалось.
Отредактированная версия этой мысли, как вы бы её написали в письме или документе, выглядит совершенно иначе. Лучшая пунктуация. Удалённые слова-паразиты. Надлежащая структура. Профессиональный регистр.
Разрыв между этими двумя версиями — это то, что обогащение текста AI покрывает.
Что происходит между вашим голосом и текстом
Конвейер речь-в-текст с обогащением AI имеет два отдельных этапа:
Этап 1: Расшифровка. Ваш звук обрабатывается моделью распознавания речи — в случае Telvr это Whisper large-v3. Это преобразует звуковые волны в текст с высокой точностью. Вывод — это сырая расшифровка: что вы сказали, включая все естественные недостатки разговорной речи.
Этап 2: Обогащение. Сырая расшифровка передаётся языковой модели со специфичным промптом, описывающим, что с ней делать. Языковая модель преобразует расшифровку в форматированный вывод — удаляя слова-паразиты, переструктурируя предложения, применяя правила форматирования и адаптируя регистр к целевому контексту.
Шаг обогащения — это не простой поиск-и-замена для «м» и «ух». Он применяет истинное понимание языка для выдачи вывода, который читается как если бы думающий человек его написал.
Шесть режимов обогащения объяснены
Дословное переложение
Самый простой режим: минимальная постобработка, вывод близко к тому, что выдаёт Whisper. Полезно, когда вам нужна буквальная расшифровка — цитирование чего-либо, запись точных слов или захват конкретной фразировки, которую вы хотите сохранить.
Ввод: «основная проблема здесь в том, что мы видим, ух, три раза нормальные показатели ошибок на конечной точке платежа начиная с примерно двух pm вчера»
Вывод: «Основная проблема здесь в том, что мы видим три раза нормальные показатели ошибок на конечной точке платежа начиная с примерно 2 PM вчера.»
Даже в режиме Raw, базовая очистка (капитализация, числа форматированы согласованно) применяется.
Clean and Correct
Ежедневный рабочий режим. Удаляет неплавность (м, ух, как, вы знаете), исправляет грамматику, добавляет надлежащую пунктуацию и выдаёт чистую прозу, которая читается как если бы она была напечатана осторожно. Это правильное значение по умолчанию для большинства текста общего назначения: сообщения Slack, случайные письма, заметки, документация.
Ввод: «в основном, что я пытаюсь сказать, это то, что текущий подход к, ух, обработке аутентификации собирается вызвать проблемы, когда мы масштабируемся, потому что мы используем, вы знаете, таблицу сеанса и это собирается, ух, стать узким местом»
Вывод: «Текущий подход к обработке аутентификации будет вызывать проблемы при масштабировании. Мы используем таблицу сеанса для состояния auth, которое станет узким местом.»
Заметьте обогащение вышло за пределы просто удаления слов-паразитов — оно переструктурировало мысль в два чётких предложения.
Professional Email
Преобразует произнесённое содержание в полное письмо с строкой темы, приветствием, телом и закрытием. Тон смещается на профессиональный, но естественный. Надлежащий для деловой коммуникации, где вы хотите продиктовать суть и позволить AI справиться с форматом.
Ввод: «эй, можешь сказать Jake, что нам нужен план миграции сервера к концу недели и также напомни ему про аудит безопасности, который запланирован на 15-е, спроси его, готова ли его команда»
Вывод:
Тема: Обновление плана миграции сервера и аудита безопасности
Hi Jake,
Ты не мог бы отправить план миграции сервера к концу этой недели? Я также хотел проверить про аудит безопасности, запланированный на 15-е — готова ли твоя команда?
Спасибо.
Meeting Notes
Структурирует произнесённое содержание в стандартный формат заметок встречи: решения, пункты действия, контекст и следующие шаги. Разработан для резюме после встречи, произнесённых сразу после встречи, пока память свежа.
Ввод: «встреча продукта сегодня, решили отложить мобильный запуск на Q3, Tom обновляет дорожную карту, нам также нужен юридический обзор новых условий перед запуском, Sarah владеет этим, мы проверим на неделе»
Вывод:
Решения
- Мобильный запуск перепланирован на Q3
Пункты действия
- Tom: Обновить дорожную карту продукта — в ходе выполнения
- Sarah: Инициировать юридический обзор новых условий перед запуском
Следующая проверка
- На неделе
2–3 Sentence Summary
Сжимает более длинную речь в плотное резюме из двух-трёх предложений. Полезно для резюме руководителя, обновлений статуса и ситуаций, где вам нужно дистиллировать много содержания в краткое утверждение.
Ввод: [трёхминутное устное объяснение статуса проекта, охватывающее фон, текущие блокировки, спланированные решения и ожидаемый график]
Вывод: «Проект в настоящий момент заблокирован на доступе API от сторонней стороны, откладывая интеграцию примерно на две недели. Команда реализует слой mock API в промежуточное время для продолжения разработки. Полная интеграция в настоящий момент ожидается к концу месяца.»
Dev Task
Структурирует произнесённое содержание как задачу разработки с контекстом, требованиями и критериями приёмки. Вывод соответствует распространённым форматам для проблем GitHub, задач Linear и билетов Jira.
Ввод: «нам нужно добавить ограничение частоты запросов к API, прямо сейчас нет защиты, так что кто-то мог бы лупить конечные точки, должно ограничить до 100 запросов в минуту за пользователя, вернуть 429, если превышено, использовать Redis для счётчика»
Вывод:
Задача: добавить ограничение частоты запросов API
Контекст API в настоящий момент не имеет ограничения частоты запросов, оставляя конечные точки уязвимыми для злоупотребления.
Требования
- Ограничить каждого аутентифицированного пользователя до 100 запросов в минуту
- Возвращать HTTP 429 (слишком много запросов) при превышении лимита
- Использовать Redis для реализации счётчика частоты
Критерии приёмки
- [ ] Ограничение частоты принято за пользователя на 100 req/min
- [ ] Ответ 429 возвращён с надлежащими заголовками
- [ ] Счётчик Redis правильно сбрасывается через одну минуту
Как реализуется обогащение
Шаг обогащения использует большую языковую модель с тщательно разработанным системным промптом для каждого режима. Промпт определяет роль («вы профессиональный редактор текста»), задачу («преобразовать следующую сырую расшифровку речи в профессиональное письмо»), правила («удалить слова-паразиты, исправить грамматику, добавить строку темы и приветствие») и ожидаемый формат вывода.
Сырая расшифровка Whisper затем добавляется как сообщение пользователя. LLM выдаёт форматированный вывод в один проход вывода.
Это архитектура, почему обогащение добавляет только примерно одну секунду к общей задержке — хорошо подсказанный вывод LLM на эффективной модели быстр.
Выбор правильного режима
Правильный режим зависит от контекста, для которого вы пишете:
- Любой текст общего назначения, Slack, заметки: режим Clean
- Письмо в профессиональном контексте: режим Email
- Документация после встречи: режим Meeting Notes
- Обновления статуса, TLDRs, рефераты: режим Summary
- Проблемы GitHub, задачи Linear, билеты Jira: режим Dev Task
- Пользовательский рабочий процесс: пользовательский режим со своим промптом системы
Переключение режимов в Telvr занимает один клик на селектор режима. Для пользователей, которые имеют согласованный основной вариант использования, последний выбранный режим сохраняется между сеансами, так что вам не нужно переписать его.
Обогащение против простой очистки
Различие между «обогащением» и «очисткой» имеет значение. Инструменты простой очистки удаляют слова-паразиты и исправляют капитализацию — относительно механическая операция, которую может примерно соответствовать любой скрипт обработки текста.
Истинное обогащение применяет понимание языка. Он переструктурирует предложения для ясности, а не только для правильности. Это определяет пункты действия в потоке речи и форматирует их с владельцами и сроками. Это берёт «я пишу, чтобы спросить про...» и преобразует его в «я хотел бы спросить про...» в режиме Email.
Разница видна в выводе: механически чищенный текст читается как речь с удалёнными мл. Обогащённый текст читается как что-то, что человек написал.