Blog

Enriquecimento de Texto por IA: De Fala Bruta a Texto Perfeito

Por Que Transcrição Bruta Não É Suficiente

Imagine falar um pensamento em voz alta e ter cada "um," "uh," "sabe," e falso início capturado verbatim. Essa é transcrição de fala bruta. O modelo Whisper — entre os mais precisos disponíveis — registra fielmente o que você diz, incluindo tudo que você preferiria que ignorasse.

A versão editada daquele pensamento, conforme você o escreveria em um email ou documento, parece completamente diferente. Melhor pontuação. Preenchimentos removidos. Estrutura apropriada. Registro profissional.

A lacuna entre essas duas versões é o que enriquecimento de texto por IA preenche.

O Que Acontece Entre Sua Voz e o Texto

Um pipeline de fala para texto com enriquecimento por IA tem dois estágios distintos:

Estágio 1: Transcrição. Seu áudio é processado por um modelo de reconhecimento de fala — no caso de Telvr, Whisper large-v3. Isso converte formas de onda de áudio para texto com alta precisão. A saída é uma transcrição bruta: o que você disse, incluindo todas as imperfeições naturais da linguagem falada.

Estágio 2: Enriquecimento. A transcrição bruta é passada para um modelo de linguagem com um prompt específico descrevendo o que fazer com ela. O modelo de linguagem transforma a transcrição em saída formatada — removendo preenchimentos, reestruturando sentenças, aplicando regras de formatação, e adaptando o registro para o contexto alvo.

O estágio de enriquecimento não é um simples buscar-e-substituir para "um" e "uh." Aplica compreensão genuína de linguagem para produzir saída que leia como se uma pessoa cuidadosa a tivesse escrito.

Os Seis Modos de Enriquecimento Explicados

Transcrição Bruta

O modo mais simples: pós-processamento mínimo, saída próxima ao que Whisper produz. Útil quando você precisa da transcrição literal — citando algo, registrando palavras exatas, ou capturando um phrasing específico que você quer preservar.

Entrada: "o uh o problema principal aqui é que estamos vendo, uh, três vezes as taxas de erro normais no endpoint de pagamento começando de aproximadamente duas da tarde ontem"

Saída: "O problema principal aqui é que estamos vendo três vezes as taxas de erro normais no endpoint de pagamento começando de aproximadamente 14h ontem."

Mesmo em modo Bruto, limpeza básica (capitalização, números formatados consistentemente) aplica.

Limpar e Corrigir

O modo do dia a dia. Remove disfluências (um, uh, tipo, sabe), corrige gramática, adiciona pontuação apropriada, e produz prosa limpa que leia como se tivesse sido digitada cuidadosamente. Este é o padrão certo para a maioria de texto de propósito geral: mensagens Slack, emails casuais, notas, documentação.

Entrada: "então basicamente o que estou tentando dizer é que o, um, approach atual para, tipo, lidar com autenticação vai causar problemas quando escalamos porque estamos usando, sabe, a tabela de sessão e isso vai, uh, se tornar um gargalo"

Saída: "O approach atual para lidar com autenticação causará problemas em escala. Estamos usando a tabela de sessão para estado de auth, que se tornará um gargalo."

Repare que o enriquecimento foi além de apenas remover preenchimentos — reestruturou o pensamento em duas sentenças claras.

Email Profissional

Transforma conteúdo falado em um email completo com linha de assunto, saudação, corpo, e fechamento. O tom muda para profissional mas natural. Apropriado para comunicação de negócios onde você quer ditar a substância e ter a IA lidar com o formato.

Entrada: "ei você pode dizer ao Jake que precisamos do plano de migração de servidor até final da semana e também lembrar dele sobre a auditoria de segurança que está agendada para o 15, pergunte se seu time está pronto"

Saída:

Assunto: Plano de Migração de Servidor e Atualização de Auditoria de Segurança

Oi Jake,

Você poderia por favor enviar o plano de migração de servidor até final dessa semana? Também queria verificar sobre a auditoria de segurança agendada para o 15 — seu time está preparado?

Obrigado.

Notas de Reunião

Estrutura conteúdo falado em um formato padrão de notas de reunião: decisões, itens de ação, contexto, e próximos passos. Projetado para resumos pós-reunião falados imediatamente após a reunião enquanto memória está fresca.

Entrada: "reunião de produto hoje, decidimos atrasar o lançamento móvel para Q3, Tom está atualizando o roadmap, também precisamos de revisão legal dos novos termos antes do lançamento, Sarah é dona disso, vamos verificar próxima semana"

Saída:

Decisões

  • Lançamento móvel remarcado para Q3

Itens de Ação

  • Tom: Atualizar roadmap de produto — em andamento
  • Sarah: Iniciar revisão legal de novos termos antes do lançamento

Próxima Reunião

  • Próxima semana

Resumo de 2-3 Sentenças

Condensa fala mais longa em um resumo bem apertado de duas ou três sentenças. Útil para resumos executivos, atualizações de status, e situações onde você precisa destilar muito conteúdo em uma declaração breve.

Entrada: [Uma explicação falada de 3 minutos do status de projeto, cobrindo background, bloqueadores atuais, soluções planejadas, e cronograma esperado]

Saída: "O projeto está atualmente bloqueado no acesso de API do provedor terceirizado, atrasando a integração por aproximadamente duas semanas. O time está implementando uma camada de API mock no interim para continuar desenvolvimento. Integração completa agora é esperada até final do mês."

Tarefa para Dev

Estrutura conteúdo falado como uma tarefa de desenvolvimento com contexto, requisitos, e critérios de aceitação. A saída combina com formatos comuns para GitHub issues, tarefas Linear, e tickets Jira.

Entrada: "precisamos adicionar rate limiting à API, agora não há proteção então alguém poderia fazer spam dos endpoints, deve limitar a 100 requisições por minuto por usuário, retornar 429 se excedido, usar Redis para o contador"

Saída:

Tarefa: Adicionar Rate Limiting de API

Contexto A API atualmente não tem rate limiting, deixando endpoints vulneráveis a abuso.

Requisitos

  • Limitar cada usuário autenticado a 100 requisições por minuto
  • Retornar HTTP 429 (Too Many Requests) quando limite é excedido
  • Usar Redis para implementação de contador de taxa

Critérios de Aceitação

  • [ ] Rate limit implementado por usuário a 100 req/min
  • [ ] Resposta 429 retornada com headers apropriados
  • [ ] Contador Redis reseta corretamente após um minuto

Como o Enriquecimento É Implementado

O passo de enriquecimento usa um modelo de linguagem grande com um prompt de sistema cuidadosamente projetado para cada modo. O prompt define o papel ("Você é um editor de texto profissional"), a tarefa ("Transformar a seguinte transcrição bruta de fala em um email profissional"), as regras ("Remover palavras de preenchimento, corrigir gramática, adicionar linha de assunto e saudação"), e formato de saída esperado.

A transcrição de Whisper bruta é então anexada como mensagem do usuário. O LLM produz a saída formatada em um único passe de inferência.

Esta arquitetura é por que enriquecimento adiciona apenas cerca de um segundo à latência total — uma inferência de LLM bem-prompts em um modelo eficiente é rápida.

Escolhendo o Modo Certo

O modo certo depende do contexto para o qual você está escrevendo:

  • Qualquer texto geral, Slack, notas: Modo Clean
  • Email em contexto profissional: Modo Email
  • Documentação pós-reunião: Modo Notas de Reunião
  • Atualizações de status, TLDRs, abstratos: Modo Resumo
  • GitHub issues, Linear, tarefas Jira: Modo Dev Task
  • Fluxo de trabalho customizado: Modo Customizado com seu próprio prompt de sistema

Trocar modos em Telvr leva um clique no seletor de modo. Para usuários que têm um caso de uso primário consistente, o último modo selecionado persiste entre sessões então você não precisa resselecionar.

Enriquecimento vs Limpeza Simples

A distinção entre "enriquecimento" e "limpeza" importa. Ferramentas de limpeza simples removem palavras de preenchimento e corrigem capitalização — uma operação relativamente mecânica que qualquer script de processamento de texto poderia aproximar.

Enriquecimento genuíno aplica compreensão de linguagem. Reestrutura sentenças para clareza, não apenas correção. Identifica itens de ação em um fluxo de fala e os formata com proprietários e prazos. Leva "estou escrevendo para perguntar sobre..." e converte para "Gostaria de investigar sobre..." em modo Email.

A diferença é visível na saída: texto mecanicamente limpo lê como fala com os ums removidos. Texto enriquecido lê como algo que uma pessoa escreveu.