Entrada de Voz no macOS em 2026
macOS sempre teve fundações fortes para entrada de voz. Apple introduziu Dictation do lado do servidor com OS X Mountain Lion, e a integração hardware-software tight do Mac significa que ferramentas de terceiros podem se integrar profundamente ao sistema. Em 2026, usuários de Mac têm mais opções de entrada de voz do que nunca — incluindo ferramentas que pareceriam ficção científica cinco anos atrás.
O desafio é saber qual opção realmente se adapta ao seu fluxo de trabalho. Esta comparação cobre todas as opções relevantes para Mac, com avaliações honestas de onde cada uma vence e onde fica aquém.
Apple Dictation (Integrada)
Apple Dictation é a primeira opção a avaliar porque não custa nada e não requer instalação. Ative em Configurações do Sistema em Teclado, atribua um atalho (padrão é pressionar Fn duas vezes ou a tecla Dictation), e você está pronto.
Como funciona: Frases curtas processam no dispositivo usando o modelo de fala do Apple. Sessões de ditação mais longas podem usar opcionalmente os servidores da Apple. A saída aparece no campo de texto ativo em tempo real.
Precisão: Forte para inglês comum. Lida bem com fala conversacional. Tem dificuldade com terminologia técnica, nomes próprios não no dicionário da Apple, e vocabulário adjacente a código.
Formatação: Nenhuma além de pontuação básica quando você explicitamente diz comandos. Nenhum enriquecimento por IA. Se você dizer "um" ou "tipo," essas palavras aparecem no seu texto.
Privacidade: O processamento no dispositivo para frases curtas é genuinamente privado. O processamento de servidor envolve enviar áudio para Apple.
Melhor para: Ditação casual em apps do dia a dia, usuários que não querem instalar nada, entrada de voz rápida onde formatação não importa.
Telvr
Telvr é um app de push-to-talk de ditação dedicado para macOS. Instala como um app na barra de menu e oferece entrada de voz em todo o sistema com enriquecimento por IA.
Como funciona: Você segura um atalho configurável em qualquer lugar do seu Mac — em qualquer app, em qualquer campo de texto, até no terminal. Fale o seu conteúdo, solte a tecla, e em cerca de dois segundos o texto processado aparece exatamente onde seu cursor está.
O pipeline de processamento usa Whisper large-v3 via API de inferência do Groq para transcrição, seguido por um passo de enriquecimento por IA que transforma fala bruta em saída formatada.
Seis modos de enriquecimento:
- Transcrição Bruta: saída exata de fala, processamento mínimo
- Limpar e Corrigir: remove preenchimentos, corrige gramática, adiciona pontuação
- Email Profissional: formata fala como email completo com assunto e saudação
- Notas de Reunião: estrutura conteúdo em tópicos com decisões e itens de ação
- Resumo de 2-3 Sentenças: condensa fala mais longa em resumo bem apertado
- Tarefa para Dev: estrutura tarefa de desenvolvimento com contexto e critérios de aceitação
Precisão: Whisper large-v3 está entre os modelos mais precisos disponíveis. Combinado com a camada de enriquecimento que corrige gramática e remove disfluências, a qualidade de saída é consistentemente mais alta do que ferramentas de transcrição bruta.
Latência: Menos de 2 segundos para passagens típicas. O processamento na nuvem via inferência otimizada do Groq é rápido o suficiente para que o atraso pareça o tool "pensando", não buffering.
Suporte a idiomas: 50+ idiomas com detecção automática. Telvr não requer que você defina seu idioma — ele identifica pela sua fala.
Preços: EUR 3 por mês de taxa de infraestrutura mais EUR 0,03 por minuto de ditação real. Uma avaliação gratuita de 14 dias inclui EUR 3 de crédito inicial.
Melhor para: Profissionais que desejam entrada de voz em todo o sistema que produz saída limpa e formatada sem edição manual.
Wispr Flow
Wispr Flow é o concorrente mais próximo de Telvr no macOS. Adota a mesma abordagem de push-to-talk e adiciona processamento por IA para produzir saída limpa.
Pontos fortes: Interface polida, qualidade de saída de IA sólida, e "modo flow" que lida com sessões de ditação mais longas com pausas naturais de forma mais graciosa.
Preços: $14 por mês, taxa fixa. Isso é melhor para usuários pesados (30+ minutos por dia) e pior para usuários moderados comparado ao modelo baseado em uso de Telvr.
Limitações: Sem modo de prompt personalizado. Suporte a idioma mais estreito do que ferramentas baseadas em Whisper.
Melhor para: Usuários de Mac que ditam intensamente e preferem um custo mensal previsível.
Whisper (Auto-hospedado)
O modelo Whisper do OpenAI está disponível como projeto código aberto. Com as ferramentas certas, você pode executá-lo localmente em um Mac com Apple Silicon.
Como funciona: Você registra áudio (usando algo como sox ou um wrapper como whisper-mic), executa através do modelo Whisper local, e obtém uma transcrição. Nenhuma API em nuvem necessária.
Precisão: Idêntica à qualidade de transcrição de Telvr — mesmo modelo Whisper large-v3. A diferença é inteiramente no pipeline e camada de enriquecimento.
Latência: Em Apple Silicon (chips M2/M3/M4), Whisper large-v3 funciona em 3-8 segundos localmente. Modelos menores (medium, small) funcionam em 1-3 segundos com alguma redução de precisão.
Integração: Nenhuma pronta para uso. Você precisa construir um pipeline customizado para obter texto no seu aplicativo ativo. Vários projetos da comunidade existem (whispering, MacWhisper, etc.) mas requerem configuração.
Enriquecimento: Zero. Você obtém transcrição bruta. Pós-processamento requer ferramentas adicionais.
Privacidade: Totalmente local. Nenhum áudio sai do seu machine.
Melhor para: Desenvolvedores que desejam controle total, usuários focados em privacidade, pessoas construindo fluxos de trabalho customizados.
Dragon para Mac (Descontinuado)
Dragon NaturallySpeaking para Mac foi descontinuado por Nuance em 2023. Nenhuma versão atual está disponível para macOS. Se você está procurando precisão de nível Dragon e gerenciamento de vocabulário em Mac, as opções são Telvr, Wispr Flow, ou Whisper auto-hospedado.
Isso é mencionado porque muitos resultados de busca ainda fazem referência a Dragon para Mac — não é mais uma opção viável para usuários de macOS.
Tabela de Comparação
| Recurso | Apple Dictation | Telvr | Wispr Flow | Whisper (local) | |---|---|---|---|---| | Em todo o sistema | Sim | Sim | Sim | Com configuração customizada | | Enriquecimento por IA | Não | Sim (6 modos) | Sim | Não | | Latência | 1-3s | Menos de 2s | Menos de 2s | 3-8s | | Suporte a idioma | ~60 | 50+ (detecção automática) | ~40 | 99 | | Privacidade | Opção no dispositivo | Nuvem | Nuvem | Totalmente local | | Preço | Gratuito | EUR 3/mês + uso | $14/mês | Gratuito | | Prompt customizado | Não | Sim | Não | Não |
Nossa Recomendação
Para a maioria dos usuários de Mac que desejam usar entrada de voz como uma ferramenta genuína de produtividade — não apenas ditação ocasional — Telvr é a solução mais completa. A combinação de inserção em todo o sistema, processamento rápido na nuvem, e modos de enriquecimento por IA aborda os dois motivos pelos quais entrada de voz normalmente falha como ferramenta de fluxo de trabalho: você tem que trocar de apps para usar, e a saída precisa de edição pesada.
Escolha Apple Dictation se você só precisa de entrada de voz ocasional em apps padrão e não quer instalar nada.
Escolha Wispr Flow se você dita intensamente todos os dias e prefere uma taxa mensal fixa.
Escolha Whisper local se privacidade é inegociável e você é confortável construindo um pipeline customizado.
A insight chave é que precisão bruta, embora importante, não é o fator diferenciador em 2026. Whisper large-v3, disponível via múltiplos produtos, é extremamente preciso. O diferenciador é o que acontece ao texto após transcrição — se você obtém saída de fala bruta ou texto formatado e utilizável.