博客

Mac上的语音转文本:2026年每个选项对比

2026年macOS上的语音输入

macOS一直拥有强大的语音输入基础。Apple在OS X Mountain Lion引入了服务器端听写,Mac的紧密硬件软件集成意味着即使第三方工具也可以深度集成到系统中。在2026年,Mac用户拥有比以往更多的语音输入选项——包括五年前似乎像科幻小说的工具。

挑战是知道哪个选项实际上适合你的工作流。本比较涵盖Mac的每个相关选项,并诚实评估每个选项的优势和不足。

Apple Dictation(内置)

Apple Dictation是首先要评估的选项,因为它成本为零且无需安装。在系统设置的键盘部分激活它,分配一个快捷键(默认是按两次Fn或听写键),你就已准备好。

工作原理: 短语使用Apple的语音模型进行设备内处理。较长的听写会话可以选择使用Apple的服务器。输出实时出现在活动文本字段中。

准确度: 对于干净环境中的英文很稳定。处理大多数日常词汇很好。在技术术语、不在Apple字典中的专有名词和代码相邻词汇上遇到困难。

格式: 除了明确说出命令时的基本标点符号外,没有其他内容。无AI增强。如果你说"um"或"like",这些词会出现在你的文本中。

隐私: 短语的设备内处理确实是私密的。服务器处理涉及将音频发送到Apple。

最适合: 日常应用中的休闲听写、不想安装任何东西的用户、格式无关紧要的快速语音输入。

Telvr

Telvr是macOS的专用按键说话听写应用。它作为菜单栏应用安装,并提供具有AI增强的系统范围语音输入。

工作原理: 你在Mac上的任何地方按住可配置的热键——在任何应用、任何文本字段、甚至在终端。说出你的内容,释放按键,大约两秒内处理后的文本出现在你的光标位置。

处理管道使用Groq推理API通过Whisper large-v3进行转录,随后是AI增强步骤,将原始语音转换为格式化输出。

六种增强模式:

  • 原始转录:精确语音输出,最少处理
  • 清理和更正:删除填充词、修复语法、添加标点
  • 专业电子邮件:将语音格式化为带主题和问候的完整电子邮件
  • 会议记录:将内容结构化为带决策和行动项的要点
  • 2-3句摘要:将较长语音浓缩为紧凑摘要
  • 开发任务:使用上下文和验收标准结构化开发任务

准确度: Whisper large-v3是最准确的模型之一。结合纠正语法和删除不流畅的增强层,输出质量一致高于原始转录工具。

延迟: 典型段落不到2秒。通过Groq优化推理的云处理速度足够快,延迟感觉像工具在"思考",而不是缓冲。

语言支持: 50多种语言加自动检测。Telvr不要求你设置语言——它从你的语音识别它。

定价: EUR 3每月基础设施费加EUR 0.03每分钟实际听写。14天免费试用包括EUR 3启动信用。

最适合: 想要系统范围语音输入且产生干净、格式化输出而无需手动编辑的专业人士。

Wispr Flow

Wispr Flow是Telvr在macOS上最接近的竞争对手。它采取相同的按键说话方法并添加AI处理以产生干净输出。

优势: 精美的界面、稳定的AI输出质量,以及"流"模式,它通过更优雅地处理更长的停顿和部分想法使听写感觉更自然。

定价: 每月$14,固定费率。对于重度用户(每天30多分钟)比Telvr的基于使用情况的模式更好,对于中等用户更差。

限制: 无自定义提示模式。语言支持范围比Whisper基础工具更窄。

最适合: 经常听写并想要可预测月价的Mac用户。

Whisper(自托管)

OpenAI的Whisper模型作为开源项目可用。使用正确的工具,你可以在带Apple Silicon的Mac上本地运行它。

工作原理: 你记录音频(使用soxwhisper-mic等包装),通过本地Whisper模型运行它,并获得转录。无需云API。

准确度: 与Telvr的转录质量相同——相同的Whisper large-v3模型。区别完全在管道和增强层。

延迟: 在Apple Silicon(M2/M3/M4芯片)上,Whisper large-v3本地运行在3-8秒。较小的模型(中等、小)在1-3秒内以一些准确度降低运行。

集成: 开箱即用无。你需要构建自定义管道以将文本获取到你的活动应用。存在几个社区项目(whispering、MacWhisper等),但需要设置。

增强: 零。你获得原始转录。后处理需要额外工具。

隐私: 完全本地。没有音频离开你的机器。

最适合: 想要完全控制的开发人员、隐私重视的用户、构建自定义工作流的人。

Dragon for Mac(已停止)

Dragon NaturallySpeaking for Mac于2023年被Nuance停止。没有当前版本可用于macOS。如果你在寻求Mac上的Dragon级准确度和词汇管理,选项是Telvr、Wispr Flow或自托管Whisper。

这被提及是因为许多搜索结果仍然引用Dragon for Mac——它不再是macOS用户的可行选项。

比较表

| 功能 | Apple Dictation | Telvr | Wispr Flow | Whisper(本地) | |---|---|---|---|---| | 系统范围 | 是 | 是 | 是 | 使用自定义设置 | | AI增强 | 否 | 是(6种模式) | 是 | 否 | | 延迟 | 1-3秒 | 不到2秒 | 不到2秒 | 3-8秒 | | 语言支持 | ~60 | 50+(自动检测) | ~40 | 99 | | 隐私 | 设备内选项 | 云 | 云 | 完全本地 | | 价格 | 免费 | EUR 3/月 + 使用 | $14/月 | 免费 | | 自定义提示 | 否 | 是 | 否 | 否 |

我们的建议

对于大多数想要使用语音输入作为真正生产力工具的Mac用户——不仅仅是偶尔听写——Telvr是最完整的解决方案。系统范围插入、快速云处理和AI增强模式的组合解决了语音输入通常失败的两个原因:你必须切换应用来使用它,输出需要大量编辑。

选择Apple Dictation 如果你只需要在标准应用中偶尔语音输入且不想安装任何东西。

选择Wispr Flow 如果你每天大量听写且更喜欢固定月费。

选择本地Whisper 如果隐私不可协商且你能舒适地构建自定义管道。

关键的洞察是原始准确度虽然重要,但不是2026年的区别因素。Whisper large-v3通过多个产品可用,准确度极高。区别因素是转录后对文本的处理——你获得原始语音输出还是格式化、可用的文本。