博客

如何在任何Mac应用中使用语音转文本

应用兼容性问题

Mac上的大多数语音输入工具仅在开发者想到添加支持的地方有效。Apple听写在Apple自己的应用和大多数文本字段中有效,但在第三方应用中表现不一致。基于网络的语音工具仅在Chrome文本字段中工作。专注听写应用经常需要你听写到他们自己的界面然后粘贴结果。

要使语音输入习惯实际坚持,它需要在任何地方有效——在终端、在你的IDE、在Slack的桌面应用中、在Notion、在你填的两年一次的表单的文本字段中。如果你在到达热键前必须思考语音是否会工作,摩擦杀死习惯。

系统范围文本插入通过完全绕过应用层来解决这个问题。

系统范围插入如何工作

标准语音输入工具通过无障碍API或应用特定的集成与应用通信。这是为什么他们仅在"支持的"应用中有效——应用需要实现或支持语音工具使用的特定界面。

系统范围插入以不同的方式工作。在转录和处理你的语音后,工具以编程方式在操作系统级别模拟键盘输入——相同的方式无障碍软件如键盘重映射或宏工具工作。结果在光标位置出现,完全如同它已被输入,逐字母。

因为这在OS输入级别上操作而不是通过应用API,它在实际上任何接受文本输入的应用中有效:

  • 文本编辑器和IDE
  • 终端和命令行
  • 浏览器文本字段(包括网络应用)
  • 本地macOS应用
  • Electron应用(VS Code、Notion、Slack、Discord)
  • 接受输入的PDF表单字段
  • 密码字段(带适当的谨慎)

在Mac上使用Telvr设置系统范围语音输入

步骤1:安装Telvr

从网站下载Telvr并安装它。在第一次启动期间,macOS将请求无障碍权限——这是启用系统范围文本插入的权限。在系统设置中授予它,在隐私和安全下,然后无障碍。

没有这个权限,文本仅可在明确支持工具的应用中插入。带它,文本插入在任何地方有效。

步骤2:配置热键

Telvr默认到Option+Space。这个组合舒适(每个键上一个大拇指)并且很少与应用快捷键冲突。

如果你更喜欢不同的键组合:

  1. 从菜单栏打开Telvr
  2. 进入偏好设置
  3. 点击热键字段并按你偏好的组合

好的替代品:

  • 右Option+Space(如果你为输入使用左Option)
  • Control+Shift+Space
  • 专注功能键如果你的键盘有可编程键
  • 侧鼠标按钮如果你的鼠标有额外按钮

避免:

  • Command+Space(聚焦)
  • Option+Tab(某些应用中的窗口切换器)
  • 任何你的IDE经常使用的组合

步骤3:选择增强模式

在听写前,选择与你的背景匹配的模式。模式选择器在Telvr菜单栏图标中。

对于跨不同应用的系统范围使用,清理模式 是在任何地方工作的默认。切换到其他模式以处理特定背景。

步骤4:定位你的光标

点击文本字段、文档、终端提示或任何你想要文本出现的可编辑区域。光标必须被放置——Telvr在光标位置插入文本,所以如果没有活跃光标,没有任何会出现。

步骤5:听写

按住热键,自然说话,释放。在1-2秒内,格式化文本在你的光标处出现。

应用逐个提示

终端

终端中的语音输入对更长的命令、git提交消息和任何接受扩展文本输入的终端提示有用。

注意: 文本在终端提示符处逐字符出现。标准命令工作良好。避免直接听写密码——使用密码管理器。

特别有用于: git commit -m "..."(说你的提交消息)、在nano或vim中写shell脚本(在插入模式)、组成多行heredoc内容。

VS Code

所有文本字段接受听写:编辑器本身、集成终端、搜索和替换字段、git提交消息字段和源控制面板中的评论字段。

推荐模式: 代码评论的清理模式、PR描述和提交消息的开发任务模式。

浏览器(Safari、Chrome、Firefox)

任何inputtextareacontenteditable元素接受听写。这涵盖基于网络的电子邮件客户端、Google文档、Notion在浏览器中、GitHub问题表单和实际上每个网络应用。

Slack桌面应用

基于Electron的应用如Slack接受系统范围插入。直接听写到消息组成字段。清理模式对消息工作很好;会议记录模式对在Slack线程中输入会议后摘要有用。

Notion

桌面应用和浏览器版本两者都工作。用清理或会议记录模式直接听写到Notion页面产生格式化的内容。

邮件和日历

本地macOS应用有完全支持。电子邮件组成窗口、日历事件描述和笔记字段都接受听写。

故障排除

文本没有出现:

  • 检查系统设置中无障碍权限被授予
  • 验证光标在可编辑字段中被定位(不在只读区域)
  • 一些受保护的文本字段(如某些密码管理器)故意阻止编程输入

文本出现在错误位置:

  • 插入点在按热键和文本出现之间移动。在听写期间将目标窗口保持在焦点中。

额外字符或损坏输出:

  • 这有时在带自动完成的应用中发生,它误解快速字符输入。在该应用中禁用自动完成或通过调整设置更慢地输入。

在某些应用中工作但不在其他:

  • 一些沙盒或安全强化应用限制编程输入。这是应用的安全政策,不是Telvr限制。

什么使系统范围听写不同

系统范围听写和应用特定语音工具之间的实际差异是心理模型。

使用应用特定工具,语音输入是某些应用的功能。你记得哪些应用支持它并相应地切换你的行为。

使用系统范围听写,语音输入是在任何地方可用的行为。热键总是在那里。习惯变成反射而不是故意——你到达热键的方式与你到达任何键盘快捷键的方式相同。

那个一致性是什么使语音输入成为可持续的生产力工具而不是偶然的实验。