ブログ

任意のMacアプリで音声テキスト変換を使用する方法

アプリ互換性問題

Macで大部分の音声入力ツール、開発者がサポートを追加するコンテキストのみで機能。Apple ディクテーションはAppleのアプリとほとんどのテキストフィールドで機能しますが、サードパーティーアプリケーション不相応に動作します。Webベース音声ツール Chrome テキストフィールドのみで機能。専用ディクテーションアプリはしばしば独自のインターフェース指示する結果として貼り付けるよう必要。

音声入力習慣実際に習慣置くためには、どこでもで機能する必要があります。ターミナルで、IDE で、Slack の デスクトップアプリで、Notionで、2年に1回埋める形式のテキストフィールドで。あなたが声が機能する前に考える必要があるかどうか、摩擦が習慣を殺します。

システム全体テキスト挿入はあらゆるアプリケーションレイヤーを見て解決します。

システム全体挿入はどのように機能するのか

標準音声入力ツールはアクセシビリティAPI またはアプリ固有の統合を通じてアプリケーションと通信。これは、なぜ彼らは「サポート」アプリのみで機能する - アプリは音声ツール使用する特定インターフェースの実装またはサポートする必要があります。

システム全体挿入は異なります。トランスクリプション、話のスピーチ処理と処理した後、ツール、キーボード入力ってプログラム的にシミュレートするオペレーティングシステムレベル - キーボードリマッパーまたはマクロツール のようなアクセシビリティソフトウェアのように。結果はカーソル位置に見える、文字で文字で正確にタイプされていた場合。

操作アプリケーション API ではなくOS入力レベルで実行されるため、テキスト入力受け入れ事実上あらゆるアプリケーションで機能します:

  • テキストエディタと IDE
  • ターミナルとコマンドライン
  • ブラウザテキストフィールド(Webアプリを含む)
  • ネイティブmacOSアプリ
  • Electron app(VS Code、Notion、Slack、Discord)
  • テキスト入力受け入れるPDFフォームフィールド
  • パスワードフィールド(適切な注意で)

Telvrを使用してmacでシステム全体音声入力設定

ステップ1: Telvrをインストール

Telvrをウェブサイトからダウンロードし、それをインストール。最初起動時、macOSはアクセシビリティパーミッション要求 - システム全体テキスト挿入を有効にするパーミッション。システム設定下プライバシーとセキュリティ、その後アクセシビリティでそれを付与。

このパーミッションがなければ、テキストは明示的サポートするアプリのみで挿入できます。このように、テキスト挿入はどこでも機能。

ステップ2: ホットキーを設定

Telvrオプション+スペースをデフォルト。この組合は快適(各キーで親指)で、アプリケーションショートカットと競合しています。

別のものを好む場合:

  1. メニューバーからTelvrを開く
  2. 設定に進む
  3. ホットキーフィールドをクリックして、優先組合を押す

良い代替:

  • 右オプション+スペース(タイピングのため左オプション使用すれば)
  • コントロール+シフト+スペース
  • キーボードがプログラム可能キーを持つ場合の専用機能キー
  • マウスが余分なボタンを持つ場合は側マウスボタン

回避:

  • コマンド+スペース(Spotlight)
  • オプション+タブ(いくつかのアプリでウィンドウスイッチャー)
  • IDE頻繁に使用するあらゆる組合

ステップ3: エンリッチメント モードを選択

指示する前に、あなたのコンテキストに合わせるモード。モード セレクタは、Telvrメニューバーアイコンです。

異なるアプリ全体でシステム全体使用、クリーンモードはデフォルトどこでも機能。他のモードに特定のコンテキスト。

ステップ4: カーソルを配置

テキストフィールド、ドキュメント、ターミナルプロンプト、またはあなたがテキスト表示したい任意の編集可能領域をクリック。カーソルが配置する必要があります。Telvrはカーソル位置でテキストを挿入するため、アクティブなカーソルはなく、何も表示されません。

ステップ5: 指示

ホットキーを保持し、自然に話す、放す。1-2秒以内に、フォーマット済みテキストはカーソルに表示される。

アプリバイアプリのヒント

ターミナル

ボイス入力は、より長いコマンド、git commitメッセージ、ターミナルプロンプトを受け入れるあらゆるテキスト入力拡張のためのターミナルで有用。

ノート: テキストはターミナルプロンプトで文字で文字で表示。標準コマンドは正常に機能。パスワード直接指示することは回避 - パスワードマネージャーを使用。

特に有用: git commit -m "..." (コミットメッセージを話す)、nano や vim でシェルスクリプト執筆(挿入モード)、マルチラインheredocコンテンツ。

VS Code

すべてのテキストフィールドが指示をサポート: エディタ自体、統合ターミナル、検索と置き換えフィールド、gitコミットメッセージフィールド、ソース管理パネルのコメントフィールド。

推奨モード: コードコメント用クリーンモード、PR説明とコミットメッセージ用開発タスクモード。

ブラウザ(Safari、Chrome、Firefox)

任意のinputtextarea、またはcontenteditable要素が指示をサポート。これはWebベースメールクライアント、Google Docs、Notion ブラウザ、GitHub 問題フォーム、事実上すべてのWebアプリケーション覆う。

Slack デスクトップアプリ

Electronベースのアプリのようなslackがシステム全体挿入をサポート。メッセージ構成フィールドに直接指示。クリーンモードはメッセージとうまく機能; 会議ノートモードはSlackスレッドで上記のポスト会議サマリーに有用。

Notion

デスクトップアプリとブラウザバージョン両方機能。クリーンまたは会議ノートモード内のNonPageに直接指示し、よくフォーマット済みコンテンツ生成。

メールとカレンダー

ネイティブmacOS アプリは完全なサポートを持ちます。メール構成ウィンドウ、カレンダーイベント説明、メモフィールド指示すべてを受け入れる。

トラブルシューティング

テキスト表示されていない:

  • システム設定ではアクセシビリティパーミッションが付与されているかを確認
  • カーソルが編集可能フィールド(読み込み専用領域ではなく)置かれているかを確認
  • いくつかの保護されたテキストフィールド(特定のパスワードマネージャなど)意図的にプログラム入力をブロック

テキストが間違った場所に表示される:

  • ホットキーからテキストが表示されるまでのインサーションポイントが移行。ディクテーション中、対象ウィンドウは焦点に保つ。

余分な文字またはガベージ出力: これは時々オートコンプリートとmisinterprets高速文字入力をもつアプリで起こります。そのアプリケーションでオートコンプリートを無効にするか、設定調整によって タイピング の高速化を減少。

一部のアプリで機能しますが他は:

  • 一部 のsandboxed、またはセキュリティ強化されたアプリは、意図的なプログラム入力制限。これはTelvr制限ではなく、アプリのセキュリティポリシー。

システム全体ディクテーションが異なることを作る

システム全体ディクテーションとアプリ固有音声ツール間の実際の違いはメンタルモデルです。

アプリ固有ツール、音声入力は特定のアプリの機能。あなたはそれをサポートするアプリを思い出し、あなたの動作それ応じて切り替え。

システム全体ディクテーションでは、音声入力はどこでも利用可能な動作。ホットキーは常にそこ。習慣はリフレックス反応ではなく意図的になります。あなたはあらゆるキーボードショートカットのようにホットキーに到達。

その一貫性は音声入力を起動するハビット生産性ツール、単なるときどきの実験ではなく何を作り出します。