ブログ

Macの音声テキスト変換: すべてのオプション比較(2026)

2026年のmacOSの音声入力

macOSは常に強力な音声入力の基礎を持っていました。AppleはOS Xマウンテンライオンバックサーバー側ディクテーションを導入し、Macの厳密なハードウェアソフトウェア統合はサードパーティーツールがシステムに深く接続できることを意味します。2026年のMacユーザーは実際より多くの音声入力オプションを持っています - かつて5年前は科学フィクションのようだったツールを含む。

課題はどのオプションが実際にあなたのワークフローに適切であるかを知ることです。このセクションはMacの各関連オプションをカバーし、各オプションが勝つ場所と不足するところの率直な評価があります。

Appleディクテーション(組み込み)

Appleディクテーション。システム設定のキーボード下で活性化し、ショートカット(既定值:Fn 2倍または辞書キー)を割り当て、準備完了。

動作方法: 短い句がAppleのスピーチモデルを使用してオンデバイスで処理。長いディクテーションセッションはAppleのサーバーをオプションで使用できます。出力はアクティブなテキストフィールドにリアルタイムで表示。

精度: クリーンな環境でのコモン英語では強固。日常的な語彙をうまく処理。技術用語、固有名詞、コード形容詞の語彙に苦戦。

フォーマット: 明示的なコマンド以上の基本的な句読点。AIエンリッチメントなし。「um」や「like」を言う場合、テキストに表示されます。

プライバシー: 短い句のオンデバイス処理は本当にプライベート。サーバー処理はAppleへのオーディオ送信を伴う。

最適: カジュアルな音声入力、何もインストールしたくないユーザー、フォーマットが重要ではない迅速な音声入力。

Telvr

TelvrはmacOS用の専用プッシュトゥトークディクテーションアプリ。メニューバーアプリとしてインストールされ、AI充実でシステム全体の音声入力を提供。

動作方法: Macの任意の場所で設定可能なホットキーを保持します。任意のアプリ、任意のテキストフィールド、ターミナルでも。コンテンツを話し、キーを放します。約2秒以内に処理されたテキストはカーソル位置に表示されます。

処理パイプラインはGroqの推論APIを通じてWhisper large-v3を使用し、その後のAI充実ステップが生のスピーチを処理された出力に変換。

6つの充実モード:

  • 生のトランスクリプション: 正確なスピーチ出力、最小処理
  • クリーン&コレクト: フィラーを削除、文法を修正、句読点を追加
  • プロフェッショナルメール: 件名と挨拶を備えた完全なメールとしてフォーマット
  • 会議ノート: 決定とアクションアイテムを持つ箇条書きに内容を構造化
  • 2-3文サマリー: 長いスピーチを緊密なサマリーに凝縮
  • 開発タスク: コンテキストと受け入れ条件を備えた開発タスクとして構造化

精度: Whisper large-v3は利用可能な最も正確なモデルの中で最も。文法を修正し、不流暢を削除する充実層と組み合わせ、出力品質は一貫して生のトランスクリプションツールより高い。

レイテンシ: 典型的な部分で2秒未満。Groqを通じた最適化された推論はローカルGPU推論より遙かに速くWhisper large-v3を実行。

言語サポート: 自動検出で50+言語。Telvrは言語を設定するあなたを必要としません。スピーチから特定。

価格設定: 月3ユーロインフラ料金に加えて、実際のディクテーション1分あたり0.03ユーロ。14日の無料トライアルはスターターのクレジット3ユーロを含む。

最適: システム全体の音声入力を望み、手動編集なしにクリーンでフォーマットされた出力を生成する専門家。

Wispr Flow

Wispr FlowはmacOS上のTelvrの最も近い競争相手。同じプッシュトゥトークアプローチをしており、AI処理を追加。

強み: 研磨インターフェース、固体AI出力品質、長いディクテーションセッションで自然な一時停止をより優雅に処理する「フロー」モード。

価格設定: 月$14、固定率。重いユーザー(1日30+分)には改善; Telvrの使用量ベースモデルと比較して中程度のユーザーには悪い。

制限: カスタムプロンプトモードなし。言語サポートはWhisperベースのツールより狭い。

最適: Macユーザーが毎日頻繁に指示し、予測可能な月額費用を望む。

Whisper(セルフホスト)

OpenAIのWhisperモデルはオープンソースプロジェクトとして利用可能。正しいツールで、AppleシリコンとMacでローカルに実行できます。

動作方法: オーディオ記録(soxのようなものやwhisper-micラッパーのようなものを使用)、ローカルWhisperモデルを通じて実行、トランスクリプト取得。クラウドAPI必要なし。

精度: Telvrのトランスクリプション品質と同一。Whisper large-v3モデル。違いは全くパイプラインと充実層。

レイテンシ: AppleシリコンM2/M3/M4チップ上で、Whisper large-v3はローカルで3-8秒実行。より小さいモデル(中、小)は1-3秒で実行し、精度低減。

統合: すぐに統合なし。アクティブなアプリケーションに テキストを取得するカスタムパイプラインを構築する必要があります。複数のコミュニティプロジェクト存在(whispering、MacWhisper)が設定が必要。

充実: ゼロ。生のトランスクリプション。後処理は追加ツールが必要。

プライバシー: 完全にローカル。オーディオはマシンを離れません。

最適: 完全にコントロール、プライバシー焦点のユーザー、カスタムワークフロー構築者。

Dragonのmac(廃止)

Mac用Dragon NaturallySpeakingは2023年にNuanceで廃止されました。macOSでは現在のバージョンは利用できません。Macでドラゴンレベルの精度と語彙管理を探している場合、オプションはTelvr、Wispr Flow、またはセルフホストのWhisper。

これは多くの検索結果がMacのドラゴンをまだ参照しているため言及されています。macOSユーザーにはもはや実行不可能なオプション。

比較テーブル

| 機能 | Appleディクテーション | Telvr | Wispr Flow | Whisper(ローカル) | |---|---|---|---|---| | システム全体 | はい | はい | はい | カスタム設定で | | AI充実 | いいえ | はい(6モード) | はい | いいえ | | レイテンシ | 1-3秒 | 2秒未満 | 2秒未満 | 3-8秒 | | 言語サポート | ~60 | 50+(自動検出) | ~40 | 99 | | プライバシー | オンデバイスオプション | クラウド | クラウド | 完全ローカル | | 価格 | 無料 | 月3ユーロ + 使用 | 月$14 | 無料 | | カスタムプロンプト | いいえ | はい | いいえ | いいえ |

私たちの推奨

ほとんどのMacユーザーが音声入力を本当の生産性ツール、単なり時々のディクテーションとして使用したいなら、Telvrは最も完全なソリューション。システム全体挿入、高速クラウド処理、AIエンリッチメント モードの組み合わせは音声入力が通常失敗する2つの理由に対応: アプリを切り替える必要があること、および出力には大量の編集が必要。

Appleディクテーションを選択 ずれば、標準的なアプリのみ時々の音声入力が必要で、何もインストールしたくない。

Wispr Flowを選択 毎日頻繁に指示し、フラットな月額料金を好む。

ローカルWhisperを選択 プライバシーが非交渉でカスタムパイプライン構築に快適。

重要な洞察は2026年で生の精度、重要ですが、差別化要因ではない。Whisper large-v3、複数の製品を通じて利用可能、非常に正確。差別化要因は何がトランスクリプション後のテキストに起こるか。生のスピーチ出力またはフォーマットされた、使用可能なテキストを取得するか。