速度の迷信
平均的な人はタイピングで 40 単語/分。平均的な人は話すとき 130 単語/分。紙の上では音声入力は 3 倍速です。実際には、生産性の計算はより微妙です。
総時間は思考から完成テキストまでには思考、入力、編集、フォーマットが含まれます。各段階を分析しましょう。
入力速度:音声が明らかに勝利
純粋な入力速度では、話すことが支配します:
- タイピング:ほとんどの専門家で 40~80 WPM。高速タイパーで 100+ WPM。
- 音声:自然な話し言葉で 130~160 WPM。タイピング技能に関係なく一貫性あり。
ギャップは特にソフトウェア開発とライティング職以外の速いタイパーでない人々にとって顕著です。
編集時間:ツール次第
生の音声認識はテキストを生成しますが、編集が必要です。フィラーワード、句読点の欠落、文法の問題、不適切なフォーマットすべてが手動クリーンアップが必要です。この編集オーバーヘッドは速度上の利点を消し去る可能性があります。
AI 拡張がここで計算式を変えます:
- 拡張なし:3 倍速で話すが、2 倍長く編集。純生産性ゲインはわずか。
- 拡張あり(Telvr):AI がフィラー削除、文法修正、出力フォーマット。編集は小さなタッチアップに低下。純生産性ゲインは 2~3 倍。
AI 処理の品質が音声入力が生産性の純利益か仕事を増やすだけかを判断します。
認知負荷:隠れた要素
タイピングは思考をキーボード上の指の動きに変換する必要があります。話すことは思考を単語に変換する必要があります。ほとんどの人にとって、2 番目の変換がより自然で、認知労力が少なくて済みます。
これは最も重要です:
- 初稿:思考を話すことは型入力より自然に流れます。考えはより完全で一貫性のあるものになります。
- 長文コンテンツ:ライターズブロックは部分的にタイピングの問題です。話すことは考えと出力の間の機械的障壁を排除します。
- 多言語作業:1 つの言語で考えているが別の言語で入力する場合、考えている言語での音声入力でより良い初期出力を生成します。
しかし、タイピングは以下で利点があります:
- 構造化コンテンツ:コード、スプレッドシート、整形されたドキュメントはキーボード入力の正確さから恩恵を受けます。
- 静かな環境:オープンオフィス、ライブラリ、共有スペースは音声入力を非実用的にします。
- 編集と改訂:テキスト移動、単語選択、正確な変更はキーボードとマウスで高速です。
実世界のシナリオ
メール(音声が勝利)
200 語のメール作成:
- タイピング:約 5 分(思考と編集を含む)
- 音声(Telvr メールモード):約 2 分(90 秒話す + レビュー)
音声は 2~3 倍速です。メール本質が会話的で、AI がフォーマットを処理するため。
コードドキュメント(音声が勝利)
関数の説明や README セクション作成:
- タイピング:コードとドキュメントコンテキスト間の切り替えが摩擦を生成
- 音声:コードを見ながら関数を自然に説明。クリーンアップモードはクリーンなドキュメントを生成します。
Slack メッセージ(音声が勝利)
クイックチーム更新と返信:
- タイピング:短いメッセージでも 30~60 秒、コンテキスト切り替え付き
- 音声:プッシュトゥトークジェスチャー含む 10~15 秒
コード作成(キーボードが勝利)
実際のコード作成:
- 音声:構文、括弧、正確な変数名の音声認識は遅く、エラーが発生しやすい
- タイピング:思考と画面上の文字間の直接マッピング
データ入力(キーボードが勝利)
フォーム入力、数字入力:
- 音声:数字、略語、フィールドナビゲーションがオーバーヘッド追加
- タイピング:Tab キーナビゲーション付きの直接入力が高速
ハイブリッドアプローチ
最高の生産性は両方の入力方法を組み合わせることから生まれます:
- コンテンツに音声を使用:メール、メッセージ、ドキュメント、ノート、説明
- 構造にキーボードを使用:コード、フォーマット、ナビゲーション、編集
- コンテキスト認識切り替え:各マイクタスクに適切なツールを使用
Telvr のプッシュトゥトークモデルはこのハイブリッドアプローチを自然にサポートします。手はキーボード上にとどまります。テキストを書く必要があるとき、ホットキーを保持して話す。精密さが必要なとき、入力。アプリ変更やモード切り替えなし。
独自の生産性を測定
この実験を試してください:
- 典型的なワークタスクを選ぶ(メール作成、機能ドキュメンテーション、メッセージ返信)
- タイピングでそれ自身を時間計測
- 同じタイプのタスクを音声入力で時間計測
- 単に速度だけでなく、出力がどのように読めるか比較
ほとんどの人は音声入力がより自然で完全なテキストを生成することを発見します。初回試行では — 理論的な 3 倍の速度ゲインが小さい場合でも。
結論
音声タイピングはキーボードを置き換えることについてではなく、各コンテキストに適切な入力方法を使うことについてです。自然言語コンテンツ — メール、メッセージ、ドキュメント、ノート — では、AI拡張付きの音声入力は測定可能に高速で、より良い初稿を生成します。
重要な有効化は継ぎ目のない統合です。音声入力が個別のアプリを開く、録音、音声認識、コピー、貼り付けが必要な場合、オーバーヘッドは速度上の利点を殺します。プッシュトゥトークと直接カーソル挿入がその摩擦を排除します。