2つの音声入力アプローチ
すべての音声入力ツール基本的な設計決定: マイクはいつリッスン?
2つの支配的なモデルはプッシュトゥトーク(ボタン保持中のみマイク有効)と常にオン(継続的にリッスンマイク、通常ウェイクワードまたは開始/停止コマンド使用)。各アプローチはプライバシー、精度、ワークフロー統合、リソース使用に異なる意味。
選択は単なるUX優先度 - 音声入力がワークング環境に対応する方法について根本的に異なる仮定を反映。
プッシュトゥトーク: 意図的で境界
プッシュトゥトークディクテーション、ホットキー保持、コンテンツを話し、完了時キーを放す。マイクは他の時間無効。
プライバシー: これは音声入力で利用可能な最強のプライバシー保証。アプリケーションはホットキーがボタンが保持中のオーディオのみキャプチャできます。バックグラウンドリッスンなし、プライベート会話のアクシデント記録もなし、あるいはオーディオが意図しない瞬間から処理されるかどうかについての質問なし。同僚、クライアント、機密情報がしばしば可聴のワーク環境、これマター。
精度: プッシュトゥトークは通常より良い精度生成します。オーディオセグメントはクリーンで境界。モデルは正確に1つのユテランス受信します - ホットキーからホットキー放すまで - 周囲のノイズから話スペースを検出する必要のない。バックグラウンド会話が意図した入力かどうかの質問なし。
ワークフロー: プッシュトゥトークジェスチャーは明示的で意図的。あなたは準備何を言いたいのか、キーを押し、話し、放す。これは心の「私は今書く」と「私は完了」とマッチしている。キーボードやマウス使用と自然にそこまで行っていることから、それはハンズフリー条件を必要としません。
バッテリーとリソース: マイクはアクティブでディクテーション不可の場合無効。CPU と ネットワーク活動はディクテーションセッション中のみ発生。
制限: すべてのディクテーション慎重なアクション必要。継続ハンズフリーディクテーション - 医師の手が占有される医療トランスクリプションのような共通 - プッシュトゥトークの自然なモード。
常にオンディクテーション: 継続的でハンズフリー
常にオン(または継続)ディクテーション音声活動検出を使用して、自動的にあなたが話すときを特定し、そのオーディオを処理。Apple ディクテーション継続実行すると、Android上Google音声タイピング、およびハンズフリーアクセシビリティツール通常このワーク。
プライバシー: 常にオンリッスンはマイクアクセス継続が必要。ツールは、あなたが話す時識別するためにオーディオを継続処理。ローカル処理でも良い、固有の危険があります: あなたのマイク周辺のあらゆる会話がキャプチャする可能性があり、入力として意図されていない場合でも。共有またはオープンプランオフィス環境とほとんどのエンタープライズ環境で、これは本当の懸念。
精度: 変数。モデルは意図したディクテーションと環境スピーチ - 同僚の会話、背景でビデオを再生する、または誰かが近くで話している区別する必要。虚偽的な活性化と欠落のスタートポイントは出力にノイズを追加。
ワークフロー: ハンズフリーシナリオのために改善。医療専門家、患者を検査している間にディクテーション使用している、物理的なワーク両手が占有でき、ユーザーのモビリティ障害を持つ人すべてが継続ディクテーションから利益。
バッテリーとリソース: 継続マイクアクセス継続的な音声活動検出意味のある消費より多くのバッテリーとプロセッシングパワー、プッシュトゥトークより。
制限: 共有されたスペースや開放計画オフィス環境のための十分な位置付けられていない。虚偽的な活性化ノイズを作成。連続「会話」ツールが自然に感じることができなくて、コンテキストで音声と入力されたのテキスト間の頻繁に切り替え。
ウェイクワードモデル
3番目のアプローチはウェイクワード(「やあ[製品]」)を使用してリッスンし、停止コマンドまたは沈黙タイムアウトを開始するセッション終了。これはSiri、Alexa、Google Assistantで使用されるモデル。デスクトップディクテーションの場合、高頻度使用例でウェイクワードが摩擦になるため、ほぼ使用されない。
出力品質への影響
生のトランスクリプション精度を超えて、活性化モデルAIエンリッチメント品質に影響を与える:
プッシュトゥトークアドバンテージ: AIはちょうど1つ境界のユテランスを受け取ります。エンリッチメント完全で意図的なステートメント処理します。意図しないスピーチからのノイズなし、そして、モデル不要単語放す無効境界検出。ユーザーホットキー放す境界を定義。
常にオンチャレンジ: エンリッチメントモデルはオーディオセグメントを受け取ります。虚偽スタート、周囲のスピーチ、曖昧な境界含める可能性。これはモデルの仕事を難しくし、フォーマット出力でアーティファクトになる可能性があります。
Telvrの設計選択
Telvrはプッシュトゥトーク周辺entirely構築される。これは2つの信念に基づく意図的な選択です:
まず、プライバシーはプロフェッショナル環境で重要。デスクトップ生産性用に設計されたツール - 敏感な会話発生する場所 - マイクが有効である場合、ユーザー絶対のコントロール与えるべき。プッシュトゥトークは設定なしでその管理提供。
第2に、プッシュトゥトークの明示的さは、より良い出力生成。ホットキーを指示するユーザー指令思考の前に作成するのではなく、思考のストリームから意味を抽出するAIを期待。結果として入力より凝集性があり、AIエンリッチメント出力対応。
あなたにとって正しいアプローチ
プッシュトゥトーク選択:
- 共有オフィスまたはオープンプランで機能する
- プライバシーは懸念(通話、敏感な会話、機密情報の近くで)
- あなたは音声と入力されたテキスト間のよく切り替え
- あらゆるディクテーションセッションに対する明示的なコントロール望む
- 音声を使用してタイプの置換特定の瞬間、継続的なハンズフリー使用ではない
常にオンを選択:
- 完全にハンズフリー操作が必要(医療手順、物理的作業)
- 隠蔽、静かな環境で機能
- コンピュータとのインタラクション必要としないで長い継続する通路指示
ウェイクワード選択:
- 音声アシスタント使用する( ディクテーションツールではなく)
- 物理的なボタン周辺バムなしで周囲の活性化望む
デスクトップ生産性を望むほとんどの知識労働者 - タイプの補完キーボードとして音声入力を使用する - プッシュトゥトークはより良い適切。明示的で境界の活性化はデスクワークが実際に起こるかどうか: 連続的なモノログではなく、テキスト作成の間欠的なバースト。