Hay dos formas principales de activar dictado:
Push-to-Talk (Telvr, Dragon): Presionas un hotkey, hablas, sueltas. Entonces procesa.
Always-On (Google Assistant, Alexa): Sistema siempre escuchando palabras clave o activaciones.
Push-to-Talk: Ventajas
- Control: Hablas exactamente cuando quieres, nada se activará accidentalmente
- Privacidad: Solo tu entrada elegida es procesada
- Precisión: Sin palabras "despiertas" falsas o activaciones accidentales
- Predecible: Sabes exactamente qué será transcrito
- Batch processing: Procesa el audio completo, mejor para estructuración
Push-to-Talk: Desventajas
- Fricción: Necesitas recordar presionar el botón
- Latencia: Esperas a que procese después de soltar
- No natural: "Presionar un botón para hablar" es menos conversacional
Always-On: Ventajas
- Natural: Solo habla, sin botones que recordar
- Instantáneo: Comienza a transcribir mientras hablas (streaming)
- Sin fricción: Baja barrera de entrada
Always-On: Desventajas
- Privacidad: Sistema siempre escuchando
- Activaciones falsas: Otras personas hablando pueden activar
- No claro qué se grabará: Límites ambiguos de grabación
- Streaming produce menos estructura: Difícil para enriquecimiento de IA
Para Entrada de Escritura Profesional
Push-to-Talk es superior porque:
- Precisión importa: Batch processing permite enriquecimiento estructurado (email profesional, notas de reunión, etc.)
- Privacidad importa: Conversaciones confidenciales permanecen privadas
- Control importa: No quieres activaciones accidentales en email
- Estructura importa: Enriquecimiento de IA requiere entrada completa, no streaming
Para Comandos de Voz / Asistentes
Always-On (con activación de palabra clave) es mejor porque:
- Conversacional: "Hey, what's the weather" se siente natural
- Velocidad: Respuesta inmediata esperada
- Corta duración: Comandos no requieren gran procesamiento
Veredicto
Para escribir, dictar, documentar, crear: Push-to-Talk. Telvr + Dragon usan esto.
Para comandos y asistentes: Always-On. Alexa y Google Assistant usan esto.
Telvr eligió push-to-talk porque el caso de uso (composición de documentos profesionales) requiere precisión, privacidad, y capacidad de enriquecimiento.