Deux Philosophies de la Reconnaissance Vocale
OpenAI Whisper et Deepgram représentent deux approches distinctes pour construire un système de reconnaissance vocale. Whisper a été conçu comme un modèle universel et multilingue entraîné sur un vaste corpus d'audio provenant d'Internet. Deepgram a été construit comme un produit d'abord API commercial, optimisé pour la vitesse et l'intégration des développeurs. Les deux sont excellents. Aucun n'est universellement meilleur.
Comprendre lequel convient à un cas d'utilisation particulier nécessite d'examiner l'architecture, les benchmarks, le modèle de tarification et les implications pratiques pour différentes charges de travail.
Architecture
Whisper
Whisper est un modèle transformer encoder-decoder entraîné par OpenAI sur 680 000 heures d'audio multilingue provenant du web. L'architecture traite l'audio comme des caractéristiques de spectrogramme log-mel, les passe par un encodeur convolutif et décode en texte en utilisant un décodeur de modèle de langage.
Le modèle est disponible en plusieurs tailles : tiny, base, small, medium, large-v2 et large-v3. Le modèle large-v3 utilisé par Telvr est le plus précis mais aussi le plus lourd — son exécution locale nécessite un GPU capable ou un temps CPU significatif.
Une caractéristique clé : Whisper a été entraîné sur l'audio divers et bruyant provenant d'Internet. Cela lui donne une robustesse remarquable face aux accents, au bruit de fond et à la parole informelle. Le compromis est qu'il n'est pas le modèle le plus rapide et n'offre pas l'architecture streaming/temps réel que certains cas d'utilisation nécessitent.
Deepgram
Deepgram a construit sa propre architecture d'apprentissage profond optimisée pour la transcription streaming en temps réel. Son modèle Nova-3 est entraîné spécifiquement pour l'anglais parlé (avec un support multilingue fort ajouté au fil du temps) et est architecturalement conçu pour produire des sorties de faible latence token par token.
Le modèle de Deepgram n'est pas disponible publiquement en open-source. Il s'exécute uniquement via l'API de Deepgram ou sur les déploiements auto-hébergés Deepgram enterprise. Les données d'entraînement, bien qu'étendues, sont plus curées que le corpus à l'échelle Internet de Whisper.
Benchmarks de Précision
Les comparaisons de précision sont notablement dépendantes du contexte. Les deux modèles performent bien ; les différences émergent dans des conditions spécifiques.
Word Error Rate (WER) sur les benchmarks standard :
- Whisper large-v3 et Deepgram Nova-3 sont compétitifs sur les benchmarks anglais standard, réalisant tous les deux un WER inférieur à 5% sur l'audio propre.
- Whisper large-v3 surperforme Nova-3 sur la parole fortement accentuée et l'entrée en langues mélangées.
- Nova-3 surperforme Whisper sur les cas d'utilisation streaming où les résultats partiels sont nécessaires avant que l'énoncé soit complet.
Conditions réelles où Whisper excelle :
- Parole en langues mélangées (alternance de codes)
- Anglais non-natif avec accents forts
- Vocabulaire technique sans entraînement
- Bruit de fond provenant de sources variées (rues, cafés)
Conditions réelles où Deepgram excelle :
- Audio de centre d'appels avec profils de locuteurs connus
- Streaming en temps réel où la latence du premier token importe
- Anglais américain dans les environnements propres ou semi-propres
- Diarisation du locuteur (identifier qui a dit quoi)
Vitesse et Latence
Whisper (via l'API Groq, utilisé par Telvr) : Moins d'une seconde pour l'étape de transcription seule. Le matériel d'inférence de Groq est spécialement construit pour les modèles transformer, permettant à Whisper large-v3 de fonctionner beaucoup plus rapidement que l'inférence GPU local.
Whisper (local, Apple M3) : 3-6 secondes pour un clip audio de 30 secondes. Les modèles plus petits fonctionnent plus rapidement.
Deepgram Nova-3 (streaming) : 300-500ms pour l'apparition du premier mot en mode streaming. Pour la transcription batch d'un fichier audio complet, la latence totale est similaire à Whisper via l'API.
La capacité de streaming est l'avantage éminent de Deepgram pour les applications en temps réel. Pour les flux de travail push-to-talk (enregistrer, arrêter, obtenir le résultat), la différence de latence entre Whisper via Groq et Deepgram est minimale en pratique.
Support Linguistique
Whisper large-v3 : Supporte 99 langues. La performance se dégrade gracieusement pour les langues à ressources réduites plutôt que d'échouer complètement. La détection automatique du langage est intégrée.
Deepgram Nova-3 : Support anglais fort, avec des langues supplémentaires ajoutées au fil du temps. À partir de 2026, environ 35 langues avec des niveaux de qualité variant. La précision de l'anglais est excellente ; beaucoup d'autres langues sont toujours en dessous du niveau de Whisper.
Pour les flux de travail multilingues, Whisper est le choix clair. Pour les applications en priorité anglaise où la vitesse et le streaming importent, Deepgram est compétitif.
Tarification
Whisper (API OpenAI) : 0,006 $ par minute. Pas d'option streaming.
Whisper (via l'API Groq) : Varie selon le tier. Inférence rapide, tarification compétitive pour les charges de travail des développeurs.
Deepgram Nova-3 : À partir de 0,0043 $ par minute pour le paiement à l'usage. Réductions de volume disponibles. Le streaming encourt le même tarif.
Coût d'utilisation de Telvr : 0,03 EUR par minute, ce qui reflète le coût combiné de la transcription plus le traitement d'enrichissement IA. L'API Deepgram ou Whisper brute est moins cher par minute, mais ce sont des API brutes sans la couche application.
Expérience Développeur
Whisper (API OpenAI) :
- Endpoint REST simple, téléchargement de fichier audio standard
- Pas de streaming
- Limites de taille de fichier audio (25 MB gratuit, 100 MB payant)
- Temps de réponse adapté pour les flux de travail push-to-talk, pas les sous-titres en temps réel
Deepgram :
- API WebSocket pour le streaming en temps réel
- API REST pour les fichiers batch
- Plus de fonctionnalités : diarisation du locuteur, amplification de mots clés, vocabulaire personnalisé
- Meilleure documentation développeur pour les cas d'utilisation en temps réel
Whisper auto-hébergé :
- Entièrement open-source, déployable Docker
- Pas de coûts API
- Nécessite une infrastructure GPU
- Flexibilité maximale pour les pipelines personnalisés
Quel Outil Utiliser pour Quel Cas d'Utilisation
Applications push-to-talk sur bureau : Whisper large-v3 via une API d'inférence rapide. La précision et le support linguistique en font le meilleur choix, et la latence est comparable à Deepgram une fois que vous tenez compte de l'ensemble du pipeline.
Sous-titrage en temps réel / transcription directe : API streaming Deepgram. La latence du premier token sous 500ms est nécessaire pour les sous-titres lisibles.
Centre d'appels / audio téléphonique : Deepgram avec vocabulaire personnalisé et fonctionnalités de diarisation du locuteur.
Applications multilingues : Whisper. Aucune alternative ne correspond à sa couverture de 99 langues avec détection automatique.
Déploiement local sensible à la confidentialité : Whisper auto-hébergé. L'option auto-hébergée de Deepgram existe mais est enterprise-only.
Transcription anglaise haute volume sensible au coût : Deepgram Nova-3 à 0,0043 $/min dépasse légèrement l'API OpenAI à 0,006 $/min.
Ce que Telvr Utilise
Telvr utilise Whisper large-v3 via l'API d'inférence de Groq. Le choix était délibéré : large-v3 fournit la plus haute précision entre les langues, le matériel de Groq réduit la latence à moins d'une seconde pour l'étape de transcription, et la détection automatique du langage signifie que les utilisateurs n'ont pas besoin de configurer quoi que ce soit en changeant de langues.
La couche d'enrichissement qui suit — post-traitement IA pour nettoyer la sortie, formater les emails, structurer les notes — n'est pas une partie de Whisper ou Deepgram. C'est une étape LLM séparée qui transforme la transcription brute en texte formaté et utilisable.
Conclusion
Whisper et Deepgram ne sont pas tant des concurrents directs que des outils différents pour des tâches différentes. Whisper large-v3 est le leader en précision pour l'audio réel multilingue et bruyant. Deepgram Nova-3 est le leader en vitesse et streaming pour les applications en priorité anglaise et temps réel.
Pour un outil de productivité de bureau où la qualité prime sur le streaming temps réel, Whisper large-v3 via une API d'inférence rapide est la meilleure fondation. Pour les applications où vous avez besoin que les mots apparaissent au fur et à mesure que l'utilisateur parle, l'architecture streaming de Deepgram est construite pour ce cas d'utilisation.