Comment fonctionne Telvr ?

Appuie sur un raccourci clavier n'importe où sur ton système, parle naturellement, et Telvr transcrit ta voix en temps réel avec Whisper. Le texte finalisé est automatiquement inséré à la position du curseur — pas de copier-coller, pas de changement d'app.

Quelles langues sont supportées ?

Telvr supporte plus de 50 langues via le modèle Whisper large-v3 d'OpenAI. La détection de langue est automatique — parle simplement dans ta langue préférée et Telvr s'occupe du reste.

Ai-je besoin d'un abonnement ?

Non. Telvr utilise un modèle à l'usage : EUR 3 par mois de frais d'infrastructure plus EUR 0,03 par minute d'utilisation. Aucun engagement, pas de renouvellement automatique.

Telvr fonctionne-t-il hors ligne ?

Actuellement, Telvr nécessite une connexion internet pour la transcription basée sur le cloud via Groq. Une Community Edition avec traitement local est prévue.

Quelles applications sont supportées ?

Telvr fonctionne à l'échelle du système — il insère du texte à la position du curseur dans n'importe quelle application.

Mes données sont-elles sécurisées ?

Toutes les données sont transmises via chiffrement TLS. Les enregistrements audio ne sont pas stockés de manière permanente. Groq traite les données selon un accord de traitement.

← Blog2026-02-23

Whisper vs Deepgram : Quel Moteur Vocal Est Meilleur en 2026 ?

Deux Philosophies de la Reconnaissance Vocale

OpenAI Whisper et Deepgram représentent deux approches distinctes pour construire un système de reconnaissance vocale. Whisper a été conçu comme un modèle universel et multilingue entraîné sur un vaste corpus d'audio provenant d'Internet. Deepgram a été construit comme un produit d'abord API commercial, optimisé pour la vitesse et l'intégration des développeurs. Les deux sont excellents. Aucun n'est universellement meilleur.

Comprendre lequel convient à un cas d'utilisation particulier nécessite d'examiner l'architecture, les benchmarks, le modèle de tarification et les implications pratiques pour différentes charges de travail.

Architecture

Whisper

Whisper est un modèle transformer encoder-decoder entraîné par OpenAI sur 680 000 heures d'audio multilingue provenant du web. L'architecture traite l'audio comme des caractéristiques de spectrogramme log-mel, les passe par un encodeur convolutif et décode en texte en utilisant un décodeur de modèle de langage.

Le modèle est disponible en plusieurs tailles : tiny, base, small, medium, large-v2 et large-v3. Le modèle large-v3 utilisé par Telvr est le plus précis mais aussi le plus lourd — son exécution locale nécessite un GPU capable ou un temps CPU significatif.

Une caractéristique clé : Whisper a été entraîné sur l'audio divers et bruyant provenant d'Internet. Cela lui donne une robustesse remarquable face aux accents, au bruit de fond et à la parole informelle. Le compromis est qu'il n'est pas le modèle le plus rapide et n'offre pas l'architecture streaming/temps réel que certains cas d'utilisation nécessitent.

Deepgram

Deepgram a construit sa propre architecture d'apprentissage profond optimisée pour la transcription streaming en temps réel. Son modèle Nova-3 est entraîné spécifiquement pour l'anglais parlé (avec un support multilingue fort ajouté au fil du temps) et est architecturalement conçu pour produire des sorties de faible latence token par token.

Le modèle de Deepgram n'est pas disponible publiquement en open-source. Il s'exécute uniquement via l'API de Deepgram ou sur les déploiements auto-hébergés Deepgram enterprise. Les données d'entraînement, bien qu'étendues, sont plus curées que le corpus à l'échelle Internet de Whisper.

Benchmarks de Précision

Les comparaisons de précision sont notablement dépendantes du contexte. Les deux modèles performent bien ; les différences émergent dans des conditions spécifiques.

Word Error Rate (WER) sur les benchmarks standard :

Whisper large-v3 et Deepgram Nova-3 sont compétitifs sur les benchmarks anglais standard, réalisant tous les deux un WER inférieur à 5% sur l'audio propre.
Whisper large-v3 surperforme Nova-3 sur la parole fortement accentuée et l'entrée en langues mélangées.
Nova-3 surperforme Whisper sur les cas d'utilisation streaming où les résultats partiels sont nécessaires avant que l'énoncé soit complet.

Conditions réelles où Whisper excelle :

Parole en langues mélangées (alternance de codes)
Anglais non-natif avec accents forts
Vocabulaire technique sans entraînement
Bruit de fond provenant de sources variées (rues, cafés)

Conditions réelles où Deepgram excelle :

Audio de centre d'appels avec profils de locuteurs connus
Streaming en temps réel où la latence du premier token importe
Anglais américain dans les environnements propres ou semi-propres
Diarisation du locuteur (identifier qui a dit quoi)

Vitesse et Latence

Whisper (via l'API Groq, utilisé par Telvr) : Moins d'une seconde pour l'étape de transcription seule. Le matériel d'inférence de Groq est spécialement construit pour les modèles transformer, permettant à Whisper large-v3 de fonctionner beaucoup plus rapidement que l'inférence GPU local.

Whisper (local, Apple M3) : 3-6 secondes pour un clip audio de 30 secondes. Les modèles plus petits fonctionnent plus rapidement.

Deepgram Nova-3 (streaming) : 300-500ms pour l'apparition du premier mot en mode streaming. Pour la transcription batch d'un fichier audio complet, la latence totale est similaire à Whisper via l'API.

La capacité de streaming est l'avantage éminent de Deepgram pour les applications en temps réel. Pour les flux de travail push-to-talk (enregistrer, arrêter, obtenir le résultat), la différence de latence entre Whisper via Groq et Deepgram est minimale en pratique.

Support Linguistique

Whisper large-v3 : Supporte 99 langues. La performance se dégrade gracieusement pour les langues à ressources réduites plutôt que d'échouer complètement. La détection automatique du langage est intégrée.

Deepgram Nova-3 : Support anglais fort, avec des langues supplémentaires ajoutées au fil du temps. À partir de 2026, environ 35 langues avec des niveaux de qualité variant. La précision de l'anglais est excellente ; beaucoup d'autres langues sont toujours en dessous du niveau de Whisper.

Pour les flux de travail multilingues, Whisper est le choix clair. Pour les applications en priorité anglaise où la vitesse et le streaming importent, Deepgram est compétitif.

Tarification

Whisper (API OpenAI) : 0,006 $ par minute. Pas d'option streaming.

Whisper (via l'API Groq) : Varie selon le tier. Inférence rapide, tarification compétitive pour les charges de travail des développeurs.

Deepgram Nova-3 : À partir de 0,0043 $ par minute pour le paiement à l'usage. Réductions de volume disponibles. Le streaming encourt le même tarif.

Coût d'utilisation de Telvr : 0,03 EUR par minute, ce qui reflète le coût combiné de la transcription plus le traitement d'enrichissement IA. L'API Deepgram ou Whisper brute est moins cher par minute, mais ce sont des API brutes sans la couche application.

Expérience Développeur

Whisper (API OpenAI) :

Endpoint REST simple, téléchargement de fichier audio standard
Pas de streaming
Limites de taille de fichier audio (25 MB gratuit, 100 MB payant)
Temps de réponse adapté pour les flux de travail push-to-talk, pas les sous-titres en temps réel

Deepgram :

API WebSocket pour le streaming en temps réel
API REST pour les fichiers batch
Plus de fonctionnalités : diarisation du locuteur, amplification de mots clés, vocabulaire personnalisé
Meilleure documentation développeur pour les cas d'utilisation en temps réel

Whisper auto-hébergé :

Entièrement open-source, déployable Docker
Pas de coûts API
Nécessite une infrastructure GPU
Flexibilité maximale pour les pipelines personnalisés

Quel Outil Utiliser pour Quel Cas d'Utilisation

Applications push-to-talk sur bureau : Whisper large-v3 via une API d'inférence rapide. La précision et le support linguistique en font le meilleur choix, et la latence est comparable à Deepgram une fois que vous tenez compte de l'ensemble du pipeline.

Sous-titrage en temps réel / transcription directe : API streaming Deepgram. La latence du premier token sous 500ms est nécessaire pour les sous-titres lisibles.

Centre d'appels / audio téléphonique : Deepgram avec vocabulaire personnalisé et fonctionnalités de diarisation du locuteur.

Applications multilingues : Whisper. Aucune alternative ne correspond à sa couverture de 99 langues avec détection automatique.

Déploiement local sensible à la confidentialité : Whisper auto-hébergé. L'option auto-hébergée de Deepgram existe mais est enterprise-only.

Transcription anglaise haute volume sensible au coût : Deepgram Nova-3 à 0,0043 $/min dépasse légèrement l'API OpenAI à 0,006 $/min.

Ce que Telvr Utilise

Telvr utilise Whisper large-v3 via l'API d'inférence de Groq. Le choix était délibéré : large-v3 fournit la plus haute précision entre les langues, le matériel de Groq réduit la latence à moins d'une seconde pour l'étape de transcription, et la détection automatique du langage signifie que les utilisateurs n'ont pas besoin de configurer quoi que ce soit en changeant de langues.

La couche d'enrichissement qui suit — post-traitement IA pour nettoyer la sortie, formater les emails, structurer les notes — n'est pas une partie de Whisper ou Deepgram. C'est une étape LLM séparée qui transforme la transcription brute en texte formaté et utilisable.

Conclusion

Whisper et Deepgram ne sont pas tant des concurrents directs que des outils différents pour des tâches différentes. Whisper large-v3 est le leader en précision pour l'audio réel multilingue et bruyant. Deepgram Nova-3 est le leader en vitesse et streaming pour les applications en priorité anglaise et temps réel.

Pour un outil de productivité de bureau où la qualité prime sur le streaming temps réel, Whisper large-v3 via une API d'inférence rapide est la meilleure fondation. Pour les applications où vous avez besoin que les mots apparaissent au fur et à mesure que l'utilisateur parle, l'architecture streaming de Deepgram est construite pour ce cas d'utilisation.