Parakeet V3 vs Whisper : 10x plus rapide, meilleure précision (Benchmark)

7 mars 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Vitesse 10×
Langues prises en charge 25 100+
Taux d'erreur anglais (WER) 6.32% 7.44%
Taux d'erreur moy. 25 langues (WER) 12.0% 12.6%
Hallucinations Aucune Sur les silences
Idéal pour Anglais & européen Asiatique, arabe, 100+

* Vitesse : audio 35 min sur Apple Silicon. WER anglais : Open ASR Leaderboard. Moy. 25 langues : benchmark FLEURS.

Depuis la version 1.3.2, Whisper Notes pour Mac est livré avec NVIDIA Parakeet TDT 0.6B comme moteur de reconnaissance vocale par défaut. Il est 10 fois plus rapide que Whisper Large V3 Turbo pour l'anglais, et plus précis. Les modèles Whisper restent disponibles si vous avez besoin d'autres langues.

Pourquoi on a changé le modèle par défaut

Whisper est super, mais c'est un modèle généraliste. Il gère plus de 100 langues, traduit, génère des horodatages — un vrai couteau suisse. Le revers de la médaille, c'est la vitesse. Pour la dictée en anglais, quand on veut juste voir les mots s'afficher rapidement, c'est trop lourd.

Un truc me gênait vraiment : en utilisant la dictée système avec la touche Fn avec Whisper, terminer une phrase d'environ 1 minute voulait dire attendre 3 à 5 secondes avant que la transcription n'apparaisse. Cette pause casse le rythme. On arrête de parler, on attend, on fixe le curseur — ça tue la magie de l'écriture vocale.

Parakeet a tout changé. La vitesse est telle que la transcription apparaît à l'instant même où vous arrêtez de parler. Vous parlez, et les mots sont tout simplement . Une fois qu'on a goûté à cette fluidité — ce flux continu, sans aucune attente — c'est vraiment difficile de revenir à Whisper.

Parakeet V3, à quelle vitesse exactement ?

Les chiffres parlent d'eux-mêmes. Voici une comparaison concrète avec un fichier audio de 35 minutes sur le même Mac :

Modèle Audio de 35 min
Whisper Large V3 Turbo 3 minutes
Parakeet TDT 0.6B v3 18 secondes

10 fois plus rapide. Et comme le modèle est plus petit (600M contre 800M de paramètres), il consomme moins de mémoire et moins de batterie.

Ce qui rend Parakeet v3 si rapide

Whisper écoute l'audio comme on lirait un livre à voix haute — mot par mot, image par image, sans jamais sauter de passage. Même pendant les silences, il continue de traiter, de deviner ce qui vient après. C'est minutieux, mais lent.

Parakeet adopte une approche fondamentalement différente. Il compresse le signal audio 8 fois avant de le traiter, de sorte que le modèle ne voit que l'essentiel. Ensuite, au lieu de passer en revue chaque image une par une, il prédit non seulement quel mot vous avez dit, mais aussi combien de temps ce mot dure — et saute en avant. Du silence ? Ignoré. Une voyelle longue ? Une seule prédiction au lieu de dizaines.

Le résultat est un modèle qui traite la parole comme votre cerveau — en se concentrant sur les mots et en ignorant les blancs. C'est pour ça qu'il est 10 fois plus rapide avec moins de paramètres et une meilleure précision.

Benchmarks : Parakeet v3 vs Whisper

Comparaison du taux d'erreur par mot : Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T sur plusieurs jeux de données de référence

Parakeet v3 égale ou dépasse des modèles 2 à 4 fois plus gros sur les benchmarks FLEURS, CoVoST et MLS

Sur le classement Open ASR de Hugging Face, Parakeet v3 arrive en tête avec seulement 600M de paramètres — moins de la moitié des 1,55 milliard de Whisper Large V3 :

Modèle Paramètres WER moyen Vitesse (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER plus bas = moins d'erreurs. RTFx plus élevé = plus rapide. Parakeet gagne sur les deux tableaux. Avec 600M de paramètres, c'est aussi le modèle le plus petit de la liste — ce qui veut dire qu'il tourne parfaitement sur Apple Silicon avec une consommation minimale de mémoire et de batterie.

WER multilingue : les 25 langues

Le classement ci-dessus ne concerne que l'anglais. Voici le tableau complet — comment les trois modèles disponibles dans Whisper Notes se comparent sur les 25 langues prises en charge par Parakeet, mesurées sur le benchmark FLEURS. WER plus bas = moins d'erreurs de transcription. La meilleure valeur entre Large V3 et Parakeet est mise en évidence par ligne :

Langue Whisper Small Whisper Large V3 Parakeet V3
Bulgare37.312.912.6
Croate33.411.112.5
Tchèque37.611.311.0
Danois32.812.618.4
Néerlandais16.45.67.5
Anglais6.14.34.9
Estonien51.319.117.7
Finnois24.07.713.2
Français15.06.35.2
Allemand10.24.35.0
Grec30.827.020.7
Hongrois38.914.115.7
Italien9.82.33.0
Letton53.218.322.8
Lituanien65.622.320.4
Maltais92.268.920.5
Polonais14.74.77.3
Portugais7.33.74.8
Roumain29.88.212.4
Russe11.44.25.5
Slovaque33.38.48.8
Slovène49.319.924.0
Espagnol5.63.13.5
Suédois20.87.915.1
Ukrainien19.36.56.8
Moyenne 29.8 12.6 12.0

WER (%) sur FLEURS. Données Whisper Small issues de Radford et al. ; données Large V3 et Parakeet V3 issues de l'article NVIDIA Canary-1B-v2.

Whisper Large V3 devance légèrement sur la plupart des langues individuelles — il est 2,5 fois plus gros, après tout. Mais Parakeet V3 fait jeu égal en moyenne (12,0 % contre 12,6 %), l'emporte nettement sur le grec, le français, l'estonien et le maltais, et écrase Whisper Small sur toute la ligne (60 % d'erreurs en moins en moyenne). La vraie histoire, ce n'est pas une fraction de pourcentage de WER — c'est le package complet : une précision niveau Large V3 à 23 fois la vitesse, avec 40 % de la mémoire, zéro hallucination, et tout tourne en local sur votre Mac.

Fini les hallucinations

Si vous avez déjà utilisé Whisper pour la dictée, vous l'avez sûrement vu halluciner pendant les silences — répéter des phrases, inventer des mots ou sortir un "Subtitles by Amara.org" de nulle part. Ça arrive parce que le décodeur autorégressif de Whisper s'attend toujours à produire du texte, même quand il n'y a rien à transcrire.

NVIDIA a entraîné Parakeet sur 36 000 heures d'audio purement non verbal (bruit de fond, toux, silence) associé à des chaînes vides. Le modèle a appris à quoi ressemble le silence et il se tait. Pour la dictée système en mode permanent, c'est une avancée majeure — plus de texte parasite quand vous faites une pause pour réfléchir.

Langues prises en charge par Parakeet

Parakeet v3 prend en charge 25 langues : bulgare, croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, allemand, grec, hongrois, italien, letton, lituanien, maltais, polonais, portugais, roumain, russe, slovaque, slovène, espagnol, suédois et ukrainien.

Ça couvre la majeure partie de l'Europe, mais le chinois, le japonais, le coréen, l'arabe et l'hindi ne sont pas pris en charge. C'est pour ça qu'on a gardé les modèles Whisper en téléchargement. Si vous dictez en japonais ou en mandarin, choisissez Whisper Large V3 Turbo dans le sélecteur de modèles. Pour l'anglais et les langues européennes, Parakeet v3 est tout simplement le meilleur moteur.

Sélecteur de modèles de Whisper Notes pour Mac montrant Parakeet V3 par défaut, avec Whisper Small et Whisper Large V3 Turbo en options téléchargeables

Sélecteur de modèles : Parakeet V3 (par défaut), Whisper Small et Whisper Large V3 Turbo — tous en local

Sélecteur de modèles dans Whisper Notes

Ouvrez les Réglages pour changer de modèle :

  • Parakeet V3 (par défaut) — Le plus rapide, idéal pour l'anglais et les langues européennes
  • Whisper Small — Léger, plus de 100 langues
  • Whisper Large V3 Turbo — Le modèle multilingue le plus précis

Tous les modèles tournent à 100% en local sur votre Mac. Pas d'internet, pas de cloud, aucune donnée ne quitte votre appareil.

Et Parakeet V2 ?

Si vous utilisiez V2, vous vous demandez peut-être comment il se compare. V2 était un modèle anglais uniquement — et sa précision en anglais est en fait légèrement supérieure à celle de V3 (WER 6,05 % vs 6,32 %). V3 échange cette infime marge contre la prise en charge de 25 langues. Les deux sont nettement plus précis que Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER anglais 6.05% 6.32% 7.44%
Langues Anglais uniquement 25 100+

En résumé : si vous n'avez besoin que de l'anglais, V2 et V3 sont tous les deux excellents. V3 est le modèle par défaut dans Whisper Notes car le support multilingue compte pour la plupart des utilisateurs — et la différence de précision en anglais est négligeable.

Essayez-le

Parakeet v3 est disponible dès maintenant dans la version Mac — il suffit de télécharger le dernier DMG. (Mise à jour : Parakeet est désormais disponible dans la dernière version iOS.)

Des questions ou des suggestions ? Écrivez-nous à support@whispernotes.app.