TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Velocità | 10× | 1× |
| Lingue supportate | 25 | 100+ |
| Tasso di errore inglese (WER) | 6.32% | 7.44% |
| Tasso di errore medio 25 lingue (WER) | 12.0% | 12.6% |
| Allucinazioni | Nessuna | Durante i silenzi |
| Ideale per | Inglese ed europee | Asiatiche, arabo, 100+ |
* Velocità: audio di 35 min su Apple Silicon. WER inglese: Open ASR Leaderboard. Media 25 lingue: benchmark FLEURS.
A partire dalla versione 1.3.2, Whisper Notes per Mac include NVIDIA Parakeet TDT 0.6B come motore di riconoscimento vocale predefinito. È 10 volte più veloce di Whisper Large V3 Turbo per l'inglese, e più preciso. I modelli Whisper restano disponibili se hai bisogno di altre lingue.
Perché abbiamo cambiato il modello predefinito
Whisper è fantastico, ma è stato progettato come modello generico. Gestisce più di 100 lingue, traduce, genera timestamp — un coltellino svizzero. Il compromesso è la velocità. Per la dettatura in inglese, dove vuoi solo vedere le parole sullo schermo il prima possibile, è troppo.
C'era una cosa che mi dava fastidio: usando la dettatura di sistema con il tasto Fn con Whisper, finire una frase di circa 1 minuto significava aspettare 3-5 secondi prima che la trascrizione comparisse. Quella pausa spezza il ritmo. Smetti di parlare, aspetti, fissi il cursore — e la magia della scrittura vocale svanisce.
Parakeet ha cambiato tutto. La velocità è tale che la trascrizione compare nell'istante in cui smetti di parlare. Parli, e le parole sono semplicemente lì. Una volta che provi quella sensazione — quel flusso continuo, senza alcuna attesa — è davvero difficile tornare a Whisper.
Quanto è veloce Parakeet V3?
I numeri parlano chiaro. Ecco un confronto reale con un file audio di 35 minuti sullo stesso Mac:
| Modello | Audio di 35 min |
|---|---|
| Whisper Large V3 Turbo | 3 minuti |
| Parakeet TDT 0.6B v3 | 18 secondi |
10 volte più veloce. E siccome il modello è più piccolo (600M contro 800M parametri), consuma meno memoria e meno batteria.
Cosa rende Parakeet v3 così veloce
Whisper ascolta l'audio come se leggessi un libro ad alta voce — parola per parola, frame per frame, senza mai saltare avanti. Anche durante i silenzi, continua a elaborare, a indovinare cosa viene dopo. È scrupoloso, ma lento.
Parakeet adotta un approccio radicalmente diverso. Comprime il segnale audio 8 volte prima di elaborarlo, così il modello vede solo ciò che conta. Poi, invece di passare in rassegna ogni singolo frame, predice non solo quale parola hai detto, ma quanto dura quella parola — e salta avanti. Silenzio? Saltato. Una vocale lunga? Una sola previsione invece di decine.
Il risultato è un modello che elabora il parlato come fa il tuo cervello — concentrandosi sulle parole e ignorando le pause. Ecco perché è 10 volte più veloce, con meno parametri e maggiore precisione.
Benchmark: Parakeet v3 vs Whisper
Parakeet v3 eguaglia o batte modelli 2-4 volte più grandi nei benchmark FLEURS, CoVoST e MLS
Nella classifica Open ASR di Hugging Face, Parakeet v3 è in cima con soli 600M parametri — meno della metà degli 1,55 miliardi di Whisper Large V3:
| Modello | Parametri | WER medio | Velocità (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER più basso = meno errori. RTFx più alto = più veloce. Parakeet vince su entrambi i fronti. Con 600M parametri, è anche il modello più piccolo della lista — il che significa che gira alla grande su Apple Silicon con un consumo minimo di memoria e batteria.
WER multilingue: tutte le 25 lingue
La tabella sopra copre solo l'inglese. Ecco il quadro completo — come i tre modelli disponibili in Whisper Notes si confrontano nelle 25 lingue supportate da Parakeet, misurate sul benchmark FLEURS. WER più basso = meno errori di trascrizione. Il miglior valore tra Large V3 e Parakeet è evidenziato per ogni riga:
| Lingua | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Bulgaro | 37.3 | 12.9 | 12.6 |
| Croato | 33.4 | 11.1 | 12.5 |
| Ceco | 37.6 | 11.3 | 11.0 |
| Danese | 32.8 | 12.6 | 18.4 |
| Olandese | 16.4 | 5.6 | 7.5 |
| Inglese | 6.1 | 4.3 | 4.9 |
| Estone | 51.3 | 19.1 | 17.7 |
| Finlandese | 24.0 | 7.7 | 13.2 |
| Francese | 15.0 | 6.3 | 5.2 |
| Tedesco | 10.2 | 4.3 | 5.0 |
| Greco | 30.8 | 27.0 | 20.7 |
| Ungherese | 38.9 | 14.1 | 15.7 |
| Italiano | 9.8 | 2.3 | 3.0 |
| Lettone | 53.2 | 18.3 | 22.8 |
| Lituano | 65.6 | 22.3 | 20.4 |
| Maltese | 92.2 | 68.9 | 20.5 |
| Polacco | 14.7 | 4.7 | 7.3 |
| Portoghese | 7.3 | 3.7 | 4.8 |
| Romeno | 29.8 | 8.2 | 12.4 |
| Russo | 11.4 | 4.2 | 5.5 |
| Slovacco | 33.3 | 8.4 | 8.8 |
| Sloveno | 49.3 | 19.9 | 24.0 |
| Spagnolo | 5.6 | 3.1 | 3.5 |
| Svedese | 20.8 | 7.9 | 15.1 |
| Ucraino | 19.3 | 6.5 | 6.8 |
| Media | 29.8 | 12.6 | 12.0 |
WER (%) su FLEURS. Dati di Whisper Small da Radford et al.; dati di Large V3 e Parakeet V3 dal paper NVIDIA Canary-1B-v2.
Whisper Large V3 è in vantaggio sulla maggior parte delle singole lingue — d'altronde è 2,5 volte più grande. Ma Parakeet V3 lo eguaglia in media (12,0% vs 12,6%), vince nettamente su greco, francese, estone e maltese, e surclassa Whisper Small su tutta la linea (60% di errori in meno in media). La vera storia non è una frazione di percentuale nel WER — è il pacchetto completo: precisione al livello di Large V3 a 23 volte la velocità, con il 40% della memoria, zero allucinazioni e tutto in esecuzione locale sul tuo Mac.
Basta allucinazioni
Se hai usato Whisper per la dettatura, probabilmente l'hai visto allucinare durante i silenzi — ripetendo frasi, inventando parole o tirando fuori un "Subtitles by Amara.org" dal nulla. Succede perché il decoder autoregressivo di Whisper si aspetta sempre di produrre testo, anche quando non c'è niente da trascrivere.
NVIDIA ha addestrato Parakeet su 36.000 ore di audio puramente non verbale (rumore di fondo, colpi di tosse, silenzio) abbinato a stringhe vuote. Il modello ha imparato come suona il silenzio e sta zitto. Per la dettatura di sistema in modalità "sempre attiva", è una svolta — niente più testo spazzatura quando fai una pausa per pensare.
Lingue supportate da Parakeet
Parakeet v3 supporta 25 lingue: bulgaro, croato, ceco, danese, olandese, inglese, estone, finlandese, francese, tedesco, greco, ungherese, italiano, lettone, lituano, maltese, polacco, portoghese, romeno, russo, slovacco, sloveno, spagnolo, svedese e ucraino.
Copre la maggior parte dell'Europa, ma non include cinese, giapponese, coreano, arabo o hindi. Per questo abbiamo mantenuto i modelli Whisper come opzioni scaricabili. Se detti in giapponese o mandarino, scegli Whisper Large V3 Turbo dal selettore modelli. Per inglese e lingue europee, Parakeet v3 è semplicemente il motore migliore.
Selettore modelli: Parakeet V3 (predefinito), Whisper Small e Whisper Large V3 Turbo — tutti in esecuzione locale
Selettore modelli in Whisper Notes
Apri le Impostazioni per cambiare modello:
- Parakeet V3 (predefinito) — Il più veloce, ideale per inglese e lingue europee
- Whisper Small — Leggero, oltre 100 lingue
- Whisper Large V3 Turbo — Il modello multilingue più preciso
Tutti i modelli girano al 100% in locale sul tuo Mac. Niente internet, niente cloud, nessun dato esce dal tuo dispositivo.
E Parakeet V2?
Se hai usato V2, forse ti chiedi come si confronta. V2 era un modello solo per l'inglese — e la sua accuratezza in inglese è in realtà leggermente migliore di V3 (WER 6,05 % vs 6,32 %). V3 scambia quel piccolo margine con il supporto a 25 lingue. Entrambi sono molto più precisi di Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| WER inglese | 6.05% | 6.32% | 7.44% |
| Lingue | Solo inglese | 25 | 100+ |
In breve: se ti serve solo l'inglese, sia V2 che V3 sono eccellenti. V3 è quello predefinito in Whisper Notes perché il supporto multilingue è importante per la maggior parte degli utenti — e la differenza nella precisione dell'inglese è trascurabile.
Provalo
Parakeet v3 è disponibile ora nella versione Mac — basta scaricare l'ultimo DMG. (Aggiornamento: Parakeet è ora disponibile anche nell'ultima versione iOS.)
Domande o suggerimenti? Scrivici a support@whispernotes.app.