TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Velocidade | 10× | 1× |
| Idiomas suportados | 25 | 100+ |
| Taxa de erro em inglês (WER) | 6.32% | 7.44% |
| Taxa de erro média 25 idiomas (WER) | 12.0% | 12.6% |
| Alucinações | Nenhuma | Em silêncio |
| Ideal para | Inglês e europeus | Asiáticos, árabe, 100+ |
* Velocidade: áudio de 35 min no Apple Silicon. WER inglês: Open ASR Leaderboard. Méd. 25 idiomas: benchmark FLEURS.
A partir da versão 1.3.2, o Whisper Notes para Mac vem com o NVIDIA Parakeet TDT 0.6B como motor de voz predefinido. É 10 vezes mais rápido que o Whisper Large V3 Turbo para inglês, e mais preciso. Os modelos Whisper continuam disponíveis se precisares de outras línguas.
Porque mudámos o modelo predefinido
O Whisper é excelente, mas foi concebido como um modelo de propósito geral. Lida com mais de 100 línguas, traduz, gera marcas temporais — um canivete suíço. O custo é a velocidade. Para ditado em inglês, quando só queres ver as palavras no ecrã depressa, é demasiado.
Havia uma coisa que me incomodava bastante: ao usar o ditado com a tecla Fn a nível de sistema com o Whisper, acabar uma frase de ~1 minuto significava esperar 3 a 5 segundos pela transcrição. Essa pausa quebra o ritmo. Paras de falar, esperas, ficas a olhar para o cursor — e a magia da escrita por voz desaparece.
O Parakeet mudou isso por completo. A velocidade é tal que a transcrição aparece no instante em que paras de falar. Falas, e as palavras simplesmente estão lá. Quando se experimenta essa sensação — esse fluxo contínuo, sem espera nenhuma — é muito difícil voltar ao Whisper.
Quão rápido é o Parakeet V3?
Os números falam por si. Eis uma comparação real com um ficheiro de áudio de 35 minutos no mesmo Mac:
| Modelo | Áudio de 35 min |
|---|---|
| Whisper Large V3 Turbo | 3 minutos |
| Parakeet TDT 0.6B v3 | 18 segundos |
10 vezes mais rápido. E como o modelo é mais pequeno (600M vs 800M parâmetros), gasta menos memória e menos bateria.
O que torna o Parakeet v3 tão rápido
O Whisper ouve o áudio como quem lê um livro em voz alta — palavra por palavra, frame por frame, sem saltar nada. Mesmo durante os silêncios, continua a processar, a adivinhar o que vem a seguir. É minucioso, mas lento.
O Parakeet segue uma abordagem radicalmente diferente. Comprime o sinal de áudio 8 vezes antes de o processar, para que o modelo veja apenas o que interessa. Depois, em vez de percorrer cada frame um a um, prevê não só que palavra disseste, mas quanto tempo essa palavra dura — e salta para a frente. Silêncio? Saltado. Uma vogal longa? Uma só previsão em vez de dezenas.
O resultado é um modelo que processa a fala como o teu cérebro — focando-se nas palavras e ignorando os intervalos. É por isso que é 10 vezes mais rápido, com menos parâmetros e maior precisão.
Benchmarks: Parakeet v3 vs Whisper
O Parakeet v3 iguala ou supera modelos 2 a 4 vezes maiores nos benchmarks FLEURS, CoVoST e MLS
No Open ASR Leaderboard do Hugging Face, o Parakeet v3 lidera a tabela com apenas 600M parâmetros — menos de metade dos 1,55 mil milhões do Whisper Large V3:
| Modelo | Parâmetros | WER médio | Velocidade (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER mais baixo = menos erros. RTFx mais alto = mais rápido. O Parakeet ganha em ambos. Com 600M parâmetros, é também o modelo mais pequeno da lista — o que significa que funciona lindamente em Apple Silicon com consumo mínimo de memória e bateria.
WER multilingue: todas as 25 línguas
A tabela acima cobre apenas o inglês. Aqui está o panorama completo — como os três modelos disponíveis no Whisper Notes se comparam nas 25 línguas que o Parakeet suporta, medidos no benchmark FLEURS. WER mais baixo = menos erros de transcrição. O melhor valor entre Large V3 e Parakeet é realçado por linha:
| Língua | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Búlgaro | 37.3 | 12.9 | 12.6 |
| Croata | 33.4 | 11.1 | 12.5 |
| Checo | 37.6 | 11.3 | 11.0 |
| Dinamarquês | 32.8 | 12.6 | 18.4 |
| Neerlandês | 16.4 | 5.6 | 7.5 |
| Inglês | 6.1 | 4.3 | 4.9 |
| Estónio | 51.3 | 19.1 | 17.7 |
| Finlandês | 24.0 | 7.7 | 13.2 |
| Francês | 15.0 | 6.3 | 5.2 |
| Alemão | 10.2 | 4.3 | 5.0 |
| Grego | 30.8 | 27.0 | 20.7 |
| Húngaro | 38.9 | 14.1 | 15.7 |
| Italiano | 9.8 | 2.3 | 3.0 |
| Letão | 53.2 | 18.3 | 22.8 |
| Lituano | 65.6 | 22.3 | 20.4 |
| Maltês | 92.2 | 68.9 | 20.5 |
| Polaco | 14.7 | 4.7 | 7.3 |
| Português | 7.3 | 3.7 | 4.8 |
| Romeno | 29.8 | 8.2 | 12.4 |
| Russo | 11.4 | 4.2 | 5.5 |
| Eslovaco | 33.3 | 8.4 | 8.8 |
| Esloveno | 49.3 | 19.9 | 24.0 |
| Espanhol | 5.6 | 3.1 | 3.5 |
| Sueco | 20.8 | 7.9 | 15.1 |
| Ucraniano | 19.3 | 6.5 | 6.8 |
| Média | 29.8 | 12.6 | 12.0 |
WER (%) no FLEURS. Dados do Whisper Small de Radford et al.; dados do Large V3 e Parakeet V3 do artigo NVIDIA Canary-1B-v2.
O Whisper Large V3 tem vantagem na maioria das línguas individuais — afinal, é 2,5 vezes maior. Mas o Parakeet V3 iguala-o em média (12,0% vs 12,6%), vence decisivamente em grego, francês, estónio e maltês, e esmaga o Whisper Small em toda a linha (60% menos erros em média). A verdadeira história não é uma fração de percentagem no WER — é o pacote completo: precisão ao nível do Large V3 a 23 vezes a velocidade, com 40% da memória, zero alucinações e tudo a correr localmente no teu Mac.
Acabaram-se as alucinações
Se já usaste o Whisper para ditado, provavelmente viste-o a alucinar durante os silêncios — a repetir frases, a inventar palavras ou a debitar um "Subtitles by Amara.org" vindo do nada. Isto acontece porque o descodificador autorregressivo do Whisper espera sempre produzir texto, mesmo quando não há nada para transcrever.
A NVIDIA treinou o Parakeet com 36.000 horas de áudio puramente não verbal (ruído de fundo, tosses, silêncio) emparelhado com cadeias vazias. O modelo aprendeu como soa o silêncio e fica calado. Para o ditado a nível de sistema em modo permanente, isto muda tudo — acabou-se o texto lixo quando fazes uma pausa para pensar.
Línguas suportadas pelo Parakeet
O Parakeet v3 suporta 25 línguas: búlgaro, croata, checo, dinamarquês, neerlandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, italiano, letão, lituano, maltês, polaco, português, romeno, russo, eslovaco, esloveno, espanhol, sueco e ucraniano.
Isso cobre a maior parte da Europa, mas não inclui chinês, japonês, coreano, árabe ou hindi. Por isso mantivemos os modelos Whisper como opções transferíveis. Se ditas em japonês ou mandarim, escolhe o Whisper Large V3 Turbo no seletor de modelos. Para inglês e línguas europeias, o Parakeet v3 é simplesmente o melhor motor.
Seletor de modelos: Parakeet V3 (predefinido), Whisper Small e Whisper Large V3 Turbo — todos a correr localmente
Seletor de modelos no Whisper Notes
Abre as Definições para alternar entre modelos:
- Parakeet V3 (predefinido) — O mais rápido, ideal para inglês e línguas europeias
- Whisper Small — Leve, mais de 100 línguas
- Whisper Large V3 Turbo — O modelo multilingue mais preciso
Todos os modelos correm 100% localmente no teu Mac. Sem internet, sem cloud, nenhum dado sai do teu dispositivo.
E o Parakeet V2?
Se você usou o V2, pode estar se perguntando como ele se compara. O V2 era um modelo só para inglês — e sua precisão em inglês é na verdade ligeiramente melhor que a do V3 (WER 6,05 % vs 6,32 %). O V3 troca essa pequena margem pelo suporte a 25 idiomas. Ambos são significativamente mais precisos que o Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| WER inglês | 6.05% | 6.32% | 7.44% |
| Idiomas | Apenas inglês | 25 | 100+ |
Resumindo: se você só precisa do inglês, tanto o V2 quanto o V3 são excelentes. O V3 é o padrão no Whisper Notes porque o suporte multilíngue importa para a maioria dos usuários — e a diferença na precisão do inglês é insignificante.
Experimenta
O Parakeet v3 já está disponível na versão Mac — basta transferir o DMG mais recente. (Atualização: o Parakeet já está disponível na versão iOS mais recente.)
Perguntas ou sugestões? Envia um email para support@whispernotes.app.