Parakeet V3 vs Whisper: 10x mais rápido, melhor precisão (Benchmark)

7 de março de 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Velocidade 10×
Idiomas suportados 25 100+
Taxa de erro em inglês (WER) 6.32% 7.44%
Taxa de erro média 25 idiomas (WER) 12.0% 12.6%
Alucinações Nenhuma Em silêncio
Ideal para Inglês e europeus Asiáticos, árabe, 100+

* Velocidade: áudio de 35 min no Apple Silicon. WER inglês: Open ASR Leaderboard. Méd. 25 idiomas: benchmark FLEURS.

A partir da versão 1.3.2, o Whisper Notes para Mac vem com o NVIDIA Parakeet TDT 0.6B como motor de voz predefinido. É 10 vezes mais rápido que o Whisper Large V3 Turbo para inglês, e mais preciso. Os modelos Whisper continuam disponíveis se precisares de outras línguas.

Porque mudámos o modelo predefinido

O Whisper é excelente, mas foi concebido como um modelo de propósito geral. Lida com mais de 100 línguas, traduz, gera marcas temporais — um canivete suíço. O custo é a velocidade. Para ditado em inglês, quando só queres ver as palavras no ecrã depressa, é demasiado.

Havia uma coisa que me incomodava bastante: ao usar o ditado com a tecla Fn a nível de sistema com o Whisper, acabar uma frase de ~1 minuto significava esperar 3 a 5 segundos pela transcrição. Essa pausa quebra o ritmo. Paras de falar, esperas, ficas a olhar para o cursor — e a magia da escrita por voz desaparece.

O Parakeet mudou isso por completo. A velocidade é tal que a transcrição aparece no instante em que paras de falar. Falas, e as palavras simplesmente estão lá. Quando se experimenta essa sensação — esse fluxo contínuo, sem espera nenhuma — é muito difícil voltar ao Whisper.

Quão rápido é o Parakeet V3?

Os números falam por si. Eis uma comparação real com um ficheiro de áudio de 35 minutos no mesmo Mac:

Modelo Áudio de 35 min
Whisper Large V3 Turbo 3 minutos
Parakeet TDT 0.6B v3 18 segundos

10 vezes mais rápido. E como o modelo é mais pequeno (600M vs 800M parâmetros), gasta menos memória e menos bateria.

O que torna o Parakeet v3 tão rápido

O Whisper ouve o áudio como quem lê um livro em voz alta — palavra por palavra, frame por frame, sem saltar nada. Mesmo durante os silêncios, continua a processar, a adivinhar o que vem a seguir. É minucioso, mas lento.

O Parakeet segue uma abordagem radicalmente diferente. Comprime o sinal de áudio 8 vezes antes de o processar, para que o modelo veja apenas o que interessa. Depois, em vez de percorrer cada frame um a um, prevê não só que palavra disseste, mas quanto tempo essa palavra dura — e salta para a frente. Silêncio? Saltado. Uma vogal longa? Uma só previsão em vez de dezenas.

O resultado é um modelo que processa a fala como o teu cérebro — focando-se nas palavras e ignorando os intervalos. É por isso que é 10 vezes mais rápido, com menos parâmetros e maior precisão.

Benchmarks: Parakeet v3 vs Whisper

Comparação da taxa de erro por palavra: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T em vários conjuntos de dados de referência

O Parakeet v3 iguala ou supera modelos 2 a 4 vezes maiores nos benchmarks FLEURS, CoVoST e MLS

No Open ASR Leaderboard do Hugging Face, o Parakeet v3 lidera a tabela com apenas 600M parâmetros — menos de metade dos 1,55 mil milhões do Whisper Large V3:

Modelo Parâmetros WER médio Velocidade (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER mais baixo = menos erros. RTFx mais alto = mais rápido. O Parakeet ganha em ambos. Com 600M parâmetros, é também o modelo mais pequeno da lista — o que significa que funciona lindamente em Apple Silicon com consumo mínimo de memória e bateria.

WER multilingue: todas as 25 línguas

A tabela acima cobre apenas o inglês. Aqui está o panorama completo — como os três modelos disponíveis no Whisper Notes se comparam nas 25 línguas que o Parakeet suporta, medidos no benchmark FLEURS. WER mais baixo = menos erros de transcrição. O melhor valor entre Large V3 e Parakeet é realçado por linha:

Língua Whisper Small Whisper Large V3 Parakeet V3
Búlgaro 37.3 12.9 12.6
Croata 33.4 11.1 12.5
Checo 37.6 11.3 11.0
Dinamarquês 32.8 12.6 18.4
Neerlandês 16.4 5.6 7.5
Inglês 6.1 4.3 4.9
Estónio 51.3 19.1 17.7
Finlandês 24.0 7.7 13.2
Francês 15.0 6.3 5.2
Alemão 10.2 4.3 5.0
Grego 30.8 27.0 20.7
Húngaro 38.9 14.1 15.7
Italiano 9.8 2.3 3.0
Letão 53.2 18.3 22.8
Lituano 65.6 22.3 20.4
Maltês 92.2 68.9 20.5
Polaco 14.7 4.7 7.3
Português 7.3 3.7 4.8
Romeno 29.8 8.2 12.4
Russo 11.4 4.2 5.5
Eslovaco 33.3 8.4 8.8
Esloveno 49.3 19.9 24.0
Espanhol 5.6 3.1 3.5
Sueco 20.8 7.9 15.1
Ucraniano 19.3 6.5 6.8
Média 29.8 12.6 12.0

WER (%) no FLEURS. Dados do Whisper Small de Radford et al.; dados do Large V3 e Parakeet V3 do artigo NVIDIA Canary-1B-v2.

O Whisper Large V3 tem vantagem na maioria das línguas individuais — afinal, é 2,5 vezes maior. Mas o Parakeet V3 iguala-o em média (12,0% vs 12,6%), vence decisivamente em grego, francês, estónio e maltês, e esmaga o Whisper Small em toda a linha (60% menos erros em média). A verdadeira história não é uma fração de percentagem no WER — é o pacote completo: precisão ao nível do Large V3 a 23 vezes a velocidade, com 40% da memória, zero alucinações e tudo a correr localmente no teu Mac.

Acabaram-se as alucinações

Se já usaste o Whisper para ditado, provavelmente viste-o a alucinar durante os silêncios — a repetir frases, a inventar palavras ou a debitar um "Subtitles by Amara.org" vindo do nada. Isto acontece porque o descodificador autorregressivo do Whisper espera sempre produzir texto, mesmo quando não há nada para transcrever.

A NVIDIA treinou o Parakeet com 36.000 horas de áudio puramente não verbal (ruído de fundo, tosses, silêncio) emparelhado com cadeias vazias. O modelo aprendeu como soa o silêncio e fica calado. Para o ditado a nível de sistema em modo permanente, isto muda tudo — acabou-se o texto lixo quando fazes uma pausa para pensar.

Línguas suportadas pelo Parakeet

O Parakeet v3 suporta 25 línguas: búlgaro, croata, checo, dinamarquês, neerlandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, italiano, letão, lituano, maltês, polaco, português, romeno, russo, eslovaco, esloveno, espanhol, sueco e ucraniano.

Isso cobre a maior parte da Europa, mas não inclui chinês, japonês, coreano, árabe ou hindi. Por isso mantivemos os modelos Whisper como opções transferíveis. Se ditas em japonês ou mandarim, escolhe o Whisper Large V3 Turbo no seletor de modelos. Para inglês e línguas europeias, o Parakeet v3 é simplesmente o melhor motor.

Seletor de modelos do Whisper Notes para Mac a mostrar o Parakeet V3 como predefinido, com Whisper Small e Whisper Large V3 Turbo como opções transferíveis

Seletor de modelos: Parakeet V3 (predefinido), Whisper Small e Whisper Large V3 Turbo — todos a correr localmente

Seletor de modelos no Whisper Notes

Abre as Definições para alternar entre modelos:

  • Parakeet V3 (predefinido) — O mais rápido, ideal para inglês e línguas europeias
  • Whisper Small — Leve, mais de 100 línguas
  • Whisper Large V3 Turbo — O modelo multilingue mais preciso

Todos os modelos correm 100% localmente no teu Mac. Sem internet, sem cloud, nenhum dado sai do teu dispositivo.

E o Parakeet V2?

Se você usou o V2, pode estar se perguntando como ele se compara. O V2 era um modelo só para inglês — e sua precisão em inglês é na verdade ligeiramente melhor que a do V3 (WER 6,05 % vs 6,32 %). O V3 troca essa pequena margem pelo suporte a 25 idiomas. Ambos são significativamente mais precisos que o Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER inglês 6.05% 6.32% 7.44%
Idiomas Apenas inglês 25 100+

Resumindo: se você só precisa do inglês, tanto o V2 quanto o V3 são excelentes. O V3 é o padrão no Whisper Notes porque o suporte multilíngue importa para a maioria dos usuários — e a diferença na precisão do inglês é insignificante.

Experimenta

O Parakeet v3 já está disponível na versão Mac — basta transferir o DMG mais recente. (Atualização: o Parakeet já está disponível na versão iOS mais recente.)

Perguntas ou sugestões? Envia um email para support@whispernotes.app.