Parakeet V3 vs Whisper: в 10 раз быстрее, выше точность (Бенчмарк)

7 марта 2026 г.
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Скорость 10×
Поддерживаемые языки 25 100+
Ошибки англ. (WER) 6.32% 7.44%
Ср. ошибки 25 языков (WER) 12.0% 12.6%
Галлюцинации Нет При тишине
Лучше для Английский и европейские Азиатские, арабский, 100+

* Скорость: 35 мин аудио, Apple Silicon. Англ. WER: Open ASR Leaderboard. Ср. 25 языков: бенчмарк FLEURS.

Начиная с версии 1.3.2, Whisper Notes для Mac использует NVIDIA Parakeet TDT 0.6B как движок распознавания речи по умолчанию. Он в 10 раз быстрее Whisper Large V3 Turbo для английского языка и при этом точнее. Модели Whisper по-прежнему доступны, если тебе нужны другие языки.

Почему мы сменили модель по умолчанию

Whisper — отличная модель, но она задумывалась как универсальный инструмент. Поддерживает 100+ языков, умеет переводить, расставлять таймстемпы — настоящий швейцарский нож. Расплата за это — скорость. Для диктовки на английском, когда тебе просто нужны слова на экране как можно быстрее, это перебор.

Вот что меня раздражало: при использовании системной диктовки через Fn с Whisper после минутного фрагмента приходилось ждать 3–5 секунд, пока появится текст. Эта пауза сбивает весь ритм. Перестаёшь говорить, ждёшь, смотришь на курсор — и вся магия голосового набора пропадает.

Parakeet всё изменил. Скорость настолько высокая, что текст появляется в тот момент, когда ты перестаёшь говорить. Говоришь — и слова просто уже там. Когда испытаешь это ощущение — мгновенный отклик без задержек — вернуться на Whisper уже очень сложно.

Насколько быстр Parakeet V3?

Цифры говорят сами за себя. Вот реальное сравнение на 35-минутном аудиофайле на одном и том же Mac:

Модель 35 мин аудио
Whisper Large V3 Turbo 3 минуты
Parakeet TDT 0.6B v3 18 секунд

В 10 раз быстрее. А поскольку модель меньше (600M против 800M параметров), она ещё и потребляет меньше памяти и батареи.

Почему Parakeet v3 такой быстрый

Whisper обрабатывает аудио так же, как ты бы читал книгу вслух — слово за словом, фрейм за фреймом, никогда не забегая вперёд. Даже во время тишины он продолжает обрабатывать и угадывать, что будет дальше. Это тщательно, но медленно.

Parakeet использует принципиально другой подход. Он сжимает аудиосигнал в 8 раз перед обработкой, так что модель видит только то, что важно. Дальше, вместо того чтобы перемалывать каждый отдельный фрейм, она предсказывает не только какое слово ты сказал, но и сколько оно длится — и перескакивает вперёд. Тишина? Пропускается целиком. Длинная гласная? Одно предсказание вместо десятков.

В итоге получается модель, которая обрабатывает речь так же, как твой мозг — фокусируется на словах, игнорирует паузы. Поэтому она в 10 раз быстрее при меньшем количестве параметров и более высокой точности.

Бенчмарки: Parakeet v3 против Whisper

Сравнение Word Error Rate: Parakeet TDT 0.6B v3 против Whisper Large V3 и Seamless M4T на нескольких наборах бенчмарков

Parakeet v3 не уступает или превосходит модели в 2-4 раза крупнее на бенчмарках FLEURS, CoVoST и MLS

На Hugging Face Open ASR Leaderboard Parakeet v3 возглавляет рейтинг с всего 600M параметрами — это меньше половины от 1.55B у Whisper Large V3:

Модель Параметры Средний WER Скорость (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Ниже WER = меньше ошибок. Выше RTFx = быстрее. Parakeet побеждает по обоим показателям. С 600M параметрами это ещё и самая компактная модель в списке — а значит, отлично работает на Apple Silicon с минимальным расходом памяти и батареи.

Многоязычный WER: все 25 языков

Таблица выше охватывает только английский. Вот полная картина — как три модели, доступные в Whisper Notes, сравниваются на всех 25 языках, которые поддерживает Parakeet, на бенчмарке FLEURS. Ниже WER = меньше ошибок транскрипции. Лучшее значение между Large V3 и Parakeet выделено в каждой строке:

Язык Whisper Small Whisper Large V3 Parakeet V3
Болгарский 37.3 12.9 12.6
Хорватский 33.4 11.1 12.5
Чешский 37.6 11.3 11.0
Датский 32.8 12.6 18.4
Нидерландский 16.4 5.6 7.5
Английский 6.1 4.3 4.9
Эстонский 51.3 19.1 17.7
Финский 24.0 7.7 13.2
Французский 15.0 6.3 5.2
Немецкий 10.2 4.3 5.0
Греческий 30.8 27.0 20.7
Венгерский 38.9 14.1 15.7
Итальянский 9.8 2.3 3.0
Латышский 53.2 18.3 22.8
Литовский 65.6 22.3 20.4
Мальтийский 92.2 68.9 20.5
Польский 14.7 4.7 7.3
Португальский 7.3 3.7 4.8
Румынский 29.8 8.2 12.4
Русский 11.4 4.2 5.5
Словацкий 33.3 8.4 8.8
Словенский 49.3 19.9 24.0
Испанский 5.6 3.1 3.5
Шведский 20.8 7.9 15.1
Украинский 19.3 6.5 6.8
Среднее 29.8 12.6 12.0

WER (%) на FLEURS. Данные Whisper Small из Radford et al.; данные Large V3 и Parakeet V3 из статьи NVIDIA Canary-1B-v2.

Whisper Large V3 выигрывает на большинстве отдельных языков — он ведь в 2,5 раза крупнее. Но Parakeet V3 не уступает ему по среднему показателю (12,0% против 12,6%), уверенно побеждает на греческом, французском, эстонском и мальтийском, и разгромно обходит Whisper Small по всем направлениям (на 60% меньше ошибок в среднем). Суть не в доле процента WER — а в общей картине: точность уровня Large V3 при скорости в 23 раза выше, с 40% памяти, без галлюцинаций, и всё работает локально на твоём Mac.

Никаких галлюцинаций

Если ты использовал Whisper для диктовки, то наверняка сталкивался с галлюцинациями во время тишины — модель повторяет фразы, придумывает слова или выдаёт откуда-то «Subtitles by Amara.org». Это происходит потому, что авторегрессивный декодер Whisper всегда ожидает сгенерировать текст, даже когда распознавать нечего.

NVIDIA обучила Parakeet на 36 000 часах чистого не-речевого аудио (фоновый шум, кашель, тишина) с пустыми строками в качестве целевого текста. Модель научилась распознавать тишину и молчать. Для режима постоянной системной диктовки это кардинальное улучшение — больше никакого мусорного текста, когда ты делаешь паузу, чтобы подумать.

Какие языки поддерживает Parakeet

Parakeet v3 поддерживает 25 языков: болгарский, хорватский, чешский, датский, нидерландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, русский, словацкий, словенский, испанский, шведский и украинский.

Это покрывает большую часть Европы, но модель не поддерживает китайский, японский, корейский, арабский и хинди. Поэтому мы оставили модели Whisper доступными для скачивания. Если ты диктуешь на японском или мандаринском, выбери Whisper Large V3 Turbo в переключателе моделей. Для английского и европейских языков Parakeet v3 — просто лучший движок.

Переключатель моделей в Whisper Notes для Mac: Parakeet V3 выбран по умолчанию, Whisper Small и Whisper Large V3 Turbo доступны для скачивания

Переключатель моделей: Parakeet V3 (по умолчанию), Whisper Small и Whisper Large V3 Turbo — всё работает локально

Переключатель моделей в Whisper Notes

Открой Настройки, чтобы переключиться между моделями:

  • Parakeet V3 (по умолчанию) — Самая быстрая, лучший выбор для английского и европейских языков
  • Whisper Small — Легковесная, 100+ языков
  • Whisper Large V3 Turbo — Самая точная мультиязычная модель

Все модели работают на 100% локально на твоём Mac. Без интернета, без облака, данные не покидают устройство.

А как насчёт Parakeet V2?

Если вы использовали V2, возможно, вам интересно сравнение. V2 — модель только для английского, и её точность на английском чуть выше, чем у V3 (WER 6,05 % против 6,32 %). V3 обменивает эту крошечную разницу на поддержку 25 языков. Оба значительно точнее Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER (английский) 6.05% 6.32% 7.44%
Языки Только английский 25 100+

Коротко: если вам нужен только английский, и V2, и V3 отлично справляются. V3 установлен по умолчанию в Whisper Notes, потому что многоязычная поддержка важна большинству пользователей — а разница в точности английского ничтожна.

Попробуй

Parakeet v3 уже доступен в версии для Mac — просто скачай последний DMG. (Обновление: Parakeet теперь доступен и в последней версии для iOS.)

Вопросы или обратная связь? Пиши на support@whispernotes.app.