TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Скорость | 10× | 1× |
| Поддерживаемые языки | 25 | 100+ |
| Ошибки англ. (WER) | 6.32% | 7.44% |
| Ср. ошибки 25 языков (WER) | 12.0% | 12.6% |
| Галлюцинации | Нет | При тишине |
| Лучше для | Английский и европейские | Азиатские, арабский, 100+ |
* Скорость: 35 мин аудио, Apple Silicon. Англ. WER: Open ASR Leaderboard. Ср. 25 языков: бенчмарк FLEURS.
Начиная с версии 1.3.2, Whisper Notes для Mac использует NVIDIA Parakeet TDT 0.6B как движок распознавания речи по умолчанию. Он в 10 раз быстрее Whisper Large V3 Turbo для английского языка и при этом точнее. Модели Whisper по-прежнему доступны, если тебе нужны другие языки.
Почему мы сменили модель по умолчанию
Whisper — отличная модель, но она задумывалась как универсальный инструмент. Поддерживает 100+ языков, умеет переводить, расставлять таймстемпы — настоящий швейцарский нож. Расплата за это — скорость. Для диктовки на английском, когда тебе просто нужны слова на экране как можно быстрее, это перебор.
Вот что меня раздражало: при использовании системной диктовки через Fn с Whisper после минутного фрагмента приходилось ждать 3–5 секунд, пока появится текст. Эта пауза сбивает весь ритм. Перестаёшь говорить, ждёшь, смотришь на курсор — и вся магия голосового набора пропадает.
Parakeet всё изменил. Скорость настолько высокая, что текст появляется в тот момент, когда ты перестаёшь говорить. Говоришь — и слова просто уже там. Когда испытаешь это ощущение — мгновенный отклик без задержек — вернуться на Whisper уже очень сложно.
Насколько быстр Parakeet V3?
Цифры говорят сами за себя. Вот реальное сравнение на 35-минутном аудиофайле на одном и том же Mac:
| Модель | 35 мин аудио |
|---|---|
| Whisper Large V3 Turbo | 3 минуты |
| Parakeet TDT 0.6B v3 | 18 секунд |
В 10 раз быстрее. А поскольку модель меньше (600M против 800M параметров), она ещё и потребляет меньше памяти и батареи.
Почему Parakeet v3 такой быстрый
Whisper обрабатывает аудио так же, как ты бы читал книгу вслух — слово за словом, фрейм за фреймом, никогда не забегая вперёд. Даже во время тишины он продолжает обрабатывать и угадывать, что будет дальше. Это тщательно, но медленно.
Parakeet использует принципиально другой подход. Он сжимает аудиосигнал в 8 раз перед обработкой, так что модель видит только то, что важно. Дальше, вместо того чтобы перемалывать каждый отдельный фрейм, она предсказывает не только какое слово ты сказал, но и сколько оно длится — и перескакивает вперёд. Тишина? Пропускается целиком. Длинная гласная? Одно предсказание вместо десятков.
В итоге получается модель, которая обрабатывает речь так же, как твой мозг — фокусируется на словах, игнорирует паузы. Поэтому она в 10 раз быстрее при меньшем количестве параметров и более высокой точности.
Бенчмарки: Parakeet v3 против Whisper
Parakeet v3 не уступает или превосходит модели в 2-4 раза крупнее на бенчмарках FLEURS, CoVoST и MLS
На Hugging Face Open ASR Leaderboard Parakeet v3 возглавляет рейтинг с всего 600M параметрами — это меньше половины от 1.55B у Whisper Large V3:
| Модель | Параметры | Средний WER | Скорость (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Ниже WER = меньше ошибок. Выше RTFx = быстрее. Parakeet побеждает по обоим показателям. С 600M параметрами это ещё и самая компактная модель в списке — а значит, отлично работает на Apple Silicon с минимальным расходом памяти и батареи.
Многоязычный WER: все 25 языков
Таблица выше охватывает только английский. Вот полная картина — как три модели, доступные в Whisper Notes, сравниваются на всех 25 языках, которые поддерживает Parakeet, на бенчмарке FLEURS. Ниже WER = меньше ошибок транскрипции. Лучшее значение между Large V3 и Parakeet выделено в каждой строке:
| Язык | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Болгарский | 37.3 | 12.9 | 12.6 |
| Хорватский | 33.4 | 11.1 | 12.5 |
| Чешский | 37.6 | 11.3 | 11.0 |
| Датский | 32.8 | 12.6 | 18.4 |
| Нидерландский | 16.4 | 5.6 | 7.5 |
| Английский | 6.1 | 4.3 | 4.9 |
| Эстонский | 51.3 | 19.1 | 17.7 |
| Финский | 24.0 | 7.7 | 13.2 |
| Французский | 15.0 | 6.3 | 5.2 |
| Немецкий | 10.2 | 4.3 | 5.0 |
| Греческий | 30.8 | 27.0 | 20.7 |
| Венгерский | 38.9 | 14.1 | 15.7 |
| Итальянский | 9.8 | 2.3 | 3.0 |
| Латышский | 53.2 | 18.3 | 22.8 |
| Литовский | 65.6 | 22.3 | 20.4 |
| Мальтийский | 92.2 | 68.9 | 20.5 |
| Польский | 14.7 | 4.7 | 7.3 |
| Португальский | 7.3 | 3.7 | 4.8 |
| Румынский | 29.8 | 8.2 | 12.4 |
| Русский | 11.4 | 4.2 | 5.5 |
| Словацкий | 33.3 | 8.4 | 8.8 |
| Словенский | 49.3 | 19.9 | 24.0 |
| Испанский | 5.6 | 3.1 | 3.5 |
| Шведский | 20.8 | 7.9 | 15.1 |
| Украинский | 19.3 | 6.5 | 6.8 |
| Среднее | 29.8 | 12.6 | 12.0 |
WER (%) на FLEURS. Данные Whisper Small из Radford et al.; данные Large V3 и Parakeet V3 из статьи NVIDIA Canary-1B-v2.
Whisper Large V3 выигрывает на большинстве отдельных языков — он ведь в 2,5 раза крупнее. Но Parakeet V3 не уступает ему по среднему показателю (12,0% против 12,6%), уверенно побеждает на греческом, французском, эстонском и мальтийском, и разгромно обходит Whisper Small по всем направлениям (на 60% меньше ошибок в среднем). Суть не в доле процента WER — а в общей картине: точность уровня Large V3 при скорости в 23 раза выше, с 40% памяти, без галлюцинаций, и всё работает локально на твоём Mac.
Никаких галлюцинаций
Если ты использовал Whisper для диктовки, то наверняка сталкивался с галлюцинациями во время тишины — модель повторяет фразы, придумывает слова или выдаёт откуда-то «Subtitles by Amara.org». Это происходит потому, что авторегрессивный декодер Whisper всегда ожидает сгенерировать текст, даже когда распознавать нечего.
NVIDIA обучила Parakeet на 36 000 часах чистого не-речевого аудио (фоновый шум, кашель, тишина) с пустыми строками в качестве целевого текста. Модель научилась распознавать тишину и молчать. Для режима постоянной системной диктовки это кардинальное улучшение — больше никакого мусорного текста, когда ты делаешь паузу, чтобы подумать.
Какие языки поддерживает Parakeet
Parakeet v3 поддерживает 25 языков: болгарский, хорватский, чешский, датский, нидерландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, русский, словацкий, словенский, испанский, шведский и украинский.
Это покрывает большую часть Европы, но модель не поддерживает китайский, японский, корейский, арабский и хинди. Поэтому мы оставили модели Whisper доступными для скачивания. Если ты диктуешь на японском или мандаринском, выбери Whisper Large V3 Turbo в переключателе моделей. Для английского и европейских языков Parakeet v3 — просто лучший движок.
Переключатель моделей: Parakeet V3 (по умолчанию), Whisper Small и Whisper Large V3 Turbo — всё работает локально
Переключатель моделей в Whisper Notes
Открой Настройки, чтобы переключиться между моделями:
- Parakeet V3 (по умолчанию) — Самая быстрая, лучший выбор для английского и европейских языков
- Whisper Small — Легковесная, 100+ языков
- Whisper Large V3 Turbo — Самая точная мультиязычная модель
Все модели работают на 100% локально на твоём Mac. Без интернета, без облака, данные не покидают устройство.
А как насчёт Parakeet V2?
Если вы использовали V2, возможно, вам интересно сравнение. V2 — модель только для английского, и её точность на английском чуть выше, чем у V3 (WER 6,05 % против 6,32 %). V3 обменивает эту крошечную разницу на поддержку 25 языков. Оба значительно точнее Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| WER (английский) | 6.05% | 6.32% | 7.44% |
| Языки | Только английский | 25 | 100+ |
Коротко: если вам нужен только английский, и V2, и V3 отлично справляются. V3 установлен по умолчанию в Whisper Notes, потому что многоязычная поддержка важна большинству пользователей — а разница в точности английского ничтожна.
Попробуй
Parakeet v3 уже доступен в версии для Mac — просто скачай последний DMG. (Обновление: Parakeet теперь доступен и в последней версии для iOS.)
Вопросы или обратная связь? Пиши на support@whispernotes.app.