Parakeet V3 vs Whisper:10 倍速 + 更高精度(基准测试)

2026年3月7日
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
速度 10×
支持语种 25 100+
英语错误率 (WER) 6.32% 7.44%
25 种语言平均错误率 (WER) 12.0% 12.6%
幻觉 静音时产生
适用 英语和欧洲语言 亚洲、阿拉伯等语言

* 速度:35 分钟音频,Apple Silicon 实测。英语 WER:Open ASR Leaderboard。25 语言均值:FLEURS 基准测试。

从1.3.2版本开始,Mac 版 Whisper Notes 默认使用 NVIDIA Parakeet TDT 0.6B 作为语音引擎。英文转录速度比 Whisper Large V3 Turbo 快 10 倍,准确率也更高。如果你需要其他语言,Whisper 模型仍然可用。

为什么换了默认模型

Whisper 很好用,但它是个通用模型——支持 100 多种语言、能翻译、能生成时间戳,是把瑞士军刀。代价是速度。对于英文听写这种只需要快速出字的场景,它太重了。

最让我难受的是:按住 Fn 用全局语音输入时,说完大概1分钟的话,要等3到5秒才能看到转录结果。这个等待打断了节奏——你说完了,盯着光标,什么都没出来,voice typing 的魔力瞬间消失。

Parakeet 彻底改变了这一点。它的速度快到说完的瞬间,文字就出现了。言出法随,毫无延迟。一旦体验过这种感觉——这种丝滑的、零等待的流畅——就很难再回到 Whisper 了。

Parakeet V3 有多快?

数字最有说服力。同一台 Mac 上,同一段 35 分钟的音频:

模型 35 分钟音频
Whisper Large V3 Turbo 3 分钟
Parakeet TDT 0.6B v3 18 秒

快了 10 倍。而且模型更小(6 亿 vs 8 亿参数),内存和电量消耗也更低。

Parakeet v3 为什么这么快

Whisper 处理音频的方式就像逐字朗读一本书——一帧一帧,从不跳过。即使是静音,它也在处理,在猜测下一个词是什么。这很严谨,但太慢了。

Parakeet 的思路完全不同。它先把音频信号压缩 8 倍,只保留关键信息。然后,它不再逐帧磨,而是同时预测两件事:你说了什么词,以及这个词持续多久——然后直接跳到下一个词。静音?直接跳过。一个长元音?一次预测搞定,而不是重复几十次。

结果就是,模型处理语音的方式更像你的大脑——只关注有意义的词,忽略中间的空白。这就是为什么它用更少的参数、更高的准确率,做到了 10 倍的速度。

基准测试:Parakeet v3 vs Whisper

词错率对比:Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T,跨多个基准数据集

Parakeet v3 在 FLEURS、CoVoST 和 MLS 基准测试中匹敌甚至超越参数量 2-4 倍的模型

在 Hugging Face Open ASR 排行榜上,Parakeet v3 仅凭 6 亿参数就登顶——不到 Whisper Large V3 的 15.5 亿参数的一半:

模型 参数量 平均词错率 速度 (RTFx)
Parakeet TDT 0.6B v3 6 亿 6.32% 3,333x
Canary 1B v2 10 亿 7.15% 749x
Whisper Large V3 15.5 亿 7.44% 146x
Whisper Large V3 Turbo 8 亿 7.6% 350x

词错率越低越好,RTFx 越高越快。Parakeet 两项全赢。6 亿参数也意味着它是列表中最小的模型——在 Apple Silicon 上运行极其流畅,内存和电量消耗都很低。

多语言词错率:全部 25 种语言

上面的排行榜只涵盖英语。接下来是全貌——Whisper Notes 中可用的三个模型在 Parakeet 支持的全部 25 种语言上的表现,基于 FLEURS 基准测试。词错率越低 = 转录错误越少。每行中 Large V3 和 Parakeet 的最佳值已高亮显示:

语言 Whisper Small Whisper Large V3 Parakeet V3
保加利亚语 37.3 12.9 12.6
克罗地亚语 33.4 11.1 12.5
捷克语 37.6 11.3 11.0
丹麦语 32.8 12.6 18.4
荷兰语 16.4 5.6 7.5
英语 6.1 4.3 4.9
爱沙尼亚语 51.3 19.1 17.7
芬兰语 24.0 7.7 13.2
法语 15.0 6.3 5.2
德语 10.2 4.3 5.0
希腊语 30.8 27.0 20.7
匈牙利语 38.9 14.1 15.7
意大利语 9.8 2.3 3.0
拉脱维亚语 53.2 18.3 22.8
立陶宛语 65.6 22.3 20.4
马耳他语 92.2 68.9 20.5
波兰语 14.7 4.7 7.3
葡萄牙语 7.3 3.7 4.8
罗马尼亚语 29.8 8.2 12.4
俄语 11.4 4.2 5.5
斯洛伐克语 33.3 8.4 8.8
斯洛文尼亚语 49.3 19.9 24.0
西班牙语 5.6 3.1 3.5
瑞典语 20.8 7.9 15.1
乌克兰语 19.3 6.5 6.8
平均 29.8 12.6 12.0

词错率(%)基于 FLEURS 测试集。Whisper Small 数据来自 Radford 等人;Large V3 和 Parakeet V3 数据来自 NVIDIA Canary-1B-v2 论文

Whisper Large V3 在大多数单语言上略胜一筹——毕竟它的参数量是 Parakeet 的 2.5 倍。但 Parakeet V3 在平均值上与之持平(12.0% vs 12.6%),在希腊语、法语、爱沙尼亚语和马耳他语上大幅领先,且全面碾压 Whisper Small(平均减少 60% 的错误)。真正的重点不在于零点几个百分点的词错率差异——而在于综合实力:Large V3 级别的准确率,23 倍的速度,40% 的内存占用,零幻觉,全部在你的 Mac 上本地运行。

告别幻觉问题

如果你用 Whisper 做过听写,可能遇到过它在静音时产生幻觉——重复短语、凭空造词,甚至输出"Subtitles by Amara.org"这种莫名其妙的文字。这是因为 Whisper 的自回归解码器总是期望生成文本,即使根本没有内容可转录。

NVIDIA 用 36,000 小时的纯非语音音频(背景噪音、咳嗽、静音)训练了 Parakeet,目标输出全部设为空字符串。模型学会了什么是静默,并在无人说话时保持安静。对于系统级全局听写来说,这是根本性的改变——你停下来思考时,屏幕上不会再冒出乱码。

Parakeet 支持的语言

Parakeet v3 支持 25 种语言:保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语和乌克兰语。

基本覆盖了整个欧洲,但不支持中文、日文、韩文、阿拉伯语和印地语。所以我们保留了 Whisper 模型作为可下载选项。如果你用日语或中文听写,可以在模型选择器中切换到 Whisper Large V3 Turbo。对于英语和欧洲语言,Parakeet v3 就是更好的引擎。

Whisper Notes Mac 模型选择器,显示 Parakeet V3 为默认模型,Whisper Small 和 Whisper Large V3 Turbo 为可下载选项

模型选择器:Parakeet V3(默认)、Whisper Small 和 Whisper Large V3 Turbo — 全部本地运行

Whisper Notes 中的模型选择器

打开设置即可切换模型:

  • Parakeet V3(默认)— 最快,最适合英语和欧洲语言
  • Whisper Small — 轻量级,支持 100+ 种语言
  • Whisper Large V3 Turbo — 多语言最高精度模型

所有模型都在你的 Mac 上 100% 本地运行。无需联网,无需云端,数据不会离开你的设备。

Parakeet V2 怎么样?

如果你之前用过 V2,可能想知道它和 V3 有什么不同。V2 是纯英语模型,英语准确率实际上比 V3 略高(WER 6.05% vs 6.32%)。V3 用这一点点差距换来了 25 种语言的支持。不过两者都比 Whisper 准确得多。

Parakeet V2 Parakeet V3 Whisper Large V3
英语 WER 6.05% 6.32% 7.44%
支持语种 仅英语 25 100+

简单来说:如果你只需要英语,V2 和 V3 都很优秀。Whisper Notes 默认使用 V3,因为多语言支持对大多数用户更有价值——英语准确率的差异几乎可以忽略。

来试试

Parakeet v3 现已在 Mac 版中可用——直接下载最新 DMG 即可体验。(更新:最新版 iOS 已支持 Parakeet。)

有问题或反馈?邮件联系 support@whispernotes.app