Parakeet V3 vs Whisper:10 倍高速・高精度(ベンチマーク)

2026年3月7日
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
速度 10×
対応言語 25 100+
英語エラー率 (WER) 6.32% 7.44%
25言語の平均エラー率 (WER) 12.0% 12.6%
ハルシネーション なし 無音時に発生
最適 英語・ヨーロッパ言語 アジア・アラビア語等

* 速度:35分の音声、Apple Silicon で計測。英語 WER:Open ASR Leaderboard。25言語平均:FLEURS ベンチマーク。

バージョン 1.3.2 から、Mac 版 Whisper Notes はデフォルトの音声エンジンとして NVIDIA Parakeet TDT 0.6B を搭載しています。英語の文字起こしにおいて Whisper Large V3 Turbo の 10 倍速く、精度も上です。他の言語が必要な場合は、Whisper モデルも引き続き利用できます。

デフォルトを切り替えた理由

Whisper は優秀なモデルですが、あくまで汎用モデルです。100 以上の言語に対応し、翻訳もタイムスタンプ生成もできる、まさにスイスアーミーナイフ。その代償がスピードです。英語のディクテーションのように「とにかく速く文字を出したい」用途には、オーバースペックなんですよね。

一番ストレスだったのは、Fn キーでシステム全体の音声入力を使うとき。約 1 分間話してから、文字起こし結果が表示されるまで 3〜5 秒待たされる。この間が流れを完全に壊すんです。話し終わって、カーソルを見つめて、何も出てこない——音声入力の快感が一瞬で消えます。

Parakeet はこれを根本から変えました。話し終わった瞬間に文字が表示される。言葉にした途端、もうそこにある。この感覚——シームレスで待ち時間ゼロの流れ——を一度体験すると、Whisper には本当に戻れなくなります。

Parakeet V3 はどのくらい速いのか

数字で見るのが一番わかりやすいです。同じ Mac で同じ 35 分の音声ファイルを処理した結果がこちら:

モデル 35 分の音声
Whisper Large V3 Turbo 3 分
Parakeet TDT 0.6B v3 18 秒

10 倍速い。しかもモデルサイズが小さい(6 億 vs 8 億パラメータ)ので、メモリもバッテリーも消費が少ないです。

Parakeet v3 がこんなに速い理由

Whisper は音声を本の朗読のように処理します——一フレームずつ、一語ずつ、先に進むことなく。無音区間でも処理を続け、次の単語を推測し続けます。丁寧ではありますが、遅い。

Parakeet はまったく異なるアプローチを取ります。まず音声信号を 8 倍に圧縮して、重要な情報だけを残します。そして、フレームを一つずつ処理するのではなく、何の単語を言ったかだけでなく、その単語がどのくらいの長さかも同時に予測し、一気に先へジャンプします。無音?丸ごとスキップ。長い母音?何十回も繰り返さず、一回の予測で完了。

その結果、人間の脳のように音声を処理するモデルが生まれました——言葉に集中して、隙間は無視する。だからこそ、より少ないパラメータ、より高い精度で、10 倍のスピードを実現できるのです。

ベンチマーク:Parakeet v3 vs Whisper

単語誤り率の比較:Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T、複数のベンチマークデータセットにまたがる結果

Parakeet v3 は FLEURS、CoVoST、MLS ベンチマークで、パラメータ数 2〜4 倍のモデルに匹敵もしくは上回る性能

Hugging Face Open ASR Leaderboard では、Parakeet v3 がわずか 6 億パラメータでトップに立っています。Whisper Large V3 の 15.5 億パラメータの半分以下です:

モデル パラメータ数 平均 WER 速度 (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER が低いほどエラーが少なく、RTFx が高いほど速い。Parakeet は両方で勝っています。6 億パラメータということは、このリストで最も小さいモデルでもあります。つまり Apple Silicon 上で軽快に動作し、メモリもバッテリーも最小限で済みます。

多言語 WER:全 25 言語

上のリーダーボードは英語のみを対象としています。ここからは全体像をお見せします——Whisper Notes で利用できる 3 つのモデルが、Parakeet がサポートする全 25 言語でどう比較されるか、FLEURS ベンチマークで測定した結果です。WER が低い = 文字起こしエラーが少ない。各行で Large V3 と Parakeet の最良値をハイライトしています:

言語 Whisper Small Whisper Large V3 Parakeet V3
ブルガリア語 37.3 12.9 12.6
クロアチア語 33.4 11.1 12.5
チェコ語 37.6 11.3 11.0
デンマーク語 32.8 12.6 18.4
オランダ語 16.4 5.6 7.5
英語 6.1 4.3 4.9
エストニア語 51.3 19.1 17.7
フィンランド語 24.0 7.7 13.2
フランス語 15.0 6.3 5.2
ドイツ語 10.2 4.3 5.0
ギリシャ語 30.8 27.0 20.7
ハンガリー語 38.9 14.1 15.7
イタリア語 9.8 2.3 3.0
ラトビア語 53.2 18.3 22.8
リトアニア語 65.6 22.3 20.4
マルタ語 92.2 68.9 20.5
ポーランド語 14.7 4.7 7.3
ポルトガル語 7.3 3.7 4.8
ルーマニア語 29.8 8.2 12.4
ロシア語 11.4 4.2 5.5
スロバキア語 33.3 8.4 8.8
スロベニア語 49.3 19.9 24.0
スペイン語 5.6 3.1 3.5
スウェーデン語 20.8 7.9 15.1
ウクライナ語 19.3 6.5 6.8
平均 29.8 12.6 12.0

WER(%)は FLEURS で測定。Whisper Small のデータは Radford らより。Large V3 と Parakeet V3 のデータは NVIDIA Canary-1B-v2 論文より。

Whisper Large V3 は個別言語の多くでわずかにリードしています——パラメータ数が 2.5 倍大きいのだから当然です。しかし Parakeet V3 は平均では互角(12.0% vs 12.6%)、ギリシャ語・フランス語・エストニア語・マルタ語では決定的に上回り、Whisper Small に対しては全面的に圧勝しています(平均で 60% のエラー削減)。本当に重要なのは WER のわずかな差ではなく、トータルパッケージです。Large V3 レベルの精度を 23 倍の速度で、メモリ 40%、ハルシネーションゼロ、すべて Mac 上でローカル動作——これが Parakeet の真価です。

ハルシネーションとはおさらば

Whisper でディクテーションをしたことがある方なら、無音時にモデルが幻覚を起こすのを見たことがあるかもしれません。フレーズを繰り返したり、存在しない単語を作り出したり、突然「Subtitles by Amara.org」と出力したり。これは Whisper の自己回帰デコーダが、文字起こしすべき内容がなくても常にテキストを生成しようとするために起こります。

NVIDIA は Parakeet を 36,000 時間の純粋な非音声オーディオ(環境音、咳、無音)で訓練し、ターゲット出力をすべて空文字列に設定しました。モデルは「無音とは何か」を学習し、誰も話していないときは黙っています。「常時オン」のシステム全体ディクテーションにおいて、これは画期的です。考え事で間を置いても、画面にゴミテキストが出なくなります。

Parakeet が対応している言語

Parakeet v3 は 25 言語に対応しています:ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、ウクライナ語。

ヨーロッパのほぼ全域をカバーしていますが、中国語、日本語、韓国語、アラビア語、ヒンディー語には対応していません。そのため、Whisper モデルはダウンロード可能なオプションとして残してあります。日本語や中国語でディクテーションする場合は、モデルピッカーから Whisper Large V3 Turbo を選んでください。英語やヨーロッパ言語であれば、Parakeet v3 のほうが断然優れたエンジンです。

Whisper Notes Mac のモデルピッカー。Parakeet V3 がデフォルト、Whisper Small と Whisper Large V3 Turbo がダウンロード可能なオプションとして表示

モデルピッカー:Parakeet V3(デフォルト)、Whisper Small、Whisper Large V3 Turbo — すべてローカルで動作

Whisper Notes のモデルピッカー

設定を開いてモデルを切り替えられます:

  • Parakeet V3(デフォルト)— 最速、英語とヨーロッパ言語に最適
  • Whisper Small — 軽量、100 以上の言語に対応
  • Whisper Large V3 Turbo — 多言語で最高精度のモデル

すべてのモデルは Mac 上で 100% ローカルに動作します。インターネット不要、クラウド不要、データがデバイスの外に出ることは一切ありません。

Parakeet V2 はどうなった?

V2 をお使いだった方は、V3 との違いが気になるかもしれません。V2 は英語専用モデルで、英語の精度は実は V3 よりわずかに高いです(WER 6.05% vs 6.32%)。V3 はそのわずかな差と引き換えに 25 言語をサポートしています。いずれも Whisper より大幅に正確です。

Parakeet V2 Parakeet V3 Whisper Large V3
英語 WER 6.05% 6.32% 7.44%
対応言語 英語のみ 25 100+

つまり英語だけなら V2 も V3 も優秀です。Whisper Notes では多言語対応がほとんどのユーザーにとって重要なため、V3 をデフォルトにしています。英語の精度差はごくわずかです。

試してみてください

Parakeet v3 は Mac 版で今すぐ使えます。最新の DMG をダウンロードするだけです。(更新:最新の iOS バージョンでも Parakeet が利用可能になりました。)

ご質問やフィードバックは support@whispernotes.app までメールでお気軽にどうぞ。