Whisper Large V3 Turbo vs V3：Mac で 5 倍高速（ベンチマーク）

OpenAIのWhisper Large-v3 Turboは、デコーダーを32層から4層に削減し、パラメータ数を15.5億から8.09億に圧縮しました。結果：精度はほぼ同等のまま、文字起こし速度が2〜5倍に向上。Whisper NotesはApple Silicon Mac上でこのモデルを搭載しています。

V3 Turbo vs V3：何が変わったか

Turboは新しいアーキテクチャではありません。Whisper Large-v3と全く同じモデルで、デコーダーを32層から4層に剪定し、精度を回復するためにファインチューニングしたものです。エンコーダーは変更されていません。

	Large-v3 Turbo	Large-v3
パラメータ数	809M	1,550M
デコーダー層数	4	32
対応言語数	99	99
翻訳タスク	非対応	対応
ライセンス	MIT	Apache 2.0

翻訳タスクはTurboの学習データから明示的に除外されました。フル版のLarge-v3は翻訳をサポートしていますが、Whisper NotesはTurboのみを搭載しており、翻訳はApple Intelligenceを通じて別途処理されます。

速度ベンチマーク：Apple Silicon上のWhisper Notes

Mac版Whisper Notesでは、TurboはCoreMLを通じてNeural Engine上で動作します。10分の音声を処理した場合：

デバイス	Whisper V3	V3 Turbo	高速化
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

5倍の高速化はApple Silicon上のWhisper Notesに固有の結果で、小型化されたデコーダーがNeural Engineの最適化の恩恵を受けています。GPU上でfaster-whisperなどのフレームワークを使用した場合、差は約2.7倍に縮まります（下記のコミュニティベンチマーク参照）。

精度：WER比較

Hugging Face Open ASRリーダーボードでは、同じ英語データセットで両モデルをテストしています。Turboの単語誤り率は、すべてのベンチマークでV3と0.5ポイント以内の差です：

データセット	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
平均WER	7.83%	7.44%

V3はすべてのデータセットでわずかに精度が高いですが、差はごくわずかで、平均0.39ポイントです。実際の文字起こしではほとんど違いを感じません。

YouTube-commonsの長時間音声評価（最大級のオープンソースASRベンチマークの一つ）では、TurboのWERは13.40%、V3は13.20%ですが、リアルタイムファクターはTurboが129.5倍、V3が55.3倍。実際の音声で2.3倍高速かつほぼ同等の精度です。

コミュニティベンチマーク：GPU & CPU

faster-whisperおよびwhisper.cppコミュニティによる独立ベンチマークでは、様々なハードウェアで一貫した結果が得られています。GPU上でfaster-whisperを使用し13分の音声を文字起こし：

モデル	精度	所要時間	GPUメモリ	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

出典：faster-whisperによるNVIDIA GPUベンチマーク、LibriSpeech cleanバリデーション分割。Turbo int8はVRAMわずか1.5 GBで動作し、2 GB GPUでも実行可能です。

RTX 3060 Laptop（6 GB VRAM、int8精度）でのバッチ推論では、さらに優位性が際立ちます：

モデル	逐次処理	バッチ処理 (10)	バッチWER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

出典：NilaierMusicベンチマーク、Intel i7-12650H + RTX 3060 Laptop 6 GB、フランス語音声、int8精度。

バッチ処理では、Turboはテストされた全モデル中で最良のWER（7.7%）を達成しながら、最速を記録。本番環境での最適な選択です。

既知の制限事項（とWhisper Notesの対応策）

翻訳機能なし

Turboは翻訳データなしで学習されました。ソース言語での文字起こしのみ対応しています。Large-v3は音声から英語への翻訳をサポートしていますが、Turboにはありません。

Whisper Notes -- Apple Intelligenceが文字起こし結果を指定した言語に自動翻訳し、使用モデルに関係なくバイリンガル出力を提供します。

ノイズの多い音声でのハルシネーション増加

コミュニティの報告によると、Turboは非常に短いクリップやノイズの多い録音でV3よりハルシネーションが増える傾向があります。デコーダーの削減（4層 vs 32層）を考慮すると想定内です。

Whisper Notes -- 文字起こし前にPyannote VADを実行し、音声区間を検出して無音やノイズを除去することで、モデルは実際の音声のみを処理します。

どのモデルを使うべき？

英語 / ヨーロッパ言語	Parakeet V3 -- Whisperの10倍速、より高精度
中国語 / 日本語 / 韓国語	SenseVoice -- CJK専用、52倍速
その他の言語	Whisper Large V3 Turbo -- 99言語対応、高精度、低速

iOS版をダウンロード

macOS版をダウンロード