OpenAIのWhisper Large-v3 Turboは、デコーダーを32層から4層に削減し、パラメータ数を15.5億から8.09億に圧縮しました。結果:精度はほぼ同等のまま、文字起こし速度が2〜5倍に向上。Whisper NotesはApple Silicon Mac上でこのモデルを搭載しています。
V3 Turbo vs V3:何が変わったか
Turboは新しいアーキテクチャではありません。Whisper Large-v3と全く同じモデルで、デコーダーを32層から4層に剪定し、精度を回復するためにファインチューニングしたものです。エンコーダーは変更されていません。
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| パラメータ数 | 809M | 1,550M |
| デコーダー層数 | 4 | 32 |
| 対応言語数 | 99 | 99 |
| 翻訳タスク | 非対応 | 対応 |
| ライセンス | MIT | Apache 2.0 |
翻訳タスクはTurboの学習データから明示的に除外されました。フル版のLarge-v3は翻訳をサポートしていますが、Whisper NotesはTurboのみを搭載しており、翻訳はApple Intelligenceを通じて別途処理されます。
速度ベンチマーク:Apple Silicon上のWhisper Notes
Mac版Whisper Notesでは、TurboはCoreMLを通じてNeural Engine上で動作します。10分の音声を処理した場合:
| デバイス | Whisper V3 | V3 Turbo | 高速化 |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
5倍の高速化はApple Silicon上のWhisper Notesに固有の結果で、小型化されたデコーダーがNeural Engineの最適化の恩恵を受けています。GPU上でfaster-whisperなどのフレームワークを使用した場合、差は約2.7倍に縮まります(下記のコミュニティベンチマーク参照)。
精度:WER比較
Hugging Face Open ASRリーダーボードでは、同じ英語データセットで両モデルをテストしています。Turboの単語誤り率は、すべてのベンチマークでV3と0.5ポイント以内の差です:
| データセット | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| 平均WER | 7.83% | 7.44% |
V3はすべてのデータセットでわずかに精度が高いですが、差はごくわずかで、平均0.39ポイントです。実際の文字起こしではほとんど違いを感じません。
YouTube-commonsの長時間音声評価(最大級のオープンソースASRベンチマークの一つ)では、TurboのWERは13.40%、V3は13.20%ですが、リアルタイムファクターはTurboが129.5倍、V3が55.3倍。実際の音声で2.3倍高速かつほぼ同等の精度です。
コミュニティベンチマーク:GPU & CPU
faster-whisperおよびwhisper.cppコミュニティによる独立ベンチマークでは、様々なハードウェアで一貫した結果が得られています。GPU上でfaster-whisperを使用し13分の音声を文字起こし:
| モデル | 精度 | 所要時間 | GPUメモリ | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
出典:faster-whisperによるNVIDIA GPUベンチマーク、LibriSpeech cleanバリデーション分割。Turbo int8はVRAMわずか1.5 GBで動作し、2 GB GPUでも実行可能です。
RTX 3060 Laptop(6 GB VRAM、int8精度)でのバッチ推論では、さらに優位性が際立ちます:
| モデル | 逐次処理 | バッチ処理 (10) | バッチWER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
出典:NilaierMusicベンチマーク、Intel i7-12650H + RTX 3060 Laptop 6 GB、フランス語音声、int8精度。
バッチ処理では、Turboはテストされた全モデル中で最良のWER(7.7%)を達成しながら、最速を記録。本番環境での最適な選択です。
既知の制限事項(とWhisper Notesの対応策)
翻訳機能なし
Turboは翻訳データなしで学習されました。ソース言語での文字起こしのみ対応しています。Large-v3は音声から英語への翻訳をサポートしていますが、Turboにはありません。
Whisper Notes -- Apple Intelligenceが文字起こし結果を指定した言語に自動翻訳し、使用モデルに関係なくバイリンガル出力を提供します。
ノイズの多い音声でのハルシネーション増加
コミュニティの報告によると、Turboは非常に短いクリップやノイズの多い録音でV3よりハルシネーションが増える傾向があります。デコーダーの削減(4層 vs 32層)を考慮すると想定内です。
Whisper Notes -- 文字起こし前にPyannote VADを実行し、音声区間を検出して無音やノイズを除去することで、モデルは実際の音声のみを処理します。
どのモデルを使うべき?
| 英語 / ヨーロッパ言語 | Parakeet V3 -- Whisperの10倍速、より高精度 |
| 中国語 / 日本語 / 韓国語 | SenseVoice -- CJK専用、52倍速 |
| その他の言語 | Whisper Large V3 Turbo -- 99言語対応、高精度、低速 |