Whisper Large V3 Turbo vs V3:Mac で 5 倍高速(ベンチマーク)

2024年11月6日
·
6 min read
·Whisper Notes Team

OpenAIのWhisper Large-v3 Turboは、デコーダーを32層から4層に削減し、パラメータ数を15.5億から8.09億に圧縮しました。結果:精度はほぼ同等のまま、文字起こし速度が2〜5倍に向上。Whisper NotesはApple Silicon Mac上でこのモデルを搭載しています。

Whisper Large V3 TurboとV3のアーキテクチャ比較

V3 Turbo vs V3:何が変わったか

Turboは新しいアーキテクチャではありません。Whisper Large-v3と全く同じモデルで、デコーダーを32層から4層に剪定し、精度を回復するためにファインチューニングしたものです。エンコーダーは変更されていません。

Large-v3 Turbo Large-v3
パラメータ数 809M 1,550M
デコーダー層数 4 32
対応言語数 99 99
翻訳タスク 非対応 対応
ライセンス MIT Apache 2.0

翻訳タスクはTurboの学習データから明示的に除外されました。フル版のLarge-v3は翻訳をサポートしていますが、Whisper NotesはTurboのみを搭載しており、翻訳はApple Intelligenceを通じて別途処理されます。

速度ベンチマーク:Apple Silicon上のWhisper Notes

Mac版Whisper Notesでは、TurboはCoreMLを通じてNeural Engine上で動作します。10分の音声を処理した場合:

デバイス Whisper V3 V3 Turbo 高速化
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

5倍の高速化はApple Silicon上のWhisper Notesに固有の結果で、小型化されたデコーダーがNeural Engineの最適化の恩恵を受けています。GPU上でfaster-whisperなどのフレームワークを使用した場合、差は約2.7倍に縮まります(下記のコミュニティベンチマーク参照)。

精度:WER比較

Hugging Face Open ASRリーダーボードでは、同じ英語データセットで両モデルをテストしています。Turboの単語誤り率は、すべてのベンチマークでV3と0.5ポイント以内の差です:

データセット V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
平均WER 7.83% 7.44%

V3はすべてのデータセットでわずかに精度が高いですが、差はごくわずかで、平均0.39ポイントです。実際の文字起こしではほとんど違いを感じません。

YouTube-commonsの長時間音声評価(最大級のオープンソースASRベンチマークの一つ)では、TurboのWERは13.40%、V3は13.20%ですが、リアルタイムファクターはTurboが129.5倍、V3が55.3倍。実際の音声で2.3倍高速かつほぼ同等の精度です。

コミュニティベンチマーク:GPU & CPU

faster-whisperおよびwhisper.cppコミュニティによる独立ベンチマークでは、様々なハードウェアで一貫した結果が得られています。GPU上でfaster-whisperを使用し13分の音声を文字起こし:

モデル 精度 所要時間 GPUメモリ WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

出典:faster-whisperによるNVIDIA GPUベンチマーク、LibriSpeech cleanバリデーション分割。Turbo int8はVRAMわずか1.5 GBで動作し、2 GB GPUでも実行可能です。

RTX 3060 Laptop(6 GB VRAM、int8精度)でのバッチ推論では、さらに優位性が際立ちます:

モデル 逐次処理 バッチ処理 (10) バッチWER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

出典:NilaierMusicベンチマーク、Intel i7-12650H + RTX 3060 Laptop 6 GB、フランス語音声、int8精度。

バッチ処理では、Turboはテストされた全モデル中で最良のWER(7.7%)を達成しながら、最速を記録。本番環境での最適な選択です。

既知の制限事項(とWhisper Notesの対応策)

翻訳機能なし

Turboは翻訳データなしで学習されました。ソース言語での文字起こしのみ対応しています。Large-v3は音声から英語への翻訳をサポートしていますが、Turboにはありません。

Whisper Notes -- Apple Intelligenceが文字起こし結果を指定した言語に自動翻訳し、使用モデルに関係なくバイリンガル出力を提供します。

ノイズの多い音声でのハルシネーション増加

コミュニティの報告によると、Turboは非常に短いクリップやノイズの多い録音でV3よりハルシネーションが増える傾向があります。デコーダーの削減(4層 vs 32層)を考慮すると想定内です。

Whisper Notes -- 文字起こし前にPyannote VADを実行し、音声区間を検出して無音やノイズを除去することで、モデルは実際の音声のみを処理します。

どのモデルを使うべき?

英語 / ヨーロッパ言語 Parakeet V3 -- Whisperの10倍速、より高精度
中国語 / 日本語 / 韓国語 SenseVoice -- CJK専用、52倍速
その他の言語 Whisper Large V3 Turbo -- 99言語対応、高精度、低速