TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Geschwindigkeit | 10× | 1× |
| Unterstützte Sprachen | 25 | 100+ |
| Englische Fehlerrate (WER) | 6.32% | 7.44% |
| Ø Fehlerrate, 25 Sprachen (WER) | 12.0% | 12.6% |
| Halluzinationen | Keine | Bei Stille |
| Geeignet für | Englisch & Europäisch | Asiatisch, Arabisch, 100+ |
* Geschwindigkeit: 35 Min. Audio auf Apple Silicon. Englisch-WER: Open ASR Leaderboard. 25-Sprachen-Ø: FLEURS-Benchmark.
Ab Version 1.3.2 wird Whisper Notes für Mac mit NVIDIA Parakeet TDT 0.6B als Standard-Sprachmodell ausgeliefert. Es ist 10x schneller als Whisper Large V3 Turbo für Englisch — und gleichzeitig genauer. Whisper-Modelle sind weiterhin verfügbar, wenn du andere Sprachen brauchst.
Warum wir das Standardmodell gewechselt haben
Whisper ist großartig, aber es wurde als Allzweck-Modell konzipiert. Es beherrscht über 100 Sprachen, übersetzt, erzeugt Zeitstempel — ein echtes Schweizer Taschenmesser. Der Nachteil: Geschwindigkeit. Für englische Diktate, bei denen du einfach nur schnell Wörter auf dem Bildschirm haben willst, ist das Overkill.
Was mich echt gestört hat: Wenn ich die systemweite Fn-Tasten-Diktierfunktion mit Whisper benutzt habe, musste ich nach einer ~1-minütigen Aufnahme 3–5 Sekunden warten, bis der Text erschien. Diese Pause unterbricht den Flow. Du hörst auf zu reden, wartest, starrst auf den Cursor — das zerstört die Magie des Diktierens.
Parakeet hat das komplett verändert. Die Geschwindigkeit ist so hoch, dass der Text erscheint, sobald du aufhörst zu sprechen. Du redest, und die Wörter sind einfach da. Wenn du dieses Gefühl einmal erlebt hast — dieser nahtlose, wartefreie Flow — dann ist es wirklich schwer, wieder zu Whisper zurückzugehen.
Wie schnell ist Parakeet V3?
Zahlen sagen mehr als Worte. Hier ein realer Vergleich mit einer 35-minütigen Audiodatei auf dem gleichen Mac:
| Modell | 35 Min. Audio |
|---|---|
| Whisper Large V3 Turbo | 3 Minuten |
| Parakeet TDT 0.6B v3 | 18 Sekunden |
Das ist 10x schneller. Und weil das Modell kleiner ist (600M vs. 800M Parameter), verbraucht es auch weniger Arbeitsspeicher und weniger Akku.
Was Parakeet v3 so schnell macht
Whisper hört sich Audio so an, wie du ein Buch laut vorlesen würdest — Wort für Wort, Frame für Frame, ohne jemals vorzuspringen. Selbst bei Stille verarbeitet es weiter und rät, was als Nächstes kommt. Gründlich, aber langsam.
Parakeet geht grundlegend anders vor. Es komprimiert das Audiosignal 8x, bevor es verarbeitet wird — das Modell sieht nur das Wesentliche. Dann, statt sich durch jeden einzelnen Frame zu arbeiten, sagt es nicht nur vorher, welches Wort du gesagt hast, sondern auch wie lange dieses Wort dauert — und springt weiter. Stille? Wird komplett übersprungen. Ein langer Vokal? Eine Vorhersage statt Dutzender.
Das Ergebnis ist ein Modell, das Sprache so verarbeitet, wie dein Gehirn es tut — es konzentriert sich auf die Wörter und ignoriert die Lücken. Deshalb ist es 10x schneller, mit weniger Parametern und höherer Genauigkeit.
Benchmarks: Parakeet v3 vs. Whisper
Parakeet v3 erreicht oder übertrifft Modelle, die 2-4x so groß sind, über FLEURS-, CoVoST- und MLS-Benchmarks
Auf dem Hugging Face Open ASR Leaderboard steht Parakeet v3 mit nur 600M Parametern ganz oben — weniger als die Hälfte von Whisper Large V3 mit 1,55B:
| Modell | Parameter | Durchschn. WER | Geschwindigkeit (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Niedrigerer WER = weniger Fehler. Höherer RTFx = schneller. Parakeet gewinnt bei beidem. Mit 600M Parametern ist es auch das kleinste Modell in der Liste — was bedeutet, dass es auf Apple Silicon wunderbar läuft, mit minimalem Speicher- und Akkuverbrauch.
Mehrsprachige WER: Alle 25 Sprachen
Die obige Rangliste bezieht sich nur auf Englisch. Hier das vollständige Bild — wie die drei in Whisper Notes verfügbaren Modelle in allen 25 von Parakeet unterstützten Sprachen abschneiden, gemessen am FLEURS-Benchmark. Niedrigerer WER = weniger Transkriptionsfehler. Der beste Wert zwischen Large V3 und Parakeet ist pro Zeile hervorgehoben:
| Sprache | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Bulgarisch | 37.3 | 12.9 | 12.6 |
| Kroatisch | 33.4 | 11.1 | 12.5 |
| Tschechisch | 37.6 | 11.3 | 11.0 |
| Dänisch | 32.8 | 12.6 | 18.4 |
| Niederländisch | 16.4 | 5.6 | 7.5 |
| Englisch | 6.1 | 4.3 | 4.9 |
| Estnisch | 51.3 | 19.1 | 17.7 |
| Finnisch | 24.0 | 7.7 | 13.2 |
| Französisch | 15.0 | 6.3 | 5.2 |
| Deutsch | 10.2 | 4.3 | 5.0 |
| Griechisch | 30.8 | 27.0 | 20.7 |
| Ungarisch | 38.9 | 14.1 | 15.7 |
| Italienisch | 9.8 | 2.3 | 3.0 |
| Lettisch | 53.2 | 18.3 | 22.8 |
| Litauisch | 65.6 | 22.3 | 20.4 |
| Maltesisch | 92.2 | 68.9 | 20.5 |
| Polnisch | 14.7 | 4.7 | 7.3 |
| Portugiesisch | 7.3 | 3.7 | 4.8 |
| Rumänisch | 29.8 | 8.2 | 12.4 |
| Russisch | 11.4 | 4.2 | 5.5 |
| Slowakisch | 33.3 | 8.4 | 8.8 |
| Slowenisch | 49.3 | 19.9 | 24.0 |
| Spanisch | 5.6 | 3.1 | 3.5 |
| Schwedisch | 20.8 | 7.9 | 15.1 |
| Ukrainisch | 19.3 | 6.5 | 6.8 |
| Durchschnitt | 29.8 | 12.6 | 12.0 |
WER (%) auf FLEURS. Whisper Small-Daten aus Radford et al.; Large V3- und Parakeet V3-Daten aus dem NVIDIA Canary-1B-v2-Paper.
Whisper Large V3 liegt bei den meisten Einzelsprachen knapp vorne — es ist schließlich 2,5x größer. Aber Parakeet V3 erreicht im Durchschnitt das gleiche Niveau (12,0 % vs. 12,6 %), gewinnt bei Griechisch, Französisch, Estnisch und Maltesisch deutlich und schlägt Whisper Small auf ganzer Linie (im Schnitt 60 % weniger Fehler). Die eigentliche Story ist nicht ein Bruchteil eines Prozents beim WER — es ist das Gesamtpaket: Large V3-Genauigkeit bei 23-facher Geschwindigkeit, mit 40 % des Speicherbedarfs, null Halluzinationen und alles läuft lokal auf deinem Mac.
Keine Halluzinationen mehr
Wenn du Whisper zum Diktieren benutzt hast, hast du wahrscheinlich schon erlebt, dass es bei Stille halluziniert — Phrasen wiederholt, Wörter erfindet oder plötzlich „Subtitles by Amara.org" ausgibt. Das passiert, weil Whispers autoregressiver Decoder immer erwartet, Text zu produzieren, selbst wenn es nichts zu transkribieren gibt.
NVIDIA hat Parakeet mit 36.000 Stunden reinem Nicht-Sprach-Audio trainiert (Hintergrundgeräusche, Husten, Stille) — gepaart mit leeren Zielstrings. Das Modell hat gelernt, wie Stille klingt, und bleibt ruhig. Für die systemweite Diktierfunktion im Dauerbetrieb ist das ein Gamechanger — kein Mülltext mehr, wenn du mal kurz nachdenkst.
Welche Sprachen Parakeet unterstützt
Parakeet v3 unterstützt 25 Sprachen: Bulgarisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Griechisch, Italienisch, Kroatisch, Lettisch, Litauisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch, Ukrainisch und Ungarisch.
Das deckt den Großteil Europas ab, unterstützt aber kein Chinesisch, Japanisch, Koreanisch, Arabisch oder Hindi. Deshalb sind die Whisper-Modelle weiterhin zum Download verfügbar. Wenn du auf Japanisch oder Mandarin diktierst, wähle Whisper Large V3 Turbo in der Modellauswahl. Für Englisch und europäische Sprachen ist Parakeet v3 schlicht die bessere Engine.
Modellauswahl: Parakeet V3 (Standard), Whisper Small und Whisper Large V3 Turbo — alle laufen lokal
Modellauswahl in Whisper Notes
Öffne die Einstellungen, um zwischen den Modellen zu wechseln:
- Parakeet V3 (Standard) — Am schnellsten, ideal für Englisch und europäische Sprachen
- Whisper Small — Leichtgewichtig, über 100 Sprachen
- Whisper Large V3 Turbo — Das genaueste mehrsprachige Modell
Alle Modelle laufen zu 100% lokal auf deinem Mac. Kein Internet, keine Cloud, keine Daten verlassen dein Gerät.
Was ist mit Parakeet V2?
Falls du V2 benutzt hast, fragst du dich vielleicht, wie es sich im Vergleich schlägt. V2 war ein reines Englisch-Modell — und seine englische Genauigkeit ist tatsächlich etwas besser als die von V3 (WER 6,05 % vs. 6,32 %). V3 tauscht diesen kleinen Unterschied gegen 25-Sprachen-Unterstützung ein. Beide sind deutlich genauer als Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| Englische WER | 6.05% | 6.32% | 7.44% |
| Sprachen | Nur Englisch | 25 | 100+ |
Kurz gesagt: Wenn du nur Englisch brauchst, sind V2 und V3 beide hervorragend. V3 ist der Standard in Whisper Notes, weil Mehrsprachigkeit den meisten Nutzern wichtig ist — und der Unterschied bei der englischen Genauigkeit vernachlässigbar ist.
Probier es aus
Parakeet v3 ist ab sofort in der Mac-Version verfügbar — einfach das neueste DMG herunterladen. (Update: Parakeet ist jetzt auch in der neuesten iOS-Version verfügbar.)
Fragen oder Feedback? Schreib uns an support@whispernotes.app.