iOS 26: Apples neue Sprach-zu-Text-Transkription im Test schneller als die Konkurrenz

Mit den kommenden Updates auf iOS 26 und macOS Tahoe bietet Apple auch eine neue Entwicklerschnittstelle zur Sprach-zu-Text-Transkription an. Ersten Tests zufolge bietet diese eine deutlich höhere Geschwindigkeit als Konkurrenztools, darunter Wispre von OpenAI. iOS 26: Apples neue Sprach-zu-Text-Transkription im Test schneller als die Konkurrenz Apple nutzt eigene native Sprachframeworks für die Live-Transkription in Apps […]

Jun 18, 2025 - 20:50
 0
iOS 26: Apples neue Sprach-zu-Text-Transkription im Test schneller als die Konkurrenz

Mit den kommenden Updates auf iOS 26 und macOS Tahoe bietet Apple auch eine neue Entwicklerschnittstelle zur Sprach-zu-Text-Transkription an. Ersten Tests zufolge bietet diese eine deutlich höhere Geschwindigkeit als Konkurrenztools, darunter Wispre von OpenAI.

iOS 26: Apples neue Sprach-zu-Text-Transkription im Test schneller als die Konkurrenz

Apple nutzt eigene native Sprachframeworks für die Live-Transkription in Apps wie Notizen und Sprachmemos sowie für die Transkription von Telefongesprächen seit iOS 18.1. Um die Effizienz in iOS 26 und macOS Tahoe zu verbessern, hat Apple eine neue SpeechAnalyzer-Klasse und ein SpeechTranscriber-Modul eingeführt, die ähnliche Anfragen verarbeiten. Ersten Test zufolge ist die neue Apple API ziemlich schnell.

John Voorhees von MacStories hat verschiedene Tests durchgeführt. Laut Voorhees verarbeiteten die neuen Apple-Modelle eine 34-minütige und 7 GB große Videodatei mithilfe eines Kommandozeilentools namens Yap (entwickelt von Voorhees‘ Sohn Finn) in nur 45 Sekunden. Das ist volle 55 Prozent schneller als MacWhispers großes V3 Turbo-Modell, das für dieselbe Datei 1 Minute und 41 Sekunden benötigte. Andere auf Whisper basierende Tools waren sogar noch langsamer: VidCap benötigte 1:55min und das Large V2-Modell von MacWhisper 3:55min , um dieselbe Transkriptionsaufgabe durchzuführen.

Bei einzelne Aufgaben mag der Geschwindigkeitsvorteil gering erscheinen. Bei der Verarbeitung mehrerer Videos oder längerer Inhalte nimmt der Leistungsgewinn jedoch exponentiell zunimmt.