Nachdem OpenAI bereits im Bereich der Sprach-KI für Aufsehen gesorgt hat, setzt das Unternehmen, die Schöpfer von ChatGPT, seine Forschungsarbeit fort und präsentiert drei neue, selbst entwickelte Sprachmodelle: gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts. Besonders im Fokus steht dabei gpt-4o-transcribe.
Diese neuen Modelle sind bereits über eine API (Application Programming Interface) für Drittanbieter zugänglich, die sie in intelligentere Anwendungen integrieren können. OpenAI bietet außerdem eine Demo-Website namens OpenAI.fm für die private Nutzung an.
Kernfunktionen im Detail
Was zeichnet das mit Spannung erwartete gpt-4o-transcribe aus? Vereinfacht gesagt, ist es ein verbessertes Modell im Vergleich zu Whispers, dem OpenAI-Open-Source-Modell zur Sprachtranskription von vor zwei Jahren. Das Ziel ist eine geringere Fehlerquote und eine höhere Leistung.
Laut OpenAI-Daten zeigt gpt-4o-transcribe in Tests mit 33 Sprachen (Branchenstandard) eine deutlich geringere Fehlerquote als Whisper. Besonders bei Englisch liegt die Fehlerquote bei nur 2,46 %! Für Anwendungen, die eine hochpräzise Sprachtranskription benötigen, ist dies ein großer Fortschritt.
Beeindruckend ist auch die Leistung des Modells unter verschiedenen Bedingungen. Egal ob laute Umgebung, verschiedene Akzente oder unterschiedliche Sprechgeschwindigkeiten – gpt-4o-transcribe liefert präzisere Transkriptionen. Es unterstützt zudem über 100 Sprachen.
Zur Verbesserung der Genauigkeit nutzt gpt-4o-transcribe Rauschunterdrückung und die semantische Sprachaktivitätserkennung.
OpenAI-Mitarbeiter Jeff Harris erklärt, dass letztere dem Modell hilft, zu erkennen, ob ein Sprecher einen vollständigen Gedanken beendet hat, um Satzbaufehler zu vermeiden und die Gesamtqualität der Transkription zu verbessern. Darüber hinaus unterstützt gpt-4o-transcribe Streaming-Sprach-zu-Text-Konvertierung. Entwickler können kontinuierlich Audio eingeben und erhalten in Echtzeit Textergebnisse, was die Interaktion natürlicher gestaltet.
Zu beachten ist, dass die gpt-4o-transcribe-Modellfamilie derzeit keine „Sprechererkennung“ (Diarization) bietet. Das bedeutet, es transkribiert eingehendes Audio (möglicherweise mit mehreren Sprechern) in einen zusammenhängenden Text, ohne die einzelnen Sprecher zu unterscheiden oder zu kennzeichnen.
Dies kann in Situationen, in denen die Unterscheidung von Sprechern wichtig ist, einschränkend sein, dennoch überwiegen die Vorteile in Bezug auf die verbesserte Genauigkeit der Transkription.
Für Entwickler: API-Zugang verfügbar
gpt-4o-transcribe ist bereits über die OpenAI-API für Entwickler verfügbar. Dies ermöglicht eine schnelle Integration dieser leistungsstarken Sprachtranskriptionsfunktion in Anwendungen und bietet Benutzern eine komfortablere Sprachinteraktion.
Wie in einer OpenAI-Demo gezeigt wurde, lässt sich die Sprachinteraktion in Anwendungen, die bereits auf Text-Large-Language-Modellen wie GPT-4o basieren, mit nur etwa neun Zeilen Code hinzufügen. E-Commerce-Anwendungen könnten beispielsweise schnell eine Sprachfunktion implementieren, um Kundenanfragen zu Bestellungen zu beantworten.
OpenAI betont jedoch, dass diese neuen Modelle aufgrund der besonderen Anforderungen von ChatGPT in Bezug auf Kosten und Leistung vorerst nicht direkt in ChatGPT integriert werden, eine zukünftige Integration ist aber geplant. Für Entwickler, die eine geringere Latenz und Echtzeit-Sprachinteraktion benötigen, empfiehlt OpenAI die Verwendung der Sprach-zu-Sprach-Modelle in der Realtime-API.
Mit seiner leistungsstarken Sprachtranskriptionsfähigkeit kann gpt-4o-transcribe in vielen Bereichen zum Einsatz kommen. OpenAI sieht Anwendungsmöglichkeiten beispielsweise in Kunden-Callcentern, der automatischen Erstellung von Sitzungsprotokollen und KI-gestützten intelligenten Assistenten. Unternehmen, die das neue Modell bereits getestet haben, berichten von einer deutlichen Verbesserung der Sprach-KI-Leistung durch OpenAIs Audiomodelle.
OpenAI steht jedoch im Wettbewerb mit anderen Anbietern von Sprach-KI, wie beispielsweise ElevenLabs mit dem Scribe-Modell (geringe Fehlerquote und Sprechererkennung) oder Hume AI mit dem Octave TTS-Modell (feingranulare Anpassung von Aussprache und Emotionen). Auch die Open-Source-Community entwickelt kontinuierlich neue, fortschrittliche Sprachmodelle.
OpenAIs neue Sprachmodelle wie gpt-4o-transcribe zeigen beeindruckende Fähigkeiten und Potenziale im Bereich der Sprachtranskription. Obwohl sie derzeit hauptsächlich für Entwickler gedacht sind, ist ihr Wert für die Verbesserung der Sprachinteraktion unbestreitbar. Mit der Weiterentwicklung der Technologie werden wir in Zukunft wahrscheinlich noch viele weitere innovative Sprach-KI-Anwendungen erleben.
Website: https://www.openai.fm/