OpenAI präsentiert neues Sprach-zu-Text-Modell gpt-4o-transcribe – deutlich höhere Genauigkeit

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Mar 21, 2025

24

Nachdem OpenAI bereits im Bereich der Sprach-KI für Aufsehen gesorgt hat, setzt das Unternehmen, die Schöpfer von ChatGPT, seine Forschungsarbeit fort und präsentiert drei neue, selbst entwickelte Sprachmodelle: gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts. Besonders im Fokus steht dabei gpt-4o-transcribe.

Diese neuen Modelle sind bereits über eine API (Application Programming Interface) für Drittanbieter zugänglich, die sie in intelligentere Anwendungen integrieren können. OpenAI bietet außerdem eine Demo-Website namens OpenAI.fm für die private Nutzung an.

Kernfunktionen im Detail

Was zeichnet das mit Spannung erwartete gpt-4o-transcribe aus? Vereinfacht gesagt, ist es ein verbessertes Modell im Vergleich zu Whispers, dem OpenAI-Open-Source-Modell zur Sprachtranskription von vor zwei Jahren. Das Ziel ist eine geringere Fehlerquote und eine höhere Leistung.

Laut OpenAI-Daten zeigt gpt-4o-transcribe in Tests mit 33 Sprachen (Branchenstandard) eine deutlich geringere Fehlerquote als Whisper. Besonders bei Englisch liegt die Fehlerquote bei nur 2,46 %! Für Anwendungen, die eine hochpräzise Sprachtranskription benötigen, ist dies ein großer Fortschritt.

Beeindruckend ist auch die Leistung des Modells unter verschiedenen Bedingungen. Egal ob laute Umgebung, verschiedene Akzente oder unterschiedliche Sprechgeschwindigkeiten – gpt-4o-transcribe liefert präzisere Transkriptionen. Es unterstützt zudem über 100 Sprachen.

Zur Verbesserung der Genauigkeit nutzt gpt-4o-transcribe Rauschunterdrückung und die semantische Sprachaktivitätserkennung.

OpenAI-Mitarbeiter Jeff Harris erklärt, dass letztere dem Modell hilft, zu erkennen, ob ein Sprecher einen vollständigen Gedanken beendet hat, um Satzbaufehler zu vermeiden und die Gesamtqualität der Transkription zu verbessern. Darüber hinaus unterstützt gpt-4o-transcribe Streaming-Sprach-zu-Text-Konvertierung. Entwickler können kontinuierlich Audio eingeben und erhalten in Echtzeit Textergebnisse, was die Interaktion natürlicher gestaltet.

Zu beachten ist, dass die gpt-4o-transcribe-Modellfamilie derzeit keine „Sprechererkennung“ (Diarization) bietet. Das bedeutet, es transkribiert eingehendes Audio (möglicherweise mit mehreren Sprechern) in einen zusammenhängenden Text, ohne die einzelnen Sprecher zu unterscheiden oder zu kennzeichnen.

Dies kann in Situationen, in denen die Unterscheidung von Sprechern wichtig ist, einschränkend sein, dennoch überwiegen die Vorteile in Bezug auf die verbesserte Genauigkeit der Transkription.

Für Entwickler: API-Zugang verfügbar

gpt-4o-transcribe ist bereits über die OpenAI-API für Entwickler verfügbar. Dies ermöglicht eine schnelle Integration dieser leistungsstarken Sprachtranskriptionsfunktion in Anwendungen und bietet Benutzern eine komfortablere Sprachinteraktion.

Wie in einer OpenAI-Demo gezeigt wurde, lässt sich die Sprachinteraktion in Anwendungen, die bereits auf Text-Large-Language-Modellen wie GPT-4o basieren, mit nur etwa neun Zeilen Code hinzufügen. E-Commerce-Anwendungen könnten beispielsweise schnell eine Sprachfunktion implementieren, um Kundenanfragen zu Bestellungen zu beantworten.

OpenAI betont jedoch, dass diese neuen Modelle aufgrund der besonderen Anforderungen von ChatGPT in Bezug auf Kosten und Leistung vorerst nicht direkt in ChatGPT integriert werden, eine zukünftige Integration ist aber geplant. Für Entwickler, die eine geringere Latenz und Echtzeit-Sprachinteraktion benötigen, empfiehlt OpenAI die Verwendung der Sprach-zu-Sprach-Modelle in der Realtime-API.

Mit seiner leistungsstarken Sprachtranskriptionsfähigkeit kann gpt-4o-transcribe in vielen Bereichen zum Einsatz kommen. OpenAI sieht Anwendungsmöglichkeiten beispielsweise in Kunden-Callcentern, der automatischen Erstellung von Sitzungsprotokollen und KI-gestützten intelligenten Assistenten. Unternehmen, die das neue Modell bereits getestet haben, berichten von einer deutlichen Verbesserung der Sprach-KI-Leistung durch OpenAIs Audiomodelle.

OpenAI steht jedoch im Wettbewerb mit anderen Anbietern von Sprach-KI, wie beispielsweise ElevenLabs mit dem Scribe-Modell (geringe Fehlerquote und Sprechererkennung) oder Hume AI mit dem Octave TTS-Modell (feingranulare Anpassung von Aussprache und Emotionen). Auch die Open-Source-Community entwickelt kontinuierlich neue, fortschrittliche Sprachmodelle.

OpenAIs neue Sprachmodelle wie gpt-4o-transcribe zeigen beeindruckende Fähigkeiten und Potenziale im Bereich der Sprachtranskription. Obwohl sie derzeit hauptsächlich für Entwickler gedacht sind, ist ihr Wert für die Verbesserung der Sprachinteraktion unbestreitbar. Mit der Weiterentwicklung der Technologie werden wir in Zukunft wahrscheinlich noch viele weitere innovative Sprach-KI-Anwendungen erleben.

Website: https://www.openai.fm/

gpt-4o-transcribe gpt-4o-mini-transcribe gpt-4o-mini-tts OpenAI

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

OpenAI präsentiert neues Sprach-zu-Text-Modell gpt-4o-transcribe – deutlich höhere Genauigkeit

AIbase基地

Kernfunktionen im Detail

Für Entwickler: API-Zugang verfügbar

Dieser Artikel stammt aus dem AIbase-Tagesbericht