Das OpenAI-Flaggschiffmodell GPT-4o („o“ steht für „omni“) erregte bei seiner Veröffentlichung im Mai mit seinen Audioverständnisfähigkeiten große Aufmerksamkeit. GPT-4o kann Audioeingaben mit einer durchschnittlichen Reaktionszeit von 320 Millisekunden beantworten, was der Reaktionszeit von Menschen in typischen Gesprächen entspricht.

ChatGPT OpenAI Künstliche Intelligenz (1)

OpenAI kündigte außerdem an, dass die Sprachmodusfunktion von ChatGPT die Audiofähigkeiten des GPT-4o-Modells nutzen wird, um Benutzern ein nahtloses Sprachdialogerlebnis zu bieten. Zum Thema Sprachfähigkeit von GPT-4o schrieb das OpenAI-Team:

"Mit GPT-4o haben wir ein völlig neues Modell trainiert, das Text, visuelle und Audio-Modalitäten End-to-End trainiert, d.h. alle Eingaben und Ausgaben werden von demselben neuronalen Netzwerk verarbeitet. Da GPT-4o unser erstes Modell ist, das all diese Modalitäten kombiniert, befinden wir uns noch in der Erkundungsphase des Potenzials und der Grenzen des Modells."

Im Juni kündigte OpenAI an, den fortschrittlichen Sprachmodus später als Alpha-Version für einen kleinen Teil der ChatGPT Plus-Nutzer einzuführen. Aufgrund der Notwendigkeit, die Fähigkeiten des Modells zur Erkennung und Ablehnung bestimmter Inhalte zu verbessern, wurde der Plan um einen Monat verschoben. Darüber hinaus bereitet OpenAI seine Infrastruktur darauf vor, Millionen von Nutzern zu bedienen, während gleichzeitig die Reaktionszeit in Echtzeit beibehalten wird.

Jetzt hat OpenAI-CEO Sam Altman über X bestätigt, dass die Alpha-Version des Sprachmodus nächste Woche für ChatGPT Plus-Abonnenten eingeführt wird.

image.png

Der aktuelle ChatGPT-Sprachmodus ist aufgrund einer durchschnittlichen Latenz von 2,8 Sekunden (GPT3.5) und 5,4 Sekunden (GPT-4) nicht sehr intuitiv zu bedienen. Der kommende, auf GPT-4o basierende, verbesserte Sprachmodus ermöglicht ChatGPT-Abonnenten einen flüssigen Dialog ohne Verzögerung.

Zusätzlich hat OpenAI heute das mit Spannung erwartete SearchGPT veröffentlicht, einen neuen Ansatz für die Websuche. SearchGPT ist derzeit noch ein Prototyp, der KI-gestützte Suchfunktionen bietet und schnell präzise Antworten aus klaren und relevanten Quellen liefert. Weitere Informationen finden Sie hier.

Wichtigste Punkte:

- ChatGPT Plus-Abonnenten erhalten nächste Woche die neue Sprachmodusfunktion für einen flüssigen Dialog ohne Verzögerung.

- Das GPT-4o-Modell kombiniert das Training von Text-, Bild- und Audiomodalitäten und eröffnet OpenAI neue Möglichkeiten zur Erforschung von Potential und Grenzen.

- OpenAI hat außerdem SearchGPT veröffentlicht, das eine schnelle und präzise KI-gestützte Suchfunktion bietet.