Die Szenen aus dem Science-Fiction-Film „Her“ scheinen Realität zu werden. Die Sprachfunktion von GPT-4o hat endlich die Grautestphase erreicht, und einige ChatGPT Plus-Nutzer konnten dieses aufregende neue Feature bereits ausprobieren. Diese Innovation von OpenAI ermöglicht es dem KI-System nicht nur, Witze zu erzählen und Katzenlaute nachzuahmen, sondern auch als „Sprachtrainer für Fremdsprachen“ beim Üben von Konversationen zu helfen.
Der Sprachmodus von GPT-4o bietet ein natürlicheres und interaktiveres Gesprächserlebnis in Echtzeit. Benutzer können die KI jederzeit unterbrechen, und sie kann sogar die Emotionen des Benutzers erkennen und darauf reagieren. Es wird erwartet, dass alle ChatGPT Plus-Nutzer diese Funktion im Herbst dieses Jahres nutzen können. Noch spannender ist die Aussicht auf die in Kürze erscheinenden Funktionen für Video- und Bildschirmfreigabe, mit denen Benutzer eine „persönliche“ Interaktion mit ChatGPT erleben können.
Die Ausgabefähigkeit von GPT-4o wurde ebenfalls deutlich verbessert. Die Anzahl der Ausgabe-Token des neuen Modells ist von 4000 auf 64000 gestiegen, was bedeutet, dass auf einmal Inhalte im Umfang von vier vollständigen Langfilm-Drehbüchern abgerufen werden können. OpenAI hat auf seiner Website leise eine Testversion dieses neuen Modells, gpt-4o-64k-output-alpha, eingeführt.
Um Sicherheit und Qualität zu gewährleisten, hat OpenAI die Sprachfunktion von GPT-4o in den letzten Monaten strengen Tests unterzogen. Sie haben mit über 100 Red-Team-Mitgliedern Tests in 45 Sprachen durchgeführt und das Modell darauf trainiert, nur 4 voreingestellte Stimmen zu verwenden, um die Privatsphäre der Benutzer zu schützen. Darüber hinaus ist die Inhaltsfilterung unerlässlich, und das Team hat Maßnahmen ergriffen, um die Generierung von gewalttätigen und urheberrechtlich geschützten Inhalten zu verhindern.
Die Testergebnisse der GPT-4o-Sprachfunktion durch Internetnutzer sind beeindruckend. Einige haben festgestellt, dass es schnell und nahezu verzögerungsfrei Fragen beantworten kann; andere haben es verwendet, um verschiedene Stimmen und Akzente nachzuahmen; wieder andere haben es als Fußballkommentator eingesetzt oder sogar Geschichten auf Chinesisch lebendig erzählt. Diese Beispiele zeigen die Leistungsfähigkeit von GPT-4o in der Spracherkennung und -generierung.
Es ist erwähnenswert, dass einige Internetnutzer, obwohl OpenAI behauptet, die Video- und Bildschirmfreigabe-Funktionen würden später eingeführt werden, bereits vorab Zugriff auf diese Funktionen hatten. Beispielsweise zeigte ein Nutzer ChatGPT das vorbereitete Nest für sein neues Haustier, eine Katze, und ChatGPT kommentierte nach der Betrachtung: „Es sieht sehr bequem aus“ und erkundigte sich besorgt nach dem Befinden der Katze.
Darüber hinaus wurde die Funktion für lange Ausgaben von GPT-4o stillschweigend aktiviert. OpenAI hat offiziell angekündigt, Testern die GPT-4o Alpha-Version zur Verfügung zu stellen, die pro Anfrage maximal 64.000 Token ausgeben kann, was etwa 200 Seiten Roman entspricht. Die Einführung dieser Funktion basiert auf der Nachfrage der Benutzer nach längeren Ausgaben.
Längere Ausgaben bedeuten jedoch auch einen höheren Rechenaufwand und höhere Kosten. Der Preis für GPT-4o Long Output beträgt 6 US-Dollar pro Million Eingabe-Token und 18 US-Dollar pro Million Ausgabe-Token, was im Vergleich zu früheren Modellen eine Erhöhung darstellt. Dennoch sind einige Forscher der Meinung, dass lange Ausgaben hauptsächlich für Anwendungsfälle wie Datenkonvertierung verwendet werden und für das Schreiben von Code und das Verbessern von Texten sehr hilfreich sind.
Zusammenfassend lässt sich sagen, dass die Sprachfunktion und die Funktion für lange Ausgaben von GPT-4o den Benutzern zweifellos ein reichhaltigeres und komfortableres interaktives Erlebnis bieten werden. Wir können davon ausgehen, dass die KI mit dem Fortschritt der Technologie ihren einzigartigen Wert in immer mehr Bereichen unter Beweis stellen wird.