Heute gibt OpenAI ein Update seiner Echtzeit-API bekannt, die sich derzeit noch in der Testphase befindet. Das Highlight dieses Updates sind fünf neue Sprachoptionen, speziell für Sprach-zu-Sprach-Anwendungen entwickelt. Zusätzlich wurden die Kosten für die Nutzung des Caches gesenkt, wodurch die API für Entwickler kostengünstiger wird.

475c4d1eaa6e3bc47f3db45d7c4ba540.png

Von den fünf neuen Sprachoptionen wurden drei – Ash, Verse und die britisch klingende Ballad – in einem OpenAI-Beitrag auf X vorgestellt. Diese Stimmen sind nicht nur lebendiger und anpassbarer, sondern bieten auch ein natürlicheres Kommunikationserlebnis. OpenAI erwähnt in seiner API-Dokumentation, dass diese native Sprach-zu-Sprach-Funktion die Zwischenverarbeitung von Textformaten umgeht, was zu geringerer Latenz und detaillierterer Ausgabe führt.

OpenAI weist jedoch darauf hin, dass aufgrund der derzeitigen Testphase der Echtzeit-API derzeit keine Client-Authentifizierung möglich ist. Darüber hinaus kann die Echtzeit-Audioverarbeitung von den Netzwerkbedingungen beeinflusst werden, was die Übertragung großer Audiomengen herausfordernd macht. OpenAI betont, dass die Sicherstellung einer zuverlässigen Audioübertragung bei instabilen Netzwerkbedingungen eine schwierige Aufgabe darstellt.

Die Entwicklung von OpenAI im Bereich der Sprachtechnologie ist auch umstritten. Im März dieses Jahres wurde die Sprachklon-Plattform „Voice Engine“ vorgestellt, um mit ElevenLabs zu konkurrieren, die aber nur wenigen Forschern zugänglich war. Nach der Präsentation von GPT-4o und Sprachmodellen wurde die Sprachfunktion „Sky“ im Mai aufgrund von Beschwerden der Hollywood-Schauspielerin Scarlett Johansson, die sich über die Ähnlichkeit mit ihrer Stimme beschwerte, ausgesetzt.

Im September führte OpenAI für seine zahlenden Abonnenten einen erweiterten Sprachmodus für ChatGPT ein, der für ChatGPT Plus, Enterprise, Teams und Edu-Benutzer verfügbar ist. Mit dieser Sprach-zu-Sprach-Technologie können Unternehmen schneller Echtzeitantworten generieren und so die Effizienz des Kundenservice erheblich steigern.

 Kostensenkung um über 50%

Zur Preisgestaltung der Echtzeit-API: In vorherigen Ankündigungen lag der Preis bei 0,06 US-Dollar pro Minute Audioeingabe und 0,24 US-Dollar pro Audioausgabe – relativ hohe Kosten für Entwickler. Nach diesem Update werden die Kosten für die Verwendung von zwischengespeicherten Texteingaben jedoch um 50 % und die Kosten für zwischengespeicherte Audioeingaben um bis zu 80 % reduziert.

Auf dem Entwicklertag wurde die neue Funktion „Prompt Caching“ vorgestellt, die häufig angeforderte Kontext-Prompts im Speicher des Modells speichert und so die Anzahl der für die Generierung von Antworten benötigten Tokens reduziert. Durch die Senkung der Eingangs-Preise möchte OpenAI mehr Entwickler für die Nutzung seiner API gewinnen.

Auch andere Unternehmen wie Anthropic haben ähnliche Caching-Funktionen eingeführt, um ihre Sprachtechnologie attraktiver zu machen.

Wichtigste Punkte:

🌟 Fünf neue natürliche Stimmen verbessern das Erlebnis von Sprach-Anwendungen

💰 Die Echtzeit-API senkt die Eingangs-Kosten durch Caching – günstiger für Entwickler

⚡ Die Echtzeit-Audioverarbeitung ist von den Netzwerkbedingungen abhängig, die Zuverlässigkeit muss beachtet werden