Auf der am 21. August 2024 in Shanghai stattfindenden Volcano Engine AI Innovation Tour präsentierte Volcano Engine das umfassende Upgrade seines Doubao-Sprachmodells sowie Verbesserungen seiner interaktiven Echtzeit-Lösung für Conversational AI.
Seit seiner Veröffentlichung am 15. Mai hat das Doubao-Sprachmodell eine durchschnittliche tägliche Nutzung von über 500 Milliarden Tokens verzeichnet, wobei die Nutzung durch Unternehmenskunden um das 22-fache gestiegen ist. Die Gesamtleistung des neuen Doubao-Sprachmodells wurde um 20,3 % verbessert, wobei sich die Rollenspielfähigkeit um 38,3 % und das Sprachverständnis um 33,3 % steigerte.
Das Doubao-Text-zu-Bild-Modell bietet eine präzisere Übereinstimmung von Text und Bild für lange Texte und eine verbesserte Fähigkeit zur Bilderzeugung in komplexen Szenarien mit mehreren Subjekten, Positionen und Handstrukturen. Es versteht chinesische Elemente besser und erzeugt ästhetisch ansprechendere Bilder im chinesischen Stil. Das Doubao-Spracherkennungsmodell nutzt das umfangreiche Wissen und die Inferenzfähigkeit des großen Sprachmodells und verbessert die Genauigkeit der Spracherkennung durch Kontextverständnis. In mehreren öffentlich zugänglichen Testdatensätzen reduzierte es die Fehlerquote im Vergleich zu in China veröffentlichten Spracherkennungsmodellen um bis zu 40 %. Ein Modell unterstützt die Erkennung von Mandarin und verschiedenen chinesischen Dialekten wie Kantonesisch, Shanghainesisch, Sichuanesisch, Xi'anesisch und Min Nan.
Das Doubao-Sprachsynthesemodell wurde mit einer Streaming-Sprachsynthesefunktion verbessert, die Echtzeit-Reaktionen, präzise Satzzeichensetzung und „Denken und Sprechen“ gleichzeitig ermöglicht. Darüber hinaus hat Volcano Engine eine Echtzeit-Interaktionslösung für Conversational AI veröffentlicht. Diese Lösung integriert das Doubao-Sprachmodell und Echtzeit-Audio-Video-Technologie (RTC) und bietet eine End-to-End-Lösung für Echtzeit-Dialoge mit großen Sprachmodellen. Unternehmen können diese Echtzeit-Sprachfunktion einfach in ihre KI-Anwendungen integrieren. Benutzer können nicht nur mit KI sprechen, sondern auch wie im normalen Gespräch jederzeit unterbrechen oder einsteigen. Die verbesserte KI-Stimme verfügt über eine bessere Ausdruckskraft und emotionale Färbung, wodurch Dialoge natürlicher, authentischer und flüssiger werden und das interaktive Erlebnis mit großen Sprachmodellen verbessert wird.
Volcano Engine gab außerdem die Gründung einer Allianz für ein Retail-Sprachmodell zusammen mit Duoduo Mall bekannt. Ziel ist es, die intelligente Weiterentwicklung der Einzelhandelsbranche voranzutreiben und Innovationen zu beschleunigen. 18 Mitglieder nahmen an der Eröffnungszeremonie teil. Auch die Allianz für ein Automotive-Sprachmodell hat neue Mitglieder gewonnen, und Volcano Engine arbeitet mit den Mitgliedern der Allianz an der Definition der KI-Automobilbranche und der Veröffentlichung von Bewertungsstandards zusammen.