Kürzlich hat die Doubao-Firma ihr brandneues Echtzeit-Sprachgroßmodell vorgestellt, das angeblich im Bereich der chinesischen Konversation einen „abrupten Vorsprung“ erzielt hat und eine deutliche Verbesserung der KI-Konversationsfähigkeiten markiert. Dieses Modell ist in der Doubao-App (Versionsnummer 7.2.0 Neujahrsversion) vollständig verfügbar und bietet Benutzern ein reichhaltigeres und realistischeres Sprachkommunikationserlebnis.

Laut Angaben realisiert Doubaos Echtzeit-Sprachgroßmodell eine tiefe Fusion von Sprachverständnis und -generierung und bildet ein End-to-End-Sprachkonversationssystem. Dieser technologische Durchbruch ermöglicht es dem Modell, in Bezug auf Sprachausdrucksfähigkeit, Kontrolle und emotionale Kontinuität hervorragende Leistungen zu erbringen. Es verfügt über eine geringe Latenz und die Möglichkeit, Unterhaltungen jederzeit zu unterbrechen, was die Interaktion der Benutzer erheblich verbessert. Das Unternehmen gibt an, dass die Technologie nicht nur in Bezug auf die „Intelligenz“, sondern auch auf die emotionale Intelligenz verbessert wurde und Emotionen besser verstehen und ausdrücken kann.

image.png

Dieses Update beinhaltet auch eine Echtzeit-Sprachtelefonie-Funktion. Diese Funktion basiert auf Doubaos neuestem Großmodell und kann in verschiedenen Szenarien das Gesprächstempo, Kinderworte, die Lautstärke und den Hauch flexibel anpassen. Darüber hinaus kann die neue Sprachfunktion verschiedene Stimmen imitieren, unterstützt Dialekte und Gespräche auf Englisch und verfügt sogar über die Fähigkeit, einige Lieder zu singen. All dies hebt den Realismus des Mensch-Maschine-Dialogs auf ein neues Niveau und erreicht fast den Punkt, an dem Mensch und Maschine kaum zu unterscheiden sind.

Das Doubao-Entwicklungsteam erklärt, dass diese neue Technologie auf einem End-to-End-Framework basiert und durch native Methoden eine tiefe Fusion von Sprache und Text für eine einheitliche Modellierung verwendet. Dieses Design optimiert nicht nur den Sprach-Erkennungs- und -Generierungsprozess, sondern verleiht der KI auch eine reichhaltigere „Seele“, so dass sie besser mit Menschen kommunizieren kann.

Die Einführung von Doubaos Echtzeit-Sprachgroßmodell im Bereich der chinesischen Sprachkonversation wird Benutzern ein beispielloses interaktives Erlebnis bieten und die Entwicklung intelligenter Sprachtechnologie vorantreiben.