Im Bereich „KI + Social Media“ in China verleiht die Soul App dem Ganzen mit KI neuen Schwung!
Kürzlich gab Soul bekannt, sein Sprach-Großmodell erneut verbessert und ein selbstentwickeltes End-to-End-Vollduplex-Sprachgesprächs-Großmodell eingeführt zu haben.
Das beeindruckendste Ergebnis dieses Upgrades ist, dass Sprachgespräche zwischen Nutzern und virtuellen Personen genauso natürlich und flüssig ablaufen wie Gespräche mit echten Menschen!
Wie realistisch das ist, können Sie im folgenden Video sehen:
Beispiel für „Erlebnis eines Echtzeitgesprächs mit KI“ von offizieller Seite
Was also ist das Besondere an Souls selbstentwickeltem End-to-End-Sprachgesprächs-Großmodell? Laut offizieller Beschreibung sind die größten Highlights:
Sehr geringe Interaktionsverzögerung
Schnelles automatisches Unterbrechen
Äußerst realistische Sprachausgabe
Emotionale Wahrnehmungs- und Verständnisfähigkeit
Sehr geringe Interaktionsverzögerung bedeutet, dass die KI im Moment, in dem Sie sprechen, sofort reagiert, ohne Verzögerung. Die Distanz zwischen Ihnen und der KI wird sofort verringert. Für einen echten Austausch müssen Sie nicht warten, es ist wie ein Gespräch mit einer echten Person.
Souls Sprach-Großmodell unterstützt die Funktion des schnellen automatischen Unterbrechens. Das heißt, wenn Sie mit der KI kommunizieren und etwas dazwischen sagen möchten, versteht sie das sofort und lässt sich problemlos unterbrechen. Diese Interaktion ist sehr unterhaltsam!
Zusammen mit der äußerst realistischen Sprachausgabe und der emotionalen Wahrnehmungs- und Verständnisfähigkeit kann die KI nicht nur Ihre Worte verstehen, sondern auch Ihre Emotionen wahrnehmen und entsprechend reagieren.
In Anbetracht des von offizieller Seite gezeigten Beispielvideos könnten, wenn diese Funktion vollständig online geht, viele Nutzer auf Soul zwischen echten Menschen und KI-Avataren nicht mehr unterscheiden können.
Soul erklärte, dass das End-to-End-Sprachgesprächs-Großmodell derzeit in der „Otherworld Echo“-Echtzeit-Gesprächsszene (in der Testphase) eingesetzt wird und später auf mehrere KI-Begleit- und KI-Interaktionsszenarien wie KI-Goudan erweitert werden soll.
Es ist bekannt, dass Soul bereits 2020 mit der Entwicklung von AIGC-Technologien begonnen hat und sich auf die Entwicklung von Schlüsseltechnologien wie intelligente Dialoge, Sprachtechnologie und virtuelle Personen konzentriert und diese KI-Fähigkeiten tief in soziale Szenarien integriert hat.
Bei der KI-gestützten Verbesserung von sozialen Medien legt Soul besonderen Wert auf die Schaffung einer menschenähnlichen und natürlichen emotionalen Begleiterfahrung.
Um den Nutzern ein besseres emotionales Feedback und ein stärkeres Gefühl der Begleitung zu bieten, konzentriert sich das Soul-Technikteam kontinuierlich auf die Themen Emotionsverständnis und Verzögerung. Sie haben selbstentwickelte Sprachgenerierungs-Großmodelle, Spracherkennungs-Großmodelle, Sprachdialog-Großmodelle und Musikgenerierungs-Großmodelle entwickelt, die Funktionen wie die Erzeugung realer Stimmfarben, Sprach-DIY, mehrsprachige Umschaltung und mehrsprachige, emotionale, menschenähnliche Echtzeitgespräche unterstützen. Diese werden bereits in verschiedenen Szenarien von Soul eingesetzt, z. B. „KI-Goudan“, Echtzeit-Interaktion mit KI-Sprachfunktionen in „Werwolf-魅影“ und „Otherworld Echo“.
Die Einführung von Souls selbstentwickeltem End-to-End-Sprachgesprächs-Großmodell bedeutet, dass die Nutzer eine natürlichere Mensch-Maschine-Interaktion erleben können. Zukünftig plant Soul, die Entwicklung von multimodalen End-to-End-Großmodellen weiter voranzutreiben, um die Interaktion zwischen Mensch und KI interessanter und immersiver zu gestalten.