Das Unternehmen iFlytek gab kürzlich die offizielle Einführung seines neuesten multimodalen interaktiven Großsprachmodells, iFlytek Starfire, bekannt. Dieser technologische Durchbruch markiert für iFlytek einen Übergang von der alleinigen Sprachinteraktion zu einer Echtzeit-Multimodalen Interaktion von Audio- und Videostreams.

Das neue Modell integriert Sprach-, visuelle und digitale menschliche Interaktionsfunktionen. Benutzer können diese drei Funktionen mit einem einzigen Befehl nahtlos kombinieren.

微信截图_20241115083401.png

Mit der Einführung des multimodalen interaktiven Großsprachmodells von iFlytek wurde erstmals eine hochrealistische digitale Mensch-Technologie eingeführt. Diese Technologie ermöglicht es dem digitalen Menschen, die Bewegungen von Rumpf und Gliedmaßen präzise mit dem Sprachinhalt abzustimmen, schnell Gesichtsausdrücke und Aktionen zu generieren und so die Lebendigkeit und Realitätsnähe der KI deutlich zu verbessern. Durch die Integration von Text, Sprache und Mimik kann das neue Modell eine modalitätsübergreifende semantische Konsistenz erreichen und so einen natürlicheren und kohärenteren Ausdruck von Emotionen ermöglichen.

微信截图_20241115083600.png

Darüber hinaus unterstützt iFlytek Starfire eine hochrealistische Hochgeschwindigkeits-Interaktionstechnologie. Durch die Verwendung eines einheitlichen neuronalen Netzwerks zur direkten End-to-End-Modellierung von Sprache zu Sprache wird eine schnellere und flüssigere Reaktionszeit erreicht. Diese Technologie kann emotionale Veränderungen präzise erfassen und die Geschwindigkeit, Lautstärke und Persönlichkeit der Stimme je nach Anweisung frei anpassen, um ein personalisierteres interaktives Erlebnis zu bieten.

Im Bereich der multimodalen visuellen Interaktion kann iFlytek Starfire die „Welt verstehen“ und „alles erkennen“. Es nimmt umfassend Informationen über den konkreten Hintergrund, den Logistikstatus usw. wahr, wodurch das Verständnis der Aufgaben präziser wird. Durch die Integration von Sprache, Gesten, Verhalten und Emotionen kann das Modell angemessene Antworten geben und den Benutzern ein reichhaltigeres und präziseres interaktives Erlebnis bieten.

Multimodales interaktives Großsprachmodell SDK: https://www.xfyun.cn/solutions/Multimodel