ByteDance und die SJTU präsentieren das neue Sprachmodell LSLM für simultanes Hören und Sprechen

Das von dem X-LANCE KI-Labor der Shanghai Jiao Tong Universität und ByteDance gemeinsam entwickelte LSLM (Listen-Speak Language Model) – ein Vollduplex-Sprachmodell – ermöglicht es KI-Assistenten, während des Gesprächs gleichzeitig zu hören und zu sprechen und so eine echte Echtzeit-Interaktion zu erzielen.

Wenn Sie gerade mit einem KI-Assistenten sprechen und Ihnen plötzlich eine wichtige Frage einfällt, müssen Sie nicht warten, bis er fertig ist. Sie können ihn direkt unterbrechen und Ihre Frage stellen. Der KI-Assistent versteht und antwortet sofort, so natürlich und flüssig wie ein Gespräch mit einem Menschen. Dies ist keine Science-Fiction mehr, sondern Realität.

Der Kernvorteil von LSLM liegt in seiner Fähigkeit, „gleichzeitig zu hören und zu sprechen“. Dieses innovative Modell kann nicht nur während des Sprechens Geräusche aus der Umgebung wahrnehmen, sondern unterstützt auch die Echtzeit-Sprachinteraktion und funktioniert selbst in lauter Umgebung einwandfrei. Es integriert geschickt die beiden Kanäle Hören und Sprechen und kann gleichzeitig Sprachinput verarbeiten und Sprachausgabe generieren.

Herkömmliche Sprachmodelle (SLM) können nur abwechselnd kommunizieren und sind nicht in der Lage, die spontanen Unterbrechungen in realen Sprachsituationen zu bewältigen. LSLM löst dieses Problem und ermöglicht einen natürlicheren Dialog zwischen KI und Mensch. Es verwendet ein token-basiertes Decoder-System für Text-zu-Sprache (TTS) in Kombination mit einem Stream-basierten, selbstüberwachten Lern-(SSL)-Encoder, um die Echtzeit-autoregressive Generierung und die Erkennung von Dialogwechseln zu ermöglichen.

Das Forschungsteam untersuchte drei Strategien: frühe, mittlere und späte Fusion. Die mittlere Fusion erzielte das beste Gleichgewicht zwischen Sprachgenerierung und Echtzeit-Interaktion. Durch zwei experimentelle Einstellungen, befehlsbasierte FDM und geräuschbasierte FDM, zeigte LSLM eine hohe Robustheit gegenüber Rauschen und eine hohe Empfindlichkeit gegenüber verschiedenen Anweisungen.

Noch überraschender ist, dass LSLM eine duale Kommunikationsfähigkeit erreicht, während der Einfluss auf bestehende Systeme minimal ist. Das bedeutet, dass es nahtlos in bestehende KI-Systeme integriert werden kann, um die Benutzererfahrung erheblich zu verbessern, ohne das gesamte Framework komplett neu gestalten zu müssen.

Die Anwendungsmöglichkeiten von LSLM sind sehr vielversprechend. In Zukunft werden Dialogsysteme, ob zu Hause, im Büro oder an öffentlichen Orten, in der Lage sein, natürlicher mit Menschen in Echtzeit zu kommunizieren. Dies wird nicht nur unsere Art der Kommunikation mit Maschinen verändern, sondern könnte auch die gesamte Mensch-Maschine-Interaktion neu gestalten.

In einer technischen Demonstration zeigte das Forschungsteam durch einen Vergleich von traditionellem TTS und LSLM in klaren und lauten Umgebungen die Vorteile von LSLM auf. Sie verdeutlichten auch durch Diagramme die Entwicklung von Sprachmodellen von Simplex über Halbduplex bis hin zu Vollduplex, um die Bedeutung dieses technologischen Durchbruchs anschaulicher zu machen.

Mit der zunehmenden Reife der LSLM-Technologie können wir erwarten, dass zukünftige KI-Assistenten den Benutzern ein reichhaltigeres, flüssigeres und menschlicheres interaktives Erlebnis bieten werden. Natürliche und zusammenhängende Gespräche mit einer KI könnten bald so einfach sein wie ein Gespräch mit einem Freund.

Diese Forschung ist nicht nur wissenschaftlich von großer Bedeutung, sondern eröffnet auch neue Möglichkeiten für die kommerzielle Anwendung von Sprachinteraktionstechnologien. Das Aufkommen von LSLM markiert den Eintritt in ein neues Zeitalter der KI-Interaktion, in dem die Grenzen zwischen Mensch und Maschine immer verschwommener werden und die Verschmelzung von Technologie und Menschlichkeit ein neues Niveau erreicht.

Projektseite: https://top.aibase.com/tool/lslm

KI-Nachrichten und -Informationen

ByteDance und die SJTU präsentieren das neue Sprachmodell LSLM für simultanes Hören und Sprechen

AIbase基地