Kürzlich haben das LANCE-Labor der Shanghai Jiao Tong Universität und ByteDance gemeinsam ein neues interaktives Sprachmodell namens LSLM vorgestellt. Dieses Modell kann angeblich gleichzeitig zuhören und sprechen und erzielt dabei sehr gute Ergebnisse, die sich einer natürlichen menschlichen Konversation annähern.

LSLM, auch bekannt als „kleines L“, behebt die Einschränkungen bestehender Sprachmodelle in Bezug auf Echtzeitinteraktion, Rauschunterdrückung und die Erkennung unbekannter Sprecher und ermöglicht so eine natürlichere Konversation. Es verwendet ein End-to-End-Design mit zwei Kanälen für Hören und Sprechen, wobei die Sprachgenerierung über einen Decoder-only TTS erfolgt und ein Streaming-Self-Supervised-Learning (SSL)-Encoder zur Echtzeitverarbeitung von Audioeingaben verwendet wird.

„Kleines L“ zeichnet sich durch folgende einzigartige Merkmale aus: Vollduplex-Modellierung (FDM), die gleichzeitiges Hören und Sprechen ermöglicht und Unterbrechungen und Wechsel im Gespräch erlaubt; hohe Rauschunterdrückung, die auch in lauten Umgebungen Stabilität gewährleistet und sich an verschiedene reale Szenarien anpasst; hohe Empfindlichkeit gegenüber unbekannten Sprechern, wodurch neue Stimmen und Anweisungen erkannt und darauf reagiert werden kann und sich das Modell an verschiedene Benutzer anpasst.

Projektdetails: https://ziyang.tech/LSLM/

Forschungsarbeit: https://arxiv.org/abs/2408.02622