Sprachassistenten werden zunehmend zu einem unverzichtbaren Bestandteil unseres Lebens. Bestehende digitale Sprachassistenten wirken im Umgang mit Nutzern jedoch oft fade und mangeln an emotionalen und menschlichen Elementen. Das Sesame-Team arbeitet intensiv an der Lösung dieses Problems und konzentriert sich auf ein neuartiges Konzept der „sprachlichen Präsenz“, um digitale Assistenten im Austausch authentischer, verständlicher und wertvoller zu machen.
Das Kernziel von Sesame ist die Schaffung eines digitalen Begleiters, der nicht nur Anfragen bearbeitet, sondern ein Partner für echte Gespräche ist. Diese digitalen Begleiter sollen durch Interaktion mit den Nutzern Vertrauen und Sicherheit aufbauen und so zu einem reichhaltigeren und tiefergehenden Austausch im Alltag beitragen. Das Sesame-Team konzentriert sich dabei auf einige wichtige Komponenten: emotionale Intelligenz, Dialogdynamik, Kontextbewusstsein und eine konsistente Persönlichkeit.
Emotionale Intelligenz ermöglicht es dem Sprachassistenten, die emotionalen Zustände des Nutzers zu verstehen und darauf zu reagieren. Es geht nicht nur um das Verstehen von Sprachbefehlen, sondern auch um das Erkennen emotionaler Veränderungen in der Stimme, um angemessener reagieren zu können. Die Dialogdynamik betont den natürlichen Rhythmus des Sprachassistenten im Austausch, einschließlich angemessener Pausen, Betonungen und Unterbrechungen, um den Dialog flüssiger und natürlicher zu gestalten.
Kontextbewusstsein ist ebenfalls entscheidend. Es erfordert, dass der Sprachassistent den Hintergrund und die Geschichte des Dialogs berücksichtigt und Ton und Stil entsprechend anpasst. Diese Fähigkeit ermöglicht es dem digitalen Assistenten, in verschiedenen Situationen angemessen zu reagieren und die Nutzerzufriedenheit zu steigern. Eine konsistente Persönlichkeit bedeutet schließlich, dass der Sprachassistent in allen Gesprächen eine relativ einheitliche Persönlichkeit und einen einheitlichen Stil beibehält, um das Vertrauen der Nutzer zu stärken.
Die Umsetzung des Ziels der „sprachlichen Präsenz“ ist jedoch keine leichte Aufgabe. Das Sesame-Team hat in Bereichen wie Persönlichkeit, Gedächtnis, Ausdrucksfähigkeit und Angemessenheit stetig Fortschritte erzielt. Kürzlich präsentierte das Team experimentelle Ergebnisse zur Dialog-Spracherzeugung, insbesondere im Hinblick auf Freundlichkeit und Ausdruckskraft, und unterstrich damit das Potenzial seiner Methode.
Auf technischer Ebene hat das Sesame-Team eine neue Methode namens „Conversation Speech Model“ (CSM) entwickelt, um die Schwächen traditioneller Text-to-Speech (TTS)-Modelle zu beheben. Diese Methode nutzt eine Transformer-Architektur, um eine natürlichere und kohärentere Spracherzeugung zu ermöglichen. CSM verarbeitet nicht nur multimodalen Input aus Text und Audio, sondern passt die Ausgabe auch an den Verlauf des Dialogs an, um die Schwächen traditioneller Modelle beim Kontextverständnis zu beheben.
Zur Überprüfung der Modellwirkung nutzte das Sesame-Team umfangreiche öffentlich zugängliche Audiodaten zum Training und bereitete die Trainingsbeispiele durch Transkription und Segmentierung vor. Sie trainierten Modelle unterschiedlicher Größe und erzielten gute Ergebnisse bei objektiven und subjektiven Bewertungsmetriken. Obwohl die Modelle in Bezug auf Natürlichkeit und Sprachanpassung bereits ein nahezu menschliches Niveau erreicht haben, besteht in konkreten Dialogsituationen noch Verbesserungsbedarf.
Die von der offiziellen Seite bereitgestellten Beispiele klingen fast ohne jeglichen AI-Beigeschmack, super realistisch.
Das Sesame-Team plant, seine Forschungsergebnisse Open Source bereitzustellen, damit die Community an Experimenten und Verbesserungen mitwirken kann. Diese Maßnahme soll nicht nur die Entwicklung von Dialog-KI beschleunigen, sondern auch durch die Erweiterung der Modellgröße und der Sprachsupport mehr Anwendungsszenarien abdecken. Darüber hinaus plant das Team, die Nutzung von vortrainierten Sprachmodellen zu untersuchen, um die Grundlage für den Aufbau multimodaler Modelle zu schaffen.
Projekt-Demo:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Wichtigste Punkte:
🌟 Das Sesame-Team arbeitet an der Umsetzung von „sprachlicher Präsenz“, damit digitale Assistenten nicht nur Befehle ausführen, sondern auch echte Gespräche führen können.
🔧 Mit dem „Conversation Speech Model“ (CSM) hat das Team neue Fortschritte im Kontextverständnis und in der Spracherzeugung erzielt.
🌐 Das Team plant, die Forschungsergebnisse Open Source bereitzustellen und die Sprachsupport zu erweitern, um die Weiterentwicklung der Dialog-KI voranzutreiben.