Am 13. März veröffentlichte die Firma Sesame ihr neuestes Sprachsynthesemodell CSM, das große Aufmerksamkeit in der Branche erregte. Laut offiziellen Angaben verwendet CSM eine End-to-End-Architektur mit multimodalem Lernen basierend auf Transformer, um Kontextinformationen zu verstehen und natürliche, gefühlvolle Sprache zu generieren. Der Klang ist verblüffend realistisch.

Das Modell unterstützt die Echtzeit-Sprachgenerierung und kann Text- und Audioeingaben verarbeiten. Benutzer können durch Anpassung von Parametern Eigenschaften wie Tonfall, Intonation, Rhythmus und Emotionen steuern und so eine hohe Flexibilität erreichen.

CSM gilt als wichtiger Durchbruch in der KI-Sprachtechnologie. Die Natürlichkeit der Sprache ist so hoch, dass man sie „kaum von menschlicher Sprache unterscheiden kann“. Ein Benutzer hat ein Video aufgenommen, das die nahezu verzögerungsfreie Leistung von CSM zeigt und es als „das beste Modell, das ich je erlebt habe“ bezeichnet. Zuvor hatte Sesame bereits eine kleinere Version, CSM-1B, Open Source zur Verfügung gestellt, die die Generierung zusammenhängender Sprache in mehrstufigen Dialogen unterstützt und breite Anerkennung gefunden hat.

Derzeit ist CSM hauptsächlich für Englisch trainiert und liefert hervorragende Ergebnisse, aber die Unterstützung mehrerer Sprachen ist noch begrenzt. Derzeit wird Chinesisch nicht unterstützt, aber eine zukünftige Erweiterung wird erwartet.

Sesame hat angekündigt, Teile der Forschungsergebnisse Open Source bereitzustellen. Community-Entwickler diskutieren bereits auf GitHub über das Potenzial von CSM. CSM eignet sich nicht nur für dialogorientierte KI, sondern könnte auch die Sprachinteraktionserfahrung in Bereichen wie Bildung und Unterhaltung revolutionieren. Branchenexperten sind der Meinung, dass CSM die Standards für KI-Sprachassistenten neu definieren und natürlichere Mensch-Maschine-Dialoge ermöglichen könnte.