SpeechGPT2

Ein vollumfängliches, menschenähnliches Sprachdialogmodell

Premium-NeuproduktChattenSprachdialogEmotionsausdruck
SpeechGPT2 ist ein End-to-End-Sprachdialogmodell, das von der Fakultät für Informatik der Fudan-Universität entwickelt wurde. Es kann Emotionen wahrnehmen und ausdrücken und bietet je nach Kontext und Anweisungen des Nutzers Sprachantworten in verschiedenen Stilen. Das Modell verwendet einen Sprachcodec mit extrem niedriger Bitrate (750 bps), simuliert semantische und akustische Informationen und wird durch ein Multi-Input-Multi-Output-Sprachmodell (MIMO-LM) initialisiert. Derzeit ist SpeechGPT2 noch ein dialogbasiertes System; eine Vollduplex-Echtzeitversion befindet sich in Entwicklung und zeigt vielversprechende Fortschritte. Aufgrund begrenzter Rechen- und Datenressourcen weist SpeechGPT2 jedoch noch Schwächen in Bezug auf die Rauschrobustheit des Sprachverständnisses und die Klangstabilität der Sprachgenerierung auf. Geplant ist die zukünftige Veröffentlichung des technischen Berichts, des Codes und der Modellgewichte als Open Source.
Website öffnen

SpeechGPT2 Neueste Verkehrssituation

Monatliche Gesamtbesuche

536

Absprungrate

37.61%

Durchschnittliche Seiten pro Besuch

1.9

Durchschnittliche Besuchsdauer

00:00:31

SpeechGPT2 Besuchstrend

SpeechGPT2 Geografische Verteilung der Besuche

SpeechGPT2 Traffic-Quellen