SpeechGPT2
Ein vollumfängliches, menschenähnliches Sprachdialogmodell
Premium-NeuproduktChattenSprachdialogEmotionsausdruck
SpeechGPT2 ist ein End-to-End-Sprachdialogmodell, das von der Fakultät für Informatik der Fudan-Universität entwickelt wurde. Es kann Emotionen wahrnehmen und ausdrücken und bietet je nach Kontext und Anweisungen des Nutzers Sprachantworten in verschiedenen Stilen. Das Modell verwendet einen Sprachcodec mit extrem niedriger Bitrate (750 bps), simuliert semantische und akustische Informationen und wird durch ein Multi-Input-Multi-Output-Sprachmodell (MIMO-LM) initialisiert. Derzeit ist SpeechGPT2 noch ein dialogbasiertes System; eine Vollduplex-Echtzeitversion befindet sich in Entwicklung und zeigt vielversprechende Fortschritte. Aufgrund begrenzter Rechen- und Datenressourcen weist SpeechGPT2 jedoch noch Schwächen in Bezug auf die Rauschrobustheit des Sprachverständnisses und die Klangstabilität der Sprachgenerierung auf. Geplant ist die zukünftige Veröffentlichung des technischen Berichts, des Codes und der Modellgewichte als Open Source.
SpeechGPT2 Neueste Verkehrssituation
Monatliche Gesamtbesuche
536
Absprungrate
37.61%
Durchschnittliche Seiten pro Besuch
1.9
Durchschnittliche Besuchsdauer
00:00:31