Geely Auto hat kürzlich einen bedeutenden Durchbruch im Bereich der Sprachsynthese erzielt. Sein selbstentwickeltes HAM-TTS-Großmodell übertrifft das branchenführende VALL-E und hat die Aufmerksamkeit der Branche auf sich gezogen. Dieses als „Xing Rui“ (星睿) bekannte KI-Großmodell zeigt eine deutliche Verbesserung bei wichtigen Kennzahlen wie Aussprachegenauigkeit, Natürlichkeit und Sprecherähnlichkeit.
Das HAM-TTS-Modell verwendet eine tokenbasierte, null-shot-Text-zu-Sprache-Schicht-Akustikmodellierungstechnologie und verbessert die Benutzerinteraktion im intelligenten Cockpit erheblich. Unter den gleichen Bedingungen mit 400 Millionen Parametern ist die Zeichenfehlerquote des HAM-TTS-Modells um 1,5 % niedriger als bei VALL-E; bei der vollständigen Version mit 800 Millionen Parametern sinkt die Zeichenfehlerquote sogar auf 2,3 %. Bei der Stilkonsistenz, der Tonhöhenkonsistenz und der Gesamtbewertung erzielte das HAM-TTS-Modell eine deutliche Verbesserung von 10 %.
Die Vorteile des Xing Rui-Modells liegen nicht nur in den Leistungsindikatoren, sondern auch in seiner praktischen Anwendbarkeit. Es kann in verschiedenen Szenarien wie der Verknüpfung virtueller Avatare, der Sprachnavigation und der Nachrichtenübermittlung die Stimmstabilität des Sprechers aufrechterhalten und Ton, Intonation, Pausen und Emotionen situationsgerecht anpassen. Besonders erwähnenswert ist, dass das Modell zwischen verschiedenen Sprachen, einschließlich Dialekten und Fremdsprachen, nahtlos wechseln kann und nur eine 3-sekündige Eingabeprobe benötigt, um die Stimme zu reproduzieren – deutlich besser als die üblicherweise benötigten 10 Sekunden oder mehr in der Branche.
Das Geely-Team hat durch die Einführung der schichtweisen Akustikmodellierung die Modellleistung innovativ verbessert. Sie haben das Problem der ungenauen Aussprache gelöst und einen latenten Raumvariablen-Sequenzprädiktor und einen Text-Aligner eingeführt, um die Übereinstimmung zwischen Text und Ton genauer zu gestalten und so eine natürlichere und flüssigere Sprachsynthese zu ermöglichen.
Dieser Durchbruch zeigt nicht nur die Forschungs- und Entwicklungskapazitäten von Geely im Bereich intelligenter Technologien, sondern spiegelt auch seinen Ehrgeiz im KI-Bereich wider. Das Xing Rui KI-Großmodell-System von Geely wurde auf Multimodal-Großmodelle, Sprach-Großmodelle und andere Bereiche erweitert und bildet die Grundlage für intelligente Automobiltechnologien. Gleichzeitig hat sich die Cloud-Rechenleistung von Geely von 81 Trillionen Operationen pro Sekunde im letzten Jahr auf 102 Trillionen Operationen pro Sekunde erhöht, was die kontinuierlichen Investitionen in Technologie zeigt.
Nach dem anfänglichen Erfolg der Elektrifizierung bietet dieser Durchbruch von Geely im Bereich der Intelligenz neue Denkansätze und Möglichkeiten für die zukünftige Entwicklung der Automobilbranche. Dies definiert nicht nur unser Verständnis traditioneller Automobilhersteller neu, sondern deutet auch darauf hin, dass Intelligenz zum entscheidenden Wettbewerbsfeld der Automobilbranche der Zukunft werden wird.
论文地址/Paper-Adresse: https://arxiv.org/pdf/2403.05989