Das auf XTTS und Tortoise basierende GPT-Stil Text-to-Speech (TTS)-Modell IndexTTS von Bilibili wurde offiziell veröffentlicht. Das System verfügt bei der Verarbeitung chinesischer Texte über eine einzigartige Fähigkeit zur Korrektur der Pinyin-basierten Aussprache von chinesischen Schriftzeichen und kann durch Satzzeichen an beliebiger Stelle präzise Pausen steuern. Diese innovative Technologie sorgt für eine natürlichere und flüssigere Text-to-Speech-Ausgabe und hat große Aufmerksamkeit erregt.

QQ_1740637228105.png

Das IndexTTS-System wurde mit Daten von mehreren zehntausend Stunden trainiert und erreicht branchenführende Leistung, die aktuelle beliebte TTS-Systeme wie XTTS, CosyVoice2, Fish-Speech und F5-TTS übertrifft. Mehrere Module des Systems wurden verbessert, insbesondere im Bereich der Sprecher-Bedingungs-Merkmalsdarstellung und der Audioqualitätsoptimierung. Durch die Einführung von Hybrid-Modellierung kann IndexTTS falsch gelesene Schriftzeichen schnell korrigieren und die Benutzerfreundlichkeit verbessern.

QQ_1740637247097.png

Das Modell verwendet einen neuesten bedingten Kodierer und einen auf BigVGAN2 basierenden Sprachdecoder, der nicht nur die Stabilität des Trainings verbessert, sondern auch die Ähnlichkeit und Qualität der Klangfarbe verstärkt. Das Team gab bekannt, dass es die entsprechende Arbeit auf arXiv eingereicht hat und plant, die Modellparameter und den Code in den nächsten Wochen zu veröffentlichen. Darüber hinaus bietet IndexTTS verschiedene Testdatensätze, darunter mehrsilbige Vokabeln sowie subjektive und objektive Bewertungssätze, die Forschern eine eingehende Analyse ermöglichen.

In mehreren Bewertungen zeigte IndexTTS eine hervorragende Leistung, insbesondere bei der Wortfehlerquote (WER) und der Sprecherähnlichkeit (SS), die viele vergleichbare Modelle übertraf. Beispielsweise lag die Wortfehlerquote von IndexTTS bei Mandarin-Tests bei nur 1,3 %, deutlich unter der Leistung anderer Modelle, was seine hohe Genauigkeit und Stabilität zeigt. Gleichzeitig erreichte die MOS-Bewertung von IndexTTS in der Klangqualitätsbewertung 4,01, was seine hervorragende Klangqualität und Klangfarbe demonstriert.

Mit dem technischen Fortschritt und der Erweiterung der Anwendungsszenarien markiert die Veröffentlichung von IndexTTS einen Schritt der Text-to-Speech-Technologie auf ein höheres Niveau. Weitere Informationen zu diesem System erhalten Benutzer, indem sie sich an das entsprechende Team wenden, um detaillierte Nutzungserfahrungen und technischen Support zu erhalten.

Projekt:https://github.com/index-tts/index-tts

Highlights:

🌟 IndexTTS ist ein GPT-Stil TTS-Modell, basierend auf XTTS und Tortoise, das die Aussprache chinesischer Schriftzeichen korrigieren und Pausen steuern kann.

📊 Das System wurde mit Daten von mehreren zehntausend Stunden trainiert und übertrifft mehrere bestehende beliebte TTS-Systeme und zeigt branchenführende Leistung.

🔍 IndexTTS zeigt in mehreren Bewertungen hervorragende Ergebnisse, sowohl bei der Wortfehlerquote als auch bei der Klangqualität, und übertrifft andere Modelle, was seine großen Vorteile zeigt.