Im Zuge der rasanten Entwicklung der künstlichen Intelligenz gewinnt die Sprachsynthese-Technologie zunehmend an Bedeutung. Kürzlich wurde auf der Hugging Face Plattform das neue Sprachsynthesemodell namens Kokoro veröffentlicht, das mit 82 Millionen Parametern einen wichtigen Meilenstein in diesem Bereich darstellt.

Kokoro v0.19 belegte in den Wochen vor seiner Veröffentlichung den ersten Platz in den Ranglisten des TTS-Bereichs (Text-to-Speech) und übertraf sogar Modelle mit mehr Parametern. Mit weniger als 100 Stunden Audiodaten in Mono-Einstellung erzielte das Modell vergleichbare Ergebnisse wie XTTS v2 mit 467 Millionen Parametern und MetaVoice mit 1,2 Milliarden Parametern. Dieser Erfolg deutet darauf hin, dass der Zusammenhang zwischen der Leistung traditioneller Sprachsynthesemodelle und der Anzahl der Parameter, der Rechenleistung und der Datenmenge möglicherweise stärker ist als bisher angenommen.

Zur Verwendung müssen Nutzer lediglich ein paar Codezeilen in Google Colab ausführen, um das Modell und die Sprachpakete zu laden und hochwertige Audiodaten zu generieren. Kokoro unterstützt derzeit amerikanisches und britisches Englisch und bietet verschiedene Sprachpakete zur Auswahl.

Für das Training von Kokoro wurden A100 80GB vRAM Instanzen von Vast.ai verwendet, deren Mietkosten relativ gering sind und einen effizienten Trainingsprozess gewährleisten. Das gesamte Modelltraining umfasste weniger als 20 Trainingsepochen und weniger als 100 Stunden Audiodaten. Für das Training von Kokoro wurden öffentlich zugängliche Audiodaten und Daten unter Open-Source-Lizenzen verwendet, um die Einhaltung der rechtlichen Bestimmungen zu gewährleisten.

Obwohl Kokoro in der Sprachsynthese hervorragende Ergebnisse erzielt, unterstützt es aufgrund der Einschränkungen der Trainingsdaten und der Architektur derzeit keine Sprachklonierung. Die Hauptmenge der Trainingsdaten konzentriert sich auf längere Lesungen und Erzählungen, nicht auf Dialoge.

Modell: https://huggingface.co/hexgrad/Kokoro-82M

Ausprobieren: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Wichtigste Punkte:

🌟 Kokoro-82M ist ein neu veröffentlichtes Sprachsynthesemodell mit 82 Millionen Parametern und Unterstützung für verschiedene Sprachpakete.  

🎤 Das Modell zeigt im TTS-Bereich hervorragende Leistungen, belegte bereits den ersten Platz in den Ranglisten und wurde mit weniger als 100 Stunden Audiodaten trainiert.  

📊 Für das Training von Kokoro wurden Daten unter Open-Source-Lizenzen verwendet, um die Konformität zu gewährleisten. Es gibt jedoch noch einige funktionale Einschränkungen.