Im schnell wachsenden Podcast-Bereich hat die Plattform Podcastle kürzlich die Einführung ihres neuen KI-Text-zu-Sprache-Modells Asyncflow v1.0 angekündigt. Dieses neue Modell bietet Nutzern nicht nur über 450 verschiedene KI-Stimmen, sondern stellt Entwicklern auch eine API-Schnittstelle zur Verfügung, um diese Text-zu-Sprache-Funktion direkt in ihre eigenen Anwendungen zu integrieren.

QQ_1741058363798.png

Podcastles Gründer Arto Yeritsyan erklärte, dass das Unternehmen schon immer ein Text-zu-Sprache-Modell entwickeln wollte, dies aber aufgrund der in der Vergangenheit hohen Trainingskosten und des hohen Datenbedarfs nicht geschafft hatte. Mit den Fortschritten in der Technologie großer Sprachmodelle in den letzten Jahren gelang Podcastle jedoch im vergangenen Jahr der Durchbruch, sodass ein qualitativ hochwertiges Sprachmodell ohne große Datenmengen erstellt werden konnte. Yeritsyan fügte hinzu, dass die Forschung und Entwicklung von Podcastle durch eine Series-A-Finanzierung in Höhe von 13,5 Millionen US-Dollar im vergangenen Jahr unterstützt wurde, was die technologischen Innovationen erheblich sicherte.

Preislich liegt die Text-zu-Sprache-Dienstleistung von Podcastle bei etwa 40 US-Dollar für 500 Minuten, im Vergleich dazu verlangt der Konkurrent ElevenLabs 99 US-Dollar. Neben dem Text-zu-Sprache-Modell wurde auch die Sprachklonfunktion von Podcastle verbessert. Der Trainingsprozess wurde von zuvor 70 verschiedenen Sätzen, die vorgelesen werden mussten, auf jetzt nur noch wenige Sekunden Aufnahme verkürzt. Der neue Prozess nutzt die im letzten Jahr von Podcastle eingeführte Magic Dust KI-Technologie und verbessert die Audioaufnahmequalität deutlich.

In praktischen Tests klang die neu generierte Sprache zwar etwas roboterhaft, imitierte aber dennoch den Tonfall des Sprechers recht gut. Podcastle gibt an, dass diese Funktion mit der Zeit immer weiter verbessert wird und Benutzer auch durch verschiedene Aufnahmebeispiele unterschiedliche Soundeffekte trainieren können.

Yeritsyan betonte, dass Podcastle sich neben dem Kostenvorteil auch durch die Integration von Audio-, Video-, Podcast- und KI-gestützten Erzählwerkzeugen in eine neu gestaltete Website von der Konkurrenz abheben wird. Er erwähnte, dass die meisten Benutzer Podcastle zwar immer noch hauptsächlich zur Erstellung von Audioinhalten verwenden, der Bedarf an Videoproduktion aber stetig zunimmt.

Link:https://podcastle.ai/ai-voices

Wichtigste Punkte:

🌟 Podcastle bringt das Asyncflow v1.0-Modell heraus und bietet über 450 KI-Stimmen.

💰 Die Kosten für die Text-zu-Sprache-Funktion betragen 40 US-Dollar für 500 Minuten und liegen damit unter den Preisen der Konkurrenz.

🎤 Die Sprachklonfunktion wurde verbessert, die Trainingszeit wurde deutlich verkürzt und die Benutzerfreundlichkeit ständig optimiert.