Blitzschnelles Text-to-Speech-Modell Lightning: extrem niedrige Latenz, 10 Sekunden Audio in 100 Millisekunden

Das in San Francisco, Kalifornien, ansässige KI-Startup smallest.ai hat kürzlich sein neues Produkt Lightning vorgestellt, ein Text-to-Speech (TTS)-Modell, das innerhalb von 100 Millisekunden bis zu 10 Sekunden Audio generieren kann. Dieser technologische Fortschritt ermöglicht es Entwicklern weltweit, hochrealistische Sprachroboter-Anwendungen mit minimaler Latenz zu erstellen, wodurch die Implementierungskosten gesenkt und die Zugänglichkeit der Anwendungen verbessert werden.

Lightning unterstützt derzeit mehrere Akzente für Englisch und Hindi. Das Team plant, schnell weitere Sprachen hinzuzufügen, um die Marktbedürfnisse zu erfüllen. Das Modell ist mit 0,02 US-Dollar pro Minute (ca. 1,6 indische Rupien) preiswert und bietet Sprachroboter-Entwicklern eine äußerst kostengünstige Lösung. Die Betriebskosten der Anwendung können auf unter 1 Rupie pro Minute begrenzt werden, was die Kosten für die Erstellung von Sprachrobotern deutlich senkt und die Marktreichweite erweitert.

Im Gegensatz zu herkömmlichen TTS-Modellen, die auf Streaming und Netzwerk-Sockets angewiesen sind und die Serverbelastung und die Skalierbarkeit komplexer gestalten, verwendet Lightning eine einfache REST-API-Architektur, wodurch die Audioausgabe in etwa 100 Millisekunden erfolgt und der Serverdruck durch kontinuierliches Streaming vermieden wird. Diese schnelle Verarbeitungsgeschwindigkeit und Kosteneffizienz machen es zu einer attraktiven Alternative in der Sprachroboterbranche.

Die wichtigsten Funktionen von Lightning lassen sich wie folgt zusammenfassen:

1. Geschwindigkeit und Effizienz. Als weltweit schnellstes Text-to-Speech-Modell generiert Lightning innerhalb von 100 Millisekunden 10 Sekunden hochrealistisches Audio und ermöglicht so eine Echtzeit-Sprachsynthese, die den Anforderungen an schnelle Reaktionszeiten gerecht wird.

2. Kompaktheit und Kompatibilität. Mit einem Bedarf von weniger als 1 GB Grafikspeicher ist das Modell klein und kann auf den meisten Consumer- und Edge-Geräten problemlos ausgeführt werden, wodurch die Hardwareanforderungen reduziert werden.

3. Mehrsprachige Unterstützung. Unterstützung für mehrere Sprachen und Akzente. Derzeit werden mehrere Akzente für Englisch und Hindi unterstützt, und es ist geplant, schnell weitere Sprachen hinzuzufügen, um die Bedürfnisse der globalen Nutzer zu erfüllen.

4. Hohe Anpassbarkeit. Style Diffusion. Mittels spezieller Style Diffusion kann der Audiostil nach den Bedürfnissen des Benutzers angepasst werden, um eine natürlichere und emotionalere Stimme zu erzeugen.

5. Einfache Integration. REST-API-Integration. Eine einfache REST-API-Schnittstelle ermöglicht es Entwicklern, das Lightning-Modell schnell in bestehende Systeme zu integrieren und komplexe WebSocket-Verbindungen zu vermeiden.

6. Günstige Preise. Der Einstiegspreis beträgt 0,04 US-Dollar pro Minute und ist für Unternehmen jeder Größe geeignet. Für Unternehmen mit hohem Nutzungsverbrauch werden maßgeschneiderte Preismodelle angeboten.

smallest.ai wurde von den Absolventen des Indian Institute of Technology Guwahati, Sudarshan Kamath und Akshat Mandloi, gegründet. Kamath erklärt die niedrige Preisstrategie von smallest.ai mit dem Fokus auf Datenqualität und Modelleffizienz: „Unsere Modelle sind viel kleiner als die der Konkurrenz, z. B. ElevenLabs, aber wir erzielen durch hochraffinierte Daten eine hochwertige Sprachausgabe.“

Sprachroboter-Entwickler, die frühzeitig Zugriff auf Lightning hatten, berichten von einer 8-fachen Senkung ihrer Betriebskosten bei gleichzeitiger Verbesserung der Audioqualität. Neben Echtzeit-Sprachroboter-Anwendungen kann Lightning auch für die Erstellung von Hörbüchern und die Sprachausgabe von Social-Media-Inhalten auf Plattformen wie Instagram und YouTube verwendet werden. Auch Nicht-Entwickler können über die Waves Speech-Plattform auf Lightning zugreifen und Funktionen wie Sound Cloning und Akzentumwandlung nutzen, die sich derzeit in der Testphase befinden.

In einem exklusiven Interview mit dem „Analyse India Magazine“ sagte Kamath: „Als wir mit dem Aufbau begannen, wurde uns klar, dass die für bestehende Sprachroboter benötigten Modelle für indische Sprachen noch nicht ausgereift waren. Bestehende Modelle für nicht-englische Sprachen erfüllten die Produktionsanforderungen einfach nicht.“

Im Juni dieses Jahres stellte smallest.ai auch das AWAAZ-Modell vor, das das Klonen von Stimmen anhand kurzer Audioclips ermöglicht und wettbewerbsfähige Preise bietet. Dieses Modell zielt darauf ab, skalierbare Anwendungen für regionale Sprachmärkte zu ermöglichen und unternehmensweite Sicherheit und Compliance zu gewährleisten. Auf die Frage nach seiner Mission sagte Kamath: „Warum kommunizieren nicht Milliarden von Menschen täglich mit KI-Sprachassistenten, obwohl die Sprach-KI-Technologie enorme Fortschritte gemacht hat? Das ist das Problem, das wir zu lösen versuchen.“

Projektseite: https://smallest.ai/blog/lightning-fast-text-to-speech

Wichtigste Punkte:
🌟 Das Lightning Text-to-Speech-Modell generiert Audio innerhalb von 100 Millisekunden und unterstützt mehrere Akzente für Englisch und Hindi. Weitere Sprachen werden in Zukunft hinzugefügt.
💰 Mit nur 0,02 US-Dollar pro Minute werden die Betriebskosten für Sprachroboter-Entwickler deutlich reduziert.
📱 Lightning eignet sich nicht nur für Sprachroboter, sondern auch für Hörbücher und die Sprachausgabe von Social-Media-Inhalten und ist sowohl für Entwickler als auch für Nicht-Entwickler einfach zu verwenden.

KI-Nachrichten und -Informationen

Blitzschnelles Text-to-Speech-Modell Lightning: extrem niedrige Latenz, 10 Sekunden Audio in 100 Millisekunden

AIbase基地