Hume AI, ein Startup-Unternehmen, das sich auf emotionale Sprachschnittstellen konzentriert, hat kürzlich eine experimentelle Funktion namens „Sprachsteuerung“ vorgestellt.

Dieses neue Tool soll Entwicklern und Nutzern ermöglichen, personalisierte KI-Stimmen zu kreieren, ohne Programmierkenntnisse, KI-Prompt-Engineering oder Sounddesign-Kenntnisse zu benötigen. Benutzer können die Stimmeigenschaften präzise einstellen und so ganz einfach eine ihren Bedürfnissen entsprechende Stimme anpassen.

image.png

Diese neue Funktion baut auf der zuvor eingeführten „Empathischen Sprachschnittstelle 2“ (EVI2) des Unternehmens auf, welche die Natürlichkeit, emotionale Reaktionsfähigkeit und Anpassbarkeit der Sprache verbessert. Im Gegensatz zu herkömmlichen Sprachklontechnologien konzentriert sich Hume darauf, einzigartige und ausdrucksstarke Stimmen bereitzustellen, um die Anforderungen verschiedener Anwendungen zu erfüllen, darunter Kundenservice-Chatbots, digitale Assistenten, Lehrer, Reiseleiter und Barrierefreiheitsfunktionen.

Die Sprachsteuerungsfunktion ermöglicht es Entwicklern, die Stimmeigenschaften in zehn verschiedenen Dimensionen anzupassen, darunter Geschlecht, Entschlossenheit, Begeisterung, Selbstvertrauen usw.

„Männlich/Weiblich: Die Stimmgebung des Geschlechts, im Bereich zwischen männlicher und weiblicher Stimme.

Selbstvertrauen: Die Festigkeit der Stimme, zwischen zaghaft und selbstbewusst.

Auftrieb: Die Dichte der Stimme, zwischen kraftlos und schwimmfähig.

Zutrauen: Die Bestimmtheit der Stimme, zwischen schüchtern und selbstbewusst.

Begeisterung: Die Aufregung in der Stimme, zwischen ruhig und begeistert.

Nasalität: Die Offenheit der Stimme, zwischen klar und nasal.

Entspannung: Der Druck in der Stimme, zwischen angespannt und entspannt.

Glattheit: Die Textur der Stimme, zwischen glatt und abgehackt.

Sanftheit: Die Kraft hinter der Stimme, zwischen sanft und kraftvoll.

Enge: Die Enge der Stimme, zwischen eng und atemlos.“

Benutzer können diese Attribute über virtuelle Schieberegler in Echtzeit feinabstimmen, was die Anpassung einfach und übersichtlich macht. Die Funktion ist derzeit auf der virtuellen Plattform von Hume verfügbar und kann nach kostenloser Registrierung genutzt werden.

Die Sprachsteuerung wurde in einer Testversion veröffentlicht und ist in die Empathic Voice Interface (EVI) von Hume integriert, wodurch sie für eine breite Palette von Anwendungen eingesetzt werden kann. Entwickler können eine Basisstimme auswählen, deren Eigenschaften anpassen und das Ergebnis in Echtzeit vorhören. Dieser Prozess stellt die Wiederholbarkeit und Stabilität zwischen den Konversationen sicher, eine entscheidende Funktion für Echtzeit-Anwendungen wie Kundenservice-Roboter oder virtuelle Assistenten.

Der Einfluss von EVI2 auf die Sprachsteuerungsfunktion ist deutlich sichtbar. Frühere Modelle führten Funktionen wie Konversationshinweise und mehrsprachige Funktionen ein, die den Anwendungsbereich von Sprach-KI erweitert haben. Beispielsweise unterstützt EVI2 Reaktionszeiten im Subsekundenbereich und ermöglicht so natürliche, sofortige Konversationen. Es erlaubt auch die dynamische Anpassung des Sprechstils während der Interaktion, was es zu einem vielseitigen Werkzeug für Unternehmen macht.

Dieser Schritt zielt darauf ab, das Problem der Abhängigkeit von voreingestellten Stimmen in der KI-Branche zu lösen, da viele Marken oder Anwendungen oft Schwierigkeiten haben, Stimmen zu finden, die ihren Anforderungen entsprechen. Hume hat sich zum Ziel gesetzt, emotional nuancierte Sprach-KIs zu entwickeln und so den Fortschritt der Branche voranzutreiben. EVI2, das im September 2024 veröffentlicht wurde, verbesserte bereits die Latenz und Wirtschaftlichkeit der Sprache erheblich und bot eine sichere Alternative für die Sprachregelung.

Humes forschungsgetriebene Methode spielt eine zentrale Rolle in der Produktentwicklung und kombiniert interkulturelle Sprachaufnahmen mit Daten aus Emotionsstudien. Diese Methodik bildet die Grundlage von EVI2 und der neu vorgestellten Sprachsteuerung und ermöglicht eine feinfühlige Erfassung der menschlichen Wahrnehmung von Sprache.

Derzeit ist die Sprachsteuerung in der Testversion verfügbar und in die Empathische Sprachschnittstelle (EVI) von Hume integriert und unterstützt verschiedene Anwendungsszenarien. Entwickler können eine Basisstimme auswählen, ihre Eigenschaften anpassen und das Ergebnis in Echtzeit vorhören, um die Konsistenz und Stabilität in Echtzeit-Anwendungen wie Kundenservice oder virtuelle Assistenten sicherzustellen.

Mit dem zunehmenden Wettbewerb auf dem Markt hebt sich Hume durch seine personalisierten Sprach- und emotional intelligenten Funktionen im Bereich der Sprach-KI hervor. Zukünftig plant Hume, die Funktionen der Sprachsteuerung zu erweitern, die Anzahl der einstellbaren Dimensionen zu erhöhen, die Klangqualität zu optimieren und die Auswahl an Basisstimmen zu erweitern.

Offizieller Blog: https://www.hume.ai/blog/introducing-voice-control

Wichtigste Punkte:

🔊 **Hume AI hat die Funktion „Sprachsteuerung“ eingeführt, mit der Benutzer ganz einfach personalisierte KI-Stimmen erstellen können.**

🛠️ **Die Funktion benötigt keine Programmierkenntnisse. Benutzer können die Stimmeigenschaften über Schieberegler anpassen.**

🌐 **Hume zielt darauf ab, die vielfältigen Anwendungsanforderungen durch personalisierte und emotional intelligente Sprach-KIs zu erfüllen.**