Das KI-Unternehmen Cartesia hat kürzlich ein Sprachumwandlungsmodell namens „Voice Changer“ veröffentlicht. Im Gegensatz zu herkömmlichen Sprachumwandlungen kann dieses Modell die Eingabesprache nicht nur in eine Zielstimme umwandeln, sondern auch den Tonfall, die Betonung und andere Ausdrucksmerkmale der Originalstimme beibehalten.

Laut Cartesia kann diese Funktion auf der Website play.cartesia.ai getestet werden. Das Unternehmen hat bereits die entsprechende API-Dokumentation unter docs.cartesia.ai veröffentlicht, wo Entwickler detaillierte Informationen finden können.

Wir haben festgestellt, dass diese Art der Umwandlungstechnik, die die Sprachmerkmale beibehält, auf dem Markt eher selten ist. Die meisten bestehenden Tools verlieren bei der Umwandlung von Stimmen oft die Stimmungsänderungen des Sprechers, was dazu führt, dass die umgewandelte Stimme eher mechanisch klingt.

Cartesia beschreibt die konkrete Implementierung dieser Technologie detailliert in seinem Blog. Zu möglichen ethischen Problemen, wie z. B. der Nachahmung von Stimmen ohne Erlaubnis, hat sich das Unternehmen jedoch noch nicht geäußert.