ElevenLabs, ein vielversprechendes Startup im Bereich der KI-gestützten Sprachklonierung und -generierung, hat kürzlich sein neuestes Sprach-zu-Text-Modell – Scribe v1 – vorgestellt. Das Modell soll in mehreren Sprachen höchste Genauigkeit erreichen und kann über die Website des Unternehmens getestet werden.

QQ_1740621264139.png

Laut den Benchmarks von ElevenLabs übertrifft Scribe bei der präzisen Umwandlung von Sprache in Text Modelle wie Googles Gemini 2.0 Flash, OpenAIs Whisper v3 und Deepgram Nova-3 mit einer beispiellos niedrigen Fehlerrate. Das Unternehmen gibt an, dass Scribe hochpräzise Transkriptionen in 99 Sprachen unterstützt, darunter auch bisher vernachlässigte Sprachen wie Serbisch, Kantonesisch und Malayalam.

Flavio Schneider, Chief Researcher bei ElevenLabs, erklärte auf X (früher Twitter), dass Scribe das „klügste Audio-Verständnismodell“ sei, das das Unternehmen bisher veröffentlicht habe. Er betonte, dass Scribe nicht nur ein Transkriptionstool ist, sondern auch Audioinhalte versteht. Es kann nicht-sprachliche Ereignisse (wie Lachen, Soundeffekte, Musik und Hintergrundgeräusche) erkennen und in komplexen Umgebungen lange Audioaufnahmen analysieren, um eine präzise Sprecherunterscheidung zu gewährleisten. Besonders hervorzuheben ist, dass Scribe bis zu 32 verschiedene Sprecher in einer einzigen Audiodatei identifizieren und trennen kann.

QQ_1740621326377.png

ElevenLabs weist darauf hin, dass Scribe „am besten für Anwendungen geeignet ist, die eine hohe Transkriptionsgenauigkeit erfordern, und nicht für Echtzeit-Transkriptionen“. Das Unternehmen plant auch die Einführung einer Version mit niedriger Latenz, um den Einsatz in Echtzeit-Anwendungen zu erweitern.

Basierend auf den Benchmark-Ergebnissen von FLEURS und Common Voice zeigt Scribe eine hervorragende Leistung bei der Bewältigung realer Herausforderungen bei Audioaufnahmen, insbesondere mit den niedrigsten Wortfehlerraten bei Italienisch (98,7% Genauigkeit) und Englisch (96,7% Genauigkeit).

Scribe ist jetzt über die Website und die API von ElevenLabs verfügbar. Der Preis beträgt 0,40 US-Dollar pro Stunde eingehender Audiodaten. In den nächsten sechs Wochen gibt es einen Rabatt von 50%. Eine Version mit niedriger Latenz für Echtzeit-Anwendungen befindet sich in der Entwicklung.

Für Unternehmensentscheider bietet Scribe ein skalierbares Werkzeug für hochpräzise Transkriptionen, das für Branchen geeignet ist, die eine Automatisierung der Dokumentation, die Transkription von Meetings und die Barrierefreiheit von Inhalten benötigen. Die hochpräzise Verarbeitung vieler Sprachen kommt auch multinationalen Unternehmen, Medienunternehmen und Kundensupport-Anwendungen zugute.

Es ist erwähnenswert, dass die Veröffentlichung von Scribe zeitgleich mit der Veröffentlichung des Text-zu-Sprache-Modells Octave von Wettbewerber Hume erfolgte. Octave ist ein auf großen Sprachmodellen basierendes Text-zu-Sprache-Tool, mit dem Benutzer KI-generierte Stimmen nach ihren emotionalen Bedürfnissen anpassen können. Es ist für die Erstellung von Inhalten wie Hörbüchern, Podcasts und Videospiel-Sprachsynchronisationen gedacht. Obwohl Scribe und Octave unterschiedliche Funktionen haben, spiegelt ihre gleichzeitige Veröffentlichung den zunehmenden Wettbewerb bei KI-gestützten Audiomodellen wider.

Produktseite: https://elevenlabs.io/blog/meet-scribe

Wichtigste Punkte:

🌟 Scribe v1 ist das neueste Sprach-zu-Text-Modell von ElevenLabs und erreicht in vielen Sprachen eine neue Höchstmarke bei der Genauigkeit.

🗣️ Unterstützt 99 Sprachen, kann bis zu 32 verschiedene Sprecher unterscheiden und ist für komplexe Audioumgebungen geeignet.

💰 Der aktuelle Preis beträgt 0,40 US-Dollar pro Stunde, mit 50% Rabatt in den nächsten sechs Wochen. Eine Version mit niedriger Latenz ist in Entwicklung.