Spracherkennungstechnologie ist seit jeher ein Schwerpunktbereich der künstlichen Intelligenz. Die von ByteDance entwickelte Seed-ASR-Engine durchbricht nun grundlegend die Barrieren von Sprache und Dialekt und verleiht dieser Technologie neue Impulse.

Seed-ASR wurde mit über 20 Millionen Stunden Sprachdaten und fast 900.000 Stunden gepaarter Daten trainiert und zeigt eine herausragende Erkennungsleistung. Es erkennt nicht nur Mandarin präzise, sondern transkribiert auch 13 chinesische Dialekte und 7 Fremdsprachen, einschließlich Englisch mit verschiedenen Akzenten. Dies eröffnet zweifellos neue Möglichkeiten für die sprachübergreifende Kommunikation.

Der entscheidende Vorteil von Seed-ASR liegt in seiner hervorragenden Kontextbewusstsein. Es kann historische Gesprächsprotokolle, Sitzungsprotokolle usw. einbeziehen, um Personennamen, Ortsnamen und Schlüsselwörter genauer zu erkennen. Dies führt zu besonders guten Ergebnissen in bestimmten Szenarien und erhöht die Erkennungsgenauigkeit erheblich.

image.png

Ob einfache Alltagsgespräche oder komplexe Konferenzdiskussionen – Seed-ASR meistert alles mit Leichtigkeit. Selbst bei mehreren Sprechern oder Hintergrundgeräuschen transkribiert es den Inhalt präzise. Bei der Verarbeitung von Video- und Livestream-Sprachen passt es sich an verschiedene Audioqualitäten und Umgebungen an.

Seed-ASR erkennt auch Fachbegriffe aus verschiedenen Bereichen, darunter Medizin, Technologie, Automobil und sogar Musik. Dies macht es zu einem herausragenden Werkzeug für intelligente Assistenten und Sprachsuchfunktionen und verbessert die Benutzererfahrung erheblich.

Projektseite: https://bytedancespeech.github.io/seedasr_tech_report/