Das ByteDance Doubao-Großmodellteam hat kürzlich die Veröffentlichung von Multi-SWE-bench angekündigt, dem ersten branchenweiten Benchmark-Datensatz für die mehrsprachige Code-Reparatur. Dies stellt einen neuen Durchbruch für die Bewertung und Verbesserung der Fähigkeit von großen Modellen zur automatischen Fehlerbehebung dar.

Im Kontext der rasanten Entwicklung von Großmodellen ist die Codegenerierung zu einem entscheidenden Bereich geworden, um die Intelligenz der Modelle zu überprüfen. Code-Reparatur-Benchmarks wie SWE-bench können zwar die Programmierintelligenz von Modellen messen, weisen aber deutliche Einschränkungen auf. Sie konzentrieren sich ausschließlich auf Python und können die sprachübergreifende Generalisierungsfähigkeit von Modellen nicht bewerten. Die begrenzte Schwierigkeit der Aufgaben deckt komplexe Entwicklungsszenarien nicht ausreichend ab und hemmt die Weiterentwicklung der Code-Intelligenz von großen Modellen.

QQ20250410-143403.png

Bewertungsnoten für die Code-Fähigkeiten verschiedener Modelle

Multi-SWE-bench wurde entwickelt, um diese Einschränkungen zu überwinden. Es baut auf SWE-bench auf und umfasst erstmalig sieben gängige Programmiersprachen: Java, TypeScript, C, C++, Go, Rust und JavaScript. Es enthält 1632 Reparatur-Aufgaben aus echten Open-Source-Repositories. Diese Aufgaben wurden sorgfältig ausgewählt und manuell verifiziert, um eine hohe Qualität zu gewährleisten. Multi-SWE-bench führt außerdem eine Schwierigkeitseinstufung in einfach, mittel und schwer ein, um die Leistung von Modellen auf verschiedenen Fähigkeitsstufen umfassender zu bewerten.

Experimente mit diesem Datensatz zeigen, dass aktuelle große Sprachmodelle bei der Python-Reparatur eine akzeptable Leistung erbringen, die durchschnittliche Reparaturrate für andere Sprachen jedoch unter 10 % liegt. Dies unterstreicht, dass die mehrsprachige Code-Reparatur weiterhin eine große Herausforderung für große Modelle darstellt.

QQ20250410-143412.png

Einige gängige Modelle zeigen eine deutlich bessere Leistung in Python, während die Ergebnisse für andere Sprachen schlechter ausfallen. Die Reparaturrate sinkt zudem mit zunehmender Aufgabenschwierigkeit.

Um die Anwendung von Verstärkungslernen (Reinforcement Learning, RL) im Bereich der automatischen Programmierung zu unterstützen, veröffentlicht das Team gleichzeitig Multi-SWE-RL. Dieser enthält 4723 Instanzen und eine dazugehörige reproduzierbare Docker-Umgebung mit Funktionen wie One-Click-Start und automatischer Bewertung. Dies schafft eine standardisierte Datenbasis für das RL-Training. Darüber hinaus startet das Team ein Open-Source-Community-Programm und lädt Entwickler und Forscher ein, an der Erweiterung des Datensatzes und der Bewertung neuer Methoden mitzuwirken, um gemeinsam die Entwicklung des RL-for-Code-Ökosystems voranzutreiben.

Das ByteDance Doubao-Großmodellteam hofft, dass Multi-SWE-bench die automatische Programmiertechnik auf ein neues Niveau heben wird. Zukünftig wird der Umfang erweitert, um große Modelle im Bereich der „automatischen Softwareentwicklung“ weiter voranzubringen.