In der Welt der Softwareentwicklung ist die Fehlerbehebung oft ein Kopfzerbrechen. Nun gibt es gute Nachrichten vom Doubao-Großmodellteam von ByteDance: Sie haben den ersten mehrsprachigen Software Engineering (SWE)-Datensatz – Multi-SWE-bench – veröffentlicht. Dieser neue Datensatz soll die Fähigkeit großer Modelle zur automatischen Behebung von Codefehlern bewerten und verbessern.
Multi-SWE-bench erweitert den Anwendungsbereich im Vergleich zu bisherigen einsprachigen Datensätzen deutlich. Der Datensatz umfasst nicht nur Python, sondern auch sieben weitere gängige Programmiersprachen: Java, Go, Rust, C, C++, TypeScript und JavaScript. Dies ermöglicht einen echten „Full-Stack-Engineering“-Benchmark. Entwickler profitieren also unabhängig von ihrer verwendeten Sprache.
Die Erstellung des Datensatzes ist ebenfalls erwähnenswert. Multi-SWE-bench enthält 1632 reale Programmierbeispiele, die alle aus GitHub-Feedback stammen. Um die Qualität zu gewährleisten, wurden diese Beispiele einheitlichen Teststandards und einer Überprüfung durch professionelle Entwickler unterzogen. So wird sichergestellt, dass jedes Beispiel eine klare Problembeschreibung, einen funktionierenden Fehlerbehebungspatch und eine reproduzierbare Testumgebung aufweist.
Das Doubao-Großmodellteam hofft, dass dieser neue Datensatz die systematische Bewertung großer Modelle in verschiedenen gängigen Programmiersprachen und realen Codeumgebungen vorantreibt und so deren automatische Programmierfähigkeit verbessert und sie in Richtung einer praxisnahen und ingenieurmäßigen Entwicklung lenkt. Diese Bemühungen sparen Entwicklern nicht nur Zeit, sondern verbessern auch die Effizienz und Qualität der Softwareentwicklung.
In der Praxis ist die Fehlerbehebung nicht nur ein technisches Problem, sondern beeinflusst auch den Projektfortschritt und die Teammotivation. Daher könnte die Einführung von Multi-SWE-bench ein entscheidender Schritt für die automatisierte Softwareentwicklung der Zukunft sein.
Dieser neue Datensatz von ByteDance markiert einen wichtigen Schritt in der Technologie zur automatischen Codekorrektur und verspricht Entwicklern große Vorteile.