KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

Al hardware

die artillerie der artillerie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation

ByteDance veröffentlicht Multi-SWE-bench Open Source: Ein Schritt zur intelligenten Verbesserung von Code für große Modelle

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Apr 10, 2025

Das ByteDance Doubao-Großmodellteam hat kürzlich die Veröffentlichung von Multi-SWE-bench angekündigt, dem ersten branchenweiten Benchmark-Datensatz für die mehrsprachige Code-Reparatur. Dies stellt einen neuen Durchbruch für die Bewertung und Verbesserung der Fähigkeit von großen Modellen zur automatischen Fehlerbehebung dar.

Im Kontext der rasanten Entwicklung von Großmodellen ist die Codegenerierung zu einem entscheidenden Bereich geworden, um die Intelligenz der Modelle zu überprüfen. Code-Reparatur-Benchmarks wie SWE-bench können zwar die Programmierintelligenz von Modellen messen, weisen aber deutliche Einschränkungen auf. Sie konzentrieren sich ausschließlich auf Python und können die sprachübergreifende Generalisierungsfähigkeit von Modellen nicht bewerten. Die begrenzte Schwierigkeit der Aufgaben deckt komplexe Entwicklungsszenarien nicht ausreichend ab und hemmt die Weiterentwicklung der Code-Intelligenz von großen Modellen.

Bewertungsnoten für die Code-Fähigkeiten verschiedener Modelle

Multi-SWE-bench wurde entwickelt, um diese Einschränkungen zu überwinden. Es baut auf SWE-bench auf und umfasst erstmalig sieben gängige Programmiersprachen: Java, TypeScript, C, C++, Go, Rust und JavaScript. Es enthält 1632 Reparatur-Aufgaben aus echten Open-Source-Repositories. Diese Aufgaben wurden sorgfältig ausgewählt und manuell verifiziert, um eine hohe Qualität zu gewährleisten. Multi-SWE-bench führt außerdem eine Schwierigkeitseinstufung in einfach, mittel und schwer ein, um die Leistung von Modellen auf verschiedenen Fähigkeitsstufen umfassender zu bewerten.

Experimente mit diesem Datensatz zeigen, dass aktuelle große Sprachmodelle bei der Python-Reparatur eine akzeptable Leistung erbringen, die durchschnittliche Reparaturrate für andere Sprachen jedoch unter 10 % liegt. Dies unterstreicht, dass die mehrsprachige Code-Reparatur weiterhin eine große Herausforderung für große Modelle darstellt.

Einige gängige Modelle zeigen eine deutlich bessere Leistung in Python, während die Ergebnisse für andere Sprachen schlechter ausfallen. Die Reparaturrate sinkt zudem mit zunehmender Aufgabenschwierigkeit.

Um die Anwendung von Verstärkungslernen (Reinforcement Learning, RL) im Bereich der automatischen Programmierung zu unterstützen, veröffentlicht das Team gleichzeitig Multi-SWE-RL. Dieser enthält 4723 Instanzen und eine dazugehörige reproduzierbare Docker-Umgebung mit Funktionen wie One-Click-Start und automatischer Bewertung. Dies schafft eine standardisierte Datenbasis für das RL-Training. Darüber hinaus startet das Team ein Open-Source-Community-Programm und lädt Entwickler und Forscher ein, an der Erweiterung des Datensatzes und der Bewertung neuer Methoden mitzuwirken, um gemeinsam die Entwicklung des RL-for-Code-Ökosystems voranzutreiben.

Das ByteDance Doubao-Großmodellteam hofft, dass Multi-SWE-bench die automatische Programmiertechnik auf ein neues Niveau heben wird. Zukünftig wird der Umfang erweitert, um große Modelle im Bereich der „automatischen Softwareentwicklung“ weiter voranzubringen.

Multi-SWE-Bench Sojabohnen-Großmodell Code-Reparatur-Basisdatensatz Großmodell-Code-Leistungsbewertung

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe