ByteDance veröffentlicht neuen Benchmark für die Bewertung von großen Code-Modellen: „FullStack Bench“

Am 5. Dezember veröffentlichte das ByteDance Doubao-Team den neuesten Bewertungsmaßstab für große Code-Sprachmodelle – FullStack Bench. Dieser umfasst über 11 reale Szenarien, unterstützt 16 Programmiersprachen und beinhaltet 3374 Fragen. Im Vergleich zu vorherigen Bewertungsstandards ermöglicht dieser Maßstab eine genauere Bewertung der Code-Entwicklungsfähigkeiten großer Sprachmodelle in einem breiteren Programmierbereich und fördert deren Optimierung für reale Programmieraufgaben.

Aktuelle gängige Bewertungsmaßstäbe für Code, wie HumanEval und MBPP, konzentrieren sich in der Regel auf grundlegende und fortgeschrittene Programmierprobleme. DS-1000 hingegen konzentriert sich auf Datenanalyse- und Machine-Learning-Aufgaben und unterstützt nur Python. xCodeEval konzentriert sich auf fortgeschrittene Programmierung und Mathematik und weist erhebliche Einschränkungen hinsichtlich Anwendungsbereich und Sprachunterstützung auf. Im Gegensatz dazu bietet FullStack Bench eine deutlich verbesserte Datenabdeckung mit über 11 Anwendungsbereichen und umfasst komplexere und vielfältigere Programmierszenarien.

Der Datensatz von FullStack Bench stammt von Stack Overflow, der weltweit größten Plattform für Programmierfragen. Das Forschungsteam wählte aus 500.000 Fragen die oberen 88,1 % der Anwendungsbereiche aus, um die Breite und Robustheit des Datensatzes zu gewährleisten. Jede Frage enthält eine detaillierte Beschreibung, eine Referenzlösung und Unit-Testfälle, um die Genauigkeit der Bewertung zu gewährleisten. Das Team führte außerdem eine Kreuzbewertung der Datenqualität durch KI und manuelle Überprüfung durch, um die Zuverlässigkeit der Daten weiter zu verbessern.

Um Entwicklern die Nutzung dieses Datensatzes zu erleichtern, hat das ByteDance Doubao-Team auch das Code-Sandbox-Tool SandboxFusion als Open Source veröffentlicht. Es unterstützt die effiziente Ausführung von mehrsprachigen Programmieraufgaben. SandboxFusion ist mit über 10 weit verbreiteten Code-Bewertungsdatensätzen kompatibel, unterstützt 23 Programmiersprachen und hilft Entwicklern, große Sprachmodelle in verschiedenen Umgebungen einfach zu testen.

Darüber hinaus präsentierte das ByteDance Doubao-Team erstmals sein selbst entwickeltes großes Code-Sprachmodell Doubao-Coder und bewertete die Programmierfähigkeit von über 20 großen Code-Sprachmodellen weltweit. Die kontinuierlichen Fortschritte von ByteDance im Bereich der KI-Programmierung, insbesondere durch das selbst entwickelte Code-Basismodell MarsCode, das monatlich Millionen Zeilen Code für Benutzer bereitstellt, zeigen seine führende Position in diesem Bereich.

Adresse des Open-Source-Datensatzes: https://huggingface.co/datasets/ByteDance/FullStackBench

Adresse des Open-Source-Sandboxes: https://github.com/bytedance/SandboxFusion

Adresse des Artikels: https://arxiv.org/pdf/2412.00535v2

KI-Nachrichten und -Informationen

ByteDance veröffentlicht neuen Benchmark für die Bewertung von großen Code-Modellen: „FullStack Bench“

AIbase基地