Am 13. August gab OpenAI die Einführung des SWE-bench Verified Code-Generierungs-Benchmark bekannt, der darauf abzielt, die Leistung von KI-Modellen bei Software-Engineering-Aufgaben genauer zu bewerten. Dieser neue Benchmark behebt mehrere Einschränkungen des vorherigen SWE-bench.

SWE-bench ist ein Bewertungsdatensatz, der auf realen Softwareproblemen von GitHub basiert und 2294 Issue-Pull-Request-Paare aus 12 beliebten Python-Repositories enthält. Der ursprüngliche SWE-bench hatte jedoch drei Hauptprobleme: zu strenge Unit-Tests, die korrekte Lösungen möglicherweise ablehnen; unklare Problembeschreibungen; und eine schwer zuverlässig einzurichtende Entwicklungsumgebung.

QQ截图20240815145302.png

Um diese Probleme zu lösen, führt SWE-bench Verified ein neues Bewertungstoolkit mit containerisierter Docker-Umgebung ein, wodurch der Bewertungsprozess konsistenter und zuverlässiger wird. Diese Verbesserung hat die Bewertung der Leistung von KI-Modellen deutlich verbessert. Beispielsweise löste GPT-4o im neuen Benchmark 33,2 % der Beispiele, während die Punktzahl des bestplatzierten Open-Source-Agenten-Frameworks Agentless sich verdoppelte und 16 % erreichte.

Diese Leistungssteigerung zeigt, dass SWE-bench Verified die tatsächlichen Fähigkeiten von KI-Modellen bei Software-Engineering-Aufgaben besser erfassen kann. Durch die Behebung der Einschränkungen des ursprünglichen Benchmarks bietet OpenAI ein genaueres Bewertungswerkzeug für die Anwendung von KI in der Softwareentwicklung, das die Weiterentwicklung und Anwendung dieser Technologie fördern dürfte.

Mit der zunehmenden Verbreitung von KI-Technologien im Software-Engineering werden Bewertungsbenchmarks wie SWE-bench Verified eine wichtige Rolle bei der Messung und Förderung der Leistungsfähigkeit von KI-Modellen spielen.

Adresse: https://openai.com/index/introducing-swe-bench-verified/