TACO: Ein neuer Datensatz für die Codegenerierung

Das Beijing Academy of Artificial Intelligence (BAAI) Research Institute hat TACO veröffentlicht, einen Trainingsdatensatz für die Codegenerierung, der darauf abzielt, Codegenerierungsmodellen herausforderndere Trainingsdaten und Bewertungsmaßstäbe zu bieten. TACO zeichnet sich durch seine Datenmenge, Qualität und Bewertungsmethodik aus, einschließlich eines größeren Trainings- und Testsatzes, vielfältiger Lösungsansätze und detaillierter Kennzeichnungen.

Experimentelle Ergebnisse zeigen, dass gängige Codegenerierungsmodelle in der TACO-Bewertung einen deutlichen Unterschied zu GPT-4 aufweisen, was darauf hindeutet, dass in diesem Bereich noch Verbesserungspotenzial besteht. TACO dient nicht nur als anspruchsvolle Testmethode, sondern kann auch als Trainingsdaten zur Verbesserung der Modellleistung verwendet werden und somit die Entwicklung im Bereich der Codegenerierung fördern.