Eine kürzlich erschienene Studie zeigt aufregenderweise, dass große Sprachmodelle (LLMs) ihre Leistung durch Suchfunktionen deutlich verbessern können. Insbesondere das Llama3.1-Modell mit nur 8 Milliarden Parametern erreichte nach 100 Suchanfragen bei der Generierung von Python-Code eine Leistung, die mit GPT-4o vergleichbar ist.
Diese Idee erinnert an den klassischen Blogbeitrag „The Bitter Lesson“ von Rich Sutton aus dem Jahr 2019, einem Pionier des Reinforcement Learnings. Er argumentierte, dass mit zunehmender Rechenleistung die Bedeutung allgemeiner Methoden erkannt werden muss. „Suchen“ und „Lernen“ scheinen besonders vielversprechende Optionen zu sein, die sich skalieren lassen.
Obwohl Sutton die Bedeutung des Lernens, also größerer Modelle, die mehr Wissen lernen, betonte, wird das Potenzial der Suche im Inferenzprozess oft unterschätzt. Forscher von Stanford, Oxford und DeepMind stellten kürzlich fest, dass die Erhöhung der Anzahl der Wiederholungen im Inferenzstadium die Leistung von Modellen in Mathematik, Logik und Codegenerierung deutlich verbessert.
Inspiriert von diesen Studien führten zwei Ingenieure Experimente durch. Sie fanden heraus, dass die Suche mit 100 kleinen Llama-Modellen bei Python-Programmieraufgaben GPT-4o übertreffen oder zumindest gleichziehen kann. Sie verwendeten das anschauliche Bild: „Früher brauchte man ein großes Pferd für eine bestimmte Fähigkeit, jetzt reichen 100 kleine Enten.“
Um eine höhere Leistung zu erzielen, nutzten sie die vLLM-Bibliothek für Batch-Inferenz und führten die Berechnungen auf 10 A100-40GB-GPUs aus, wodurch eine beeindruckende Geschwindigkeit von 40.000 Tokens pro Sekunde erreicht wurde. Als Benchmark wählten sie HumanEval, da dieser die generierten Codes durch Ausführung testet und so objektivere und genauere Ergebnisse liefert.
Dem Bericht zufolge erreichte GPT-4o bei der Zero-Shot-Inferenz einen pass@1-Wert von 90,2 %. Mit der oben beschriebenen Methode verbesserte sich der pass@k-Wert von Llama3.18B deutlich. Bei 100 Wiederholungen erreichte Llama 90,5 %, bei 1000 Wiederholungen sogar 95,1 % und übertraf damit GPT-4o deutlich.
Es ist erwähnenswert, dass dieses Experiment keine strikte Reproduktion der ursprünglichen Studie darstellt, aber die Möglichkeit hervorhebt, dass kleinere Modelle mit Suchmethoden im Inferenzstadium größere Modelle in einem vorhersehbaren Umfang übertreffen können.
Die Stärke der Suche liegt darin, dass sie sich mit zunehmendem Rechenaufwand „transparent“ skalieren und Ressourcen vom Speicher zur Berechnung verlagern kann, wodurch ein Ressourcengleichgewicht erreicht wird. DeepMind erzielte kürzlich wichtige Fortschritte im Bereich Mathematik und bewies die Leistungsfähigkeit der Suche.
Der Erfolg der Suche erfordert jedoch zunächst eine hochwertige Bewertung der Ergebnisse. Das DeepMind-Modell erreichte eine effektive Überwachung, indem es mathematische Probleme in natürlicher Sprache in formale Darstellungen umwandelte. In anderen Bereichen, wie z. B. beim „Zusammenfassen von E-Mails“, ist die effektive Suche jedoch deutlich schwieriger.
Diese Studie zeigt, dass die Leistungssteigerung von Generierungsmodellen in bestimmten Bereichen eng mit ihren Bewertungs- und Suchfähigkeiten zusammenhängt. Zukünftige Forschung könnte untersuchen, wie diese Fähigkeiten durch wiederholbare digitale Umgebungen verbessert werden können.
论文地址:https://arxiv.org/pdf/2407.21787