Thomas Scialom, Wissenschaftler bei Meta, enthüllte im Podcast „Latent Space“ die Geheimnisse der Entwicklung von Llama 3.1 und gab einen Ausblick auf das mysteriöse Llama 4.
Llama 3.1 ist das Ergebnis einer perfekten Balance zwischen Parametergröße, Trainingszeit und Hardwarebeschränkungen. Die gewaltige Größe von 405 Milliarden Parametern ist keine zufällige Wahl, sondern eine Kampfansage an GPT-4o. Obwohl die Hardware-Beschränkungen es Llama 3.1 unmöglich machen, auf jedem Heimcomputer zu laufen, macht die Kraft der Open-Source-Community alles möglich.
Während der Entwicklung von Llama 3.1 haben Scialom und sein Team das „Scaling Law“ neu bewertet. Sie stellten fest, dass die Modellgröße zwar entscheidend ist, aber die Gesamtmenge der Trainingsdaten noch wichtiger ist. Llama 3.1 entschied sich für eine Erhöhung der Anzahl der Trainingstoken, selbst wenn dies mehr Rechenleistung erfordert.
Llama 3.1 weist keine revolutionären architektonischen Veränderungen auf, aber Meta hat enorme Anstrengungen in Bezug auf Datenumfang und -qualität unternommen. Ein Datenmeer von 15 Terabytes an Token ermöglichte Llama 3.1 einen qualitativen Sprung in Bezug auf die Tiefe und Breite des Wissens.
Bei der Datenauswahl ist Scialom überzeugt, dass das öffentliche Internet zu viel Mülltext enthält und die wahren „Goldstücke“ synthetische Daten sind. Bei der Nachschulung von Llama 3.1 wurden keinerlei von Menschen handgeschriebene Antworten verwendet, sondern ausschließlich synthetische Daten, die von Llama 2 generiert wurden.
Die Modellbewertung ist seit jeher eine Herausforderung im Bereich der KI. Bei der Bewertung und Verbesserung von Llama 3.1 wurden verschiedene Methoden eingesetzt, darunter Belohnungsmodelle und diverse Benchmark-Tests. Die eigentliche Herausforderung besteht jedoch darin, geeignete Prompts zu finden, die leistungsstarke Modelle überlisten können.
Meta hat im Juni mit dem Training von Llama 4 begonnen, und diesmal liegt der Schwerpunkt auf der Agenten-Technologie. Die Entwicklung von Agenten-Tools wie Toolformer deutet auf neue Forschungsansätze von Meta im KI-Bereich hin.
Das Open-Source-Modell Llama 3.1 ist nicht nur ein mutiger Versuch von Meta, sondern auch eine tiefgründige Auseinandersetzung mit der Zukunft der KI. Mit dem Start von Llama 4 dürfen wir davon ausgehen, dass Meta im KI-Bereich weiterhin führend sein wird. Lassen Sie uns gespannt sein, wie Llama 4 und die Agenten-Technologie die Zukunft der KI neu definieren werden.