Thomas Scialom, Forscher bei Meta AI, teilte kürzlich in einem Interview Einblicke in das neueste Projekt Llama3. Er betonte offen, dass die große Menge an Texten im Internet von unterschiedlicher Qualität ist und deren Verwendung für das Training seiner Meinung nach eine Ressourcenverschwendung darstellt. Daher verzichtete Llama3 bei seinem Training vollständig auf von Menschen verfasste Antworten und basierte ausschließlich auf synthetischen Daten, die von Llama2 generiert wurden.
Bei der Erläuterung der Trainingsdetails von Llama3 beschrieb Scialom die Anwendung synthetischer Daten in verschiedenen Bereichen. Beispielsweise wurden bei der Codegenerierung drei verschiedene Methoden zur Erzeugung synthetischer Daten verwendet: Feedback zur Codeausführung, Übersetzung von Programmiersprachen und Rückübersetzung von Dokumenten. Im Bereich des mathematischen Schließens wurde die Forschungsmethode „Lasst uns Schritt für Schritt verifizieren“ als Grundlage für die Datengenerierung verwendet. Darüber hinaus wurde Llama3 mit 90% mehrsprachigen Token weiter trainiert, um hochwertige menschliche Annotationen zu sammeln, was bei der mehrsprachigen Verarbeitung besonders wichtig ist.
Die Verarbeitung langer Texte ist ein weiterer Schwerpunkt von Llama3. Hierbei werden synthetische Daten für die Bearbeitung von Fragen und Antworten zu langen Texten, die Zusammenfassung langer Dokumente und das Schließen aus Code-Repositories verwendet. Im Bereich der Werkzeugnutzung wurde Llama3 mit Brave Search, Wolfram Alpha und dem Python-Interpreter trainiert, um einfache, verschachtelte, parallele und mehrstufige Funktionsaufrufe zu ermöglichen.
Scialom erwähnte auch die Bedeutung von Reinforcement Learning from Human Feedback (RLHF) beim Training von Llama3. Es wurden umfangreiche Daten zu menschlichen Präferenzen verwendet, um das Modell zu trainieren, wobei die Fähigkeit von Menschen, Entscheidungen zu treffen (z. B. die Wahl zwischen zwei Gedichten), anstatt von Grund auf neu zu kreieren, hervorgehoben wurde.
Meta hat im Juni bereits mit dem Training von Llama4 begonnen. Scialom verriet, dass ein Hauptfokus von Llama4 auf Agenten liegen wird. Er erwähnte außerdem eine multimodale Version von Llama mit mehr Parametern, deren Veröffentlichung in naher Zukunft geplant ist.
Scialoms Interview zeigt die neuesten Fortschritte und zukünftigen Entwicklungen von Meta AI im Bereich der künstlichen Intelligenz, insbesondere hinsichtlich der Nutzung synthetischer Daten und menschlichen Feedbacks zur Verbesserung der Modellleistung.