Im Bereich der künstlichen Intelligenz zeigen Diffusionsmodelle zunehmend beeindruckende Fähigkeiten im logischen Schließen und sind nicht mehr nur „Nachzügler“ autoregressiver Modelle. Forscher der University of California, Los Angeles (UCLA) und Meta haben kürzlich ein neues Framework namens d1 vorgestellt. Dieses kombiniert Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), um Diffusionsmodellen verbesserte Inferenzfähigkeiten zu verleihen, einschließlich mathematischen Verständnisses und logischer Schlussfolgerungen.

image.png

Das innovative d1-Framework verbessert die Leistung von maskierten Large Language Models (dLLMs) durch eine zweistufige Nachtrainingsstrategie. In der ersten Phase wird das Modell durch qualitativ hochwertige Inferenzpfade mittels Supervised Fine-Tuning trainiert, um grundlegende Kenntnisse und logische Schlussfolgerungsfähigkeiten zu erlernen. In der zweiten Phase wird eine neue, für maskierte dLLMs optimierte Politikgradientenmethode namens diffu-GRPO eingeführt, die die Inferenzeffizienz deutlich steigert.

Im Gegensatz zu früheren Arbeiten zielt d1 darauf ab, die Herausforderungen beim Reinforcement Learning-Feintuning von Diffusionsmodellen zu lösen. Traditionelle autoregressive Modelle optimieren ihre Ausgabe durch Berechnung der Log-Wahrscheinlichkeit der generierten Sequenz. dLLMs hingegen stehen aufgrund ihrer iterativen Generierung vor rechnerischen Schwierigkeiten. Daher hat das Forschungsteam einen effizienten Log-Wahrscheinlichkeitsschätzer entwickelt, der die Wahrscheinlichkeit jedes Tokens unabhängig berechnet und so die Rechenzeit erheblich reduziert und die Trainingseffizienz verbessert.

In Experimenten wurde LLaDA-8B-Instruct als Basismodell verwendet, wobei d1-LLaDA mit Modellen verglichen wurde, die nur mit SFT oder diffu-GRPO trainiert wurden. Die Ergebnisse zeigen, dass d1-LLaDA in mehreren mathematischen und logischen Reasoning-Tests deutlich besser abschneidet als das Basismodell und die Einzelmethoden. Diese kombinierte Methode verbessert nicht nur die Inferenzfähigkeit des Modells, sondern zeigt auch eine positive synergistische Wirkung.

Mit der Einführung des d1-Frameworks wird die Leistung von Diffusionsmodellen bei Inferenzaufgaben deutlich verbessert, und es werden neue Forschungsmöglichkeiten eröffnet. Die Forscher sind zuversichtlich, dass dieses innovative Framework die Weiterentwicklung von Sprachmodellen vorantreiben und komplexere Inferenz- und Logikaufgaben ermöglichen wird.

Projektseite: https://dllm-reasoning.github.io/