Avec le développement continu de l'intelligence artificielle, les modèles de diffusion se distinguent progressivement par leurs capacités de raisonnement. Aujourd'hui, ils ne sont plus de simples « suiveurs » des modèles auto-régressifs. Récemment, des chercheurs de l'Université de Californie à Los Angeles (UCLA) et de Meta ont présenté un nouveau cadre appelé d1. Ce cadre combine l'ajustement fin supervisé (SFT) et l'apprentissage par renforcement (RL) pour doter les modèles de diffusion de capacités de raisonnement plus puissantes, notamment en mathématiques et en logique.
Ce cadre d1 innovant améliore les performances des grands modèles de langage masqués (dLLM) grâce à une stratégie d'apprentissage post-entraînement en deux phases. Dans la première phase, le modèle est affiné de manière supervisée à l'aide de trajectoires de raisonnement de haute qualité, acquérant ainsi des connaissances de base et des capacités de raisonnement logique. Ensuite, dans la deuxième phase, les chercheurs introduisent une nouvelle méthode de gradient de politique appelée diffu-GRPO, optimisée spécifiquement pour les dLLM masqués, améliorant considérablement l'efficacité du raisonnement.
Par rapport aux recherches précédentes, d1 vise à résoudre les défis liés à l'apprentissage par renforcement post-entraînement des modèles de diffusion. Les modèles auto-régressifs traditionnels optimisent la sortie du modèle en calculant la probabilité logarithmique de la séquence générée, tandis que les dLLM, en raison de leur nature itérative, rencontrent des difficultés de calcul. Pour cela, l'équipe de recherche a développé un estimateur de probabilité logarithmique efficace, qui calcule indépendamment la probabilité de chaque jeton, réduisant considérablement le temps de calcul et améliorant l'efficacité de l'entraînement.
Dans les expériences, les chercheurs ont utilisé LLaDA-8B-Instruct comme modèle de base et ont comparé d1-LLaDA aux modèles entraînés uniquement avec SFT ou diffu-GRPO. Les résultats montrent que d1-LLaDA excelle dans plusieurs tests de mathématiques et de raisonnement logique, surpassant largement le modèle de base et les méthodes individuelles. Cette approche combinée améliore non seulement les capacités de raisonnement du modèle, mais démontre également une bonne synergie.
Avec l'introduction du cadre d1, les performances des modèles de diffusion dans les tâches de raisonnement connaîtront une nouvelle amélioration, ouvrant de nouvelles perspectives de recherche. Les chercheurs estiment que ce cadre innovant stimulera le développement futur des modèles linguistiques et contribuera à la réalisation de tâches de raisonnement et de logique plus complexes.
Adresse du projet : https://dllm-reasoning.github.io/