Com o avanço contínuo da inteligência artificial, os modelos de difusão estão demonstrando crescente capacidade de raciocínio, deixando de ser meros "seguidores" dos modelos autoregressivos. Recentemente, pesquisadores da Universidade da Califórnia, Los Angeles (UCLA) e do Meta lançaram uma nova estrutura chamada d1, que combina o ajuste fino supervisionado (SFT) e o aprendizado por reforço (RL) para dotar os modelos de difusão de uma capacidade de raciocínio mais robusta, incluindo compreensão matemática e raciocínio lógico.
Essa inovadora estrutura d1 aprimora o desempenho dos modelos de linguagem grandes mascarados (dLLM) por meio de uma estratégia de pós-treinamento em duas etapas. Na primeira etapa, o modelo é ajustado finamente com trajetórias de raciocínio de alta qualidade, adquirindo conhecimento básico e capacidade de raciocínio lógico. Em seguida, na segunda etapa, os pesquisadores introduzem um novo método de gradiente de política chamado diffu-GRPO, otimizado especificamente para dLLMs mascarados, aumentando significativamente a eficiência do raciocínio.
Em comparação com pesquisas anteriores, o d1 visa solucionar os desafios enfrentados pelos modelos de difusão no pós-treinamento de aprendizado por reforço. Os modelos autoregressivos tradicionais otimizam a saída do modelo calculando a probabilidade logarítmica da sequência gerada, enquanto os dLLMs, devido à sua natureza iterativa de geração, enfrentam dificuldades computacionais. Para isso, a equipe de pesquisa desenvolveu um estimador de probabilidade logarítmica eficiente, calculando independentemente a probabilidade de cada token, reduzindo drasticamente o tempo de computação e melhorando a eficiência do treinamento.
Nos experimentos, os pesquisadores usaram o LLaDA-8B-Instruct como modelo base, comparando o d1-LLaDA com modelos treinados apenas com SFT ou diffu-GRPO. Os resultados mostraram que o d1-LLaDA apresentou desempenho superior em vários testes de raciocínio matemático e lógico, superando significativamente o modelo base e os métodos individuais. Esse método combinado não apenas aprimora a capacidade de raciocínio do modelo, mas também demonstra uma boa sinergia.
Com o lançamento da estrutura d1, o desempenho dos modelos de difusão em tarefas de raciocínio terá um novo impulso, abrindo amplo espaço para pesquisas futuras. Os pesquisadores acreditam que essa estrutura inovadora impulsionará o desenvolvimento de modelos de linguagem, auxiliando na realização de tarefas de raciocínio e lógica mais complexas.
Endereço do projeto: https://dllm-reasoning.github.io/