Uma nova estrela brilhante surge no campo da inteligência artificial! Recentemente, o Laboratório Noé da Huawei e o Grupo de Processamento de Linguagem Natural da Universidade de Hong Kong (HKU NLP Group) lançaram em conjunto um novo modelo de linguagem chamado Dream7B. Este modelo é aclamado como o "modelo de linguagem de difusão de código aberto mais poderoso até hoje".

O lançamento do Dream7B não apenas supera os modelos de linguagem de difusão existentes em termos de desempenho, mas também se compara ou até mesmo supera os principais modelos de linguagem autorregressivos (AR) de mesmo tamanho em termos de capacidade geral, matemática, código e planejamento. Este avanço inovador sugere que uma nova tecnologia pode estar surgindo no campo da geração de texto.

QQ_1744337169007.png

Revolucionando o tradicional: modelos de difusão proporcionam uma compreensão e geração de linguagem mais fortes

Por muito tempo, os principais modelos de linguagem de grande porte, como GPT-4, DeepSeek e Claude, dependiam da arquitetura autorregressiva (AR), ou seja, geravam texto sequencialmente da esquerda para a direita. Embora esses modelos tenham alcançado um grande sucesso, eles ainda enfrentam desafios em raciocínio complexo, planejamento de longo prazo e manutenção da coerência de textos longos.

QQ_1744337189799.png

O núcleo do Dream7B reside em sua arquitetura inovadora de modelos de difusão discretos (Discrete Diffusion Models, DMs). Diferentemente dos modelos AR, os modelos de difusão começam de um estado de ruído completo e geram sequências de texto completas de forma paralela por meio de um processo de refinamento gradual. Essa diferença fundamental na arquitetura oferece várias vantagens significativas:

  • Modelagem de contexto bidirecional, alcançando maior consistência global: os modelos de difusão podem considerar simultaneamente as informações bidirecionais na sequência de texto, permitindo uma compreensão mais completa do contexto e gerando textos mais coerentes.
  • Capacidade de geração flexível e controlável: por meio de um processo de otimização iterativo, o Dream7B pode alcançar uma geração de texto mais flexível e controlável.
  • Potencial de aceleração de amostragem: a nova arquitetura e o objetivo de treinamento prometem um mapeamento mais eficiente e direto do ruído para os dados, acelerando assim o processo de inferência do modelo.

Nos últimos anos, o potencial dos modelos de difusão em tarefas de linguagem tem se tornado cada vez mais evidente. Modelos como DiffuLLaMA e LLaDA já expandiram os modelos de linguagem de difusão para 7 bilhões de parâmetros. O Dream7B lançado desta vez é mais um marco nessa tendência.

Desempenho excepcional: desempenho comparável aos principais modelos autorregressivos em várias tarefas

O Dream7B demonstra uma capacidade surpreendente em várias habilidades-chave:

  • Supera significativamente os modelos de linguagem de difusão existentes.
  • Em termos de capacidade geral, matemática e de código, é comparável, ou até mesmo superior, aos modelos autorregressivos de ponta de mesmo tamanho.
  • Apresenta um desempenho excepcional em capacidade de planejamento. Através de avaliações em tarefas como Countdown e Sudoku, o Dream7B supera significativamente outros modelos de mesmo tamanho, às vezes até mesmo rivalizando com o DeepSeek V3 mais recente, que possui um número muito maior de parâmetros. Isso indica que os modelos de difusão são mais vantajosos na resolução de problemas que exigem múltiplas restrições ou o cumprimento de objetivos específicos.

Inovação: tecnologias inovadoras melhoram a eficiência do modelo

O sucesso do Dream7B não é acidental; por trás dele está uma série de inovações da equipe de pesquisa e desenvolvimento:

  • Emprego de modelos autorregressivos para inicialização de pesos: a equipe de pesquisa descobriu que o uso dos pesos de modelos autorregressivos existentes (como Qwen2.57B e LLaMA3) como parâmetros iniciais para modelos de difusão pode melhorar significativamente a eficiência do treinamento, especialmente no início do treinamento.
  • Mecanismo de reescalonamento de ruído de nível de token adaptativo ao contexto: o Dream7B pode ajustar dinamicamente o nível de ruído de acordo com a quantidade de informações contextuais de cada token, permitindo um aprendizado mais refinado.

Inferência flexível: quebrando as restrições da ordem de geração

Diferentemente da maneira fixa de geração da esquerda para a direita dos modelos autorregressivos, a arquitetura de modelo de difusão do Dream7B lhe confere uma capacidade de inferência mais flexível:

  • Geração em ordem arbitrária: o Dream7B não é limitado pela ordem de geração e pode sintetizar a saída em qualquer ordem, adaptando-se melhor às diferentes consultas do usuário. Por exemplo, ele pode preencher textos e conteúdo intermediário de forma flexível.
  • Qualidade e velocidade ajustáveis: ajustando o número de etapas de difusão, os usuários podem equilibrar flexibilidade entre velocidade e qualidade de geração. Um número menor de etapas pode resultar em geração mais rápida, mas com qualidade ligeiramente inferior; um número maior de etapas pode produzir uma saída de maior qualidade, mas com maior custo computacional.

Atualmente, o Dream7B já disponibilizou os pesos de seu modelo básico e do modelo de ajuste fino de instruções, e o código já foi disponibilizado no GitHub. Isso certamente impulsionará significativamente a pesquisa e aplicação de modelos de difusão no campo do processamento de linguagem natural. O Laboratório Noé da Huawei e o Grupo de Processamento de Linguagem Natural da Universidade de Hong Kong também afirmaram que continuarão explorando métodos de pós-treinamento mais avançados para modelos de linguagem de difusão.

Acesso ao produto: https://top.aibase.com/tool/dream-7b