A Midjourney, famosa por sua tecnologia de geração de imagens com IA, está silenciosamente mostrando suas ambições ainda maiores no campo da inteligência artificial. Esta empresa de tecnologia, com uma vasta base de usuários, após anunciar o desenvolvimento de computação e hardware de IA próprios, recentemente colaborou com especialistas em aprendizado de máquina da Universidade de Nova York (NYU) para publicar uma nova pesquisa sobre o treinamento de grandes modelos de linguagem (LLMs) para geração de texto.

QQ_1742869272075.png

O estudo se concentra em melhorar a capacidade dos LLMs em escrita criativa, com o objetivo de permitir que os modelos de IA escrevam textos mais criativos, como os modelos de código aberto Llama da Meta e Mistral.

Além das imagens: Midjourney se esforça na geração criativa de texto

Para uma empresa conhecida por sua tecnologia de geração de imagens de IA baseada em modelos de difusão, a iniciativa inovadora da Midjourney na geração de texto envia uma mensagem clara: seus objetivos vão muito além do conteúdo visual. Como os pesquisadores dizem, o conceito tradicional de "uma imagem vale mais que mil palavras" pode ser reescrito, e o potencial criativo do texto também merece uma exploração profunda. A Midjourney está provando, na prática, que sua exploração na área de IA é diversificada.

Adeus aos "roteiros": tecnologia inovadora aumenta a diversidade da escrita de IA

O artigo de pesquisa publicado na comunidade de código de IA Hugging Face apresenta duas novas técnicas chamadas "Otimização de Preferência Direta Diversificada" (Diversified Direct Preference Optimization, DDPO) e "Otimização de Preferência de Razão de Odds Diversificada" (Diversified Odds Ratio Preference Optimization, DORPO). O objetivo principal dessas duas técnicas é expandir o escopo dos textos gerados pelos modelos de IA, permitindo que eles apresentem conteúdo mais rico e diversificado, mantendo a coerência e a legibilidade.

Os pesquisadores apontam que, embora os LLMs atuais se destaquem em áreas como perguntas e respostas factuais ou assistência de código, capazes de gerar a "melhor solução", na área de escrita criativa, devido à sua abertura, deveria haver várias respostas válidas para o mesmo prompt. Por exemplo, para o prompt "Escreva uma história sobre um cachorro na lua", uma pessoa pode imaginar um cachorro de estimação deixado para trás por um astronauta, cães em uma colônia espacial futura ou um cachorro perdido que faz amizade com alienígenas, com enredos completamente diferentes.

No entanto, os LLMs ajustados por instruções tendem a convergir para linhas de história e temas semelhantes. Isso ocorre principalmente porque as técnicas de treinamento posteriores se concentram mais nas preferências do usuário do que na originalidade, reforçando respostas populares, mas repetitivas; ao mesmo tempo, o ajuste por instruções também pode suavizar a variabilidade, fazendo com que o modelo tenda a gerar respostas "seguras", mas sem originalidade. Além disso, as técnicas atuais de promoção da diversidade (como o ajuste de temperatura) geralmente funcionam apenas na fase de inferência do modelo, e não são integradas ao processo de aprendizado do modelo. Isso acaba levando a uma escrita criativa gerada por IA que é homogênea, sem surpresas e profundidade.

Fazendo com que o modelo de IA "abra novos caminhos"

Para superar essas limitações, a equipe de pesquisa da Midjourney aprimorou os métodos de otimização de preferência existentes, introduzindo DDPO e DORPO. O núcleo dessas inovações reside no uso do "desvio" (desvio) - ou seja, o grau de diferença de uma resposta em relação a outras respostas - para orientar o treinamento do modelo.

Especificamente, durante o treinamento, o modelo recebe um prompt de escrita e várias respostas possíveis. Em seguida, cada resposta é comparada com outras respostas sob o mesmo prompt, e uma pontuação de desvio é calculada. Respostas raras, mas de alta qualidade, recebem maior peso no treinamento, incentivando o modelo a aprender com exemplos mais diversificados. Ao incorporar o desvio na otimização de preferência direta (DPO) e na otimização de preferência de razão de odds (ORPO), o modelo pode aprender a gerar respostas de maior qualidade e mais diversificadas. Esse método garante que as histórias geradas pela IA não sejam limitadas a uma única estrutura previsível, mas possam explorar uma gama mais ampla de personagens, cenários e temas, como um escritor humano.

Para verificar a eficácia desses novos métodos, os pesquisadores usaram um conjunto de dados da comunidade Reddit r/writingPrompts para treinar o LLM. Eles escolheram o Llama-3.1-8B da Meta (um modelo com 8 bilhões de parâmetros) e o Mistral-7B-v0.3 da Mistral AI (um modelo com 7 bilhões de parâmetros) como modelos base.

O processo de treinamento incluiu dois estágios: ajuste fino supervisionado (SFT) e otimização de preferência. Na fase de otimização de preferência, eles primeiro usaram DPO e ORPO padrão como linha de base, e depois aplicaram DDPO e DORPO para introduzir pesos baseados em desvio. Finalmente, o desempenho do modelo foi avaliado por meio de avaliação automática (medindo a diversidade semântica e estilística) e avaliação humana (julgando a diversidade e o apelo da saída, e comparando-a com GPT-4 e Claude 3.5).

Os resultados experimentais mostram que o DDPO, mantendo a qualidade da saída, supera significativamente o DPO padrão. O Llama-3.1-8B com DDPO atingiu o melhor equilíbrio entre qualidade e diversidade, gerando respostas mais diversificadas do que o GPT-4, mantendo boa coerência. Mesmo com a redução do tamanho do conjunto de dados, o modelo DDPO ainda conseguiu manter certa diversidade.

Capacitando vários setores: potencial ilimitado de conteúdo criativo de IA

Esta pesquisa tem um significado prático importante para empresas que precisam usar IA para gerar texto criativo. Por exemplo, em áreas como redação de marketing, storytelling corporativo e criação de roteiros para filmes e jogos, melhorar a diversidade e a qualidade do conteúdo gerado por IA é crucial. Para as equipes de IA responsáveis pela implantação de LLMs, como aumentar a diversidade da saída sem sacrificar a qualidade é um desafio fundamental. A pesquisa da Midjourney oferece uma nova abordagem para resolver esse problema.

A pesquisa apresenta um novo método de pós-treinamento de LLM que pode aumentar a criatividade sem sacrificar a qualidade. Também fornece uma alternativa prática que pode substituir os ajustes de diversidade no momento da inferência (como ajustar a temperatura), integrando a diversidade diretamente no processo de aprendizado do modelo. Isso promete o desenvolvimento de aplicativos de IA mais atraentes, como ferramentas de escrita assistida por IA e assistentes virtuais capazes de ajustar dinamicamente as respostas.

Para profissionais responsáveis pela orquestração e automação de modelos de IA, esta pesquisa destaca a importância de ajustar o modelo na fase de treinamento, reduzindo a necessidade de ajustes posteriores no pós-implantação. Também fornece um método para introduzir narrativas adaptativas em aplicativos acionados por IA, garantindo a variabilidade do conteúdo, mantendo a alta qualidade. Além disso, o método ajuda a tornar a saída do LLM mais semelhante à humana, o que é crucial para aplicativos que exigem narrativas interativas, interação com o cliente ou criação de conteúdo dinâmico.

Conclusão

O sucesso do DDPO e DORPO mostra que treinar LLMs com foco na diversidade pode levar a avanços significativos na escrita criativa. No futuro, integrar métodos de aprendizado baseados em desvio em modelos de IA corporativos para aumentar a diversidade de respostas em aplicativos voltados para o cliente, explorar o uso desses métodos em outras tarefas de geração, como poesia, roteiros ou histórias de jogos, e desenvolver métodos de treinamento híbridos que equilibrem a diversidade e a capacidade de seguir instruções, serão direções de pesquisa promissoras.

A equipe de pesquisa da Midjourney planeja divulgar seu código, o que certamente fornecerá um recurso valioso para desenvolvedores que desejam aplicar essas tecnologias. Ao adotar essas tecnologias inovadoras, as equipes de IA podem superar os padrões de saída rígidos e formulaicos, construindo sistemas de IA não apenas inteligentes, mas também verdadeiramente imaginativos.

Artigo:https://huggingface.co/papers/2503.17126