Nos últimos anos, os modelos de linguagem grandes (LLMs) fizeram progressos significativos no campo da inteligência artificial, especialmente na fusão multimodal. Uma equipe conjunta da Universidade de Ciência e Tecnologia de Huazhong, ByteDance e da Universidade de Hong Kong recentemente propôs uma nova estrutura de geração multimodal — Liquid —, destinada a resolver as limitações dos modelos multimodais atuais no processamento visual.

image.png

Os modelos multimodais tradicionais dependem de módulos visuais externos complexos, o que não apenas aumenta a complexidade do sistema, mas também limita sua escalabilidade. A inovação do Liquid reside em seu uso do VQGAN como tokenizador de imagem, eliminando a dependência de componentes visuais externos. Ao codificar imagens em tokens visuais discretos, o modelo pode compartilhar diretamente o vocabulário com tokens de texto, alcançando assim a capacidade de compreensão e geração visual "nativa".

image.png

Pesquisas descobriram que o Liquid não apenas reduz os custos de treinamento, mas também revela a lei de escala da capacidade multimodal com LLMs. A equipe conduziu experimentos em LLMs de diferentes escalas (de 0,5B a 32B), mostrando que, à medida que o tamanho do modelo aumenta, o desempenho e a qualidade de geração em tarefas de geração visual seguem a mesma lei de escala das tarefas de linguagem. Mais animador ainda, existe uma relação de promoção bidirecional entre as tarefas de compreensão e geração visual, ou seja, ambas podem ser otimizadas conjuntamente por meio de um espaço de representação compartilhado.

O design do Liquid reflete totalmente o minimalismo, tratando imagens e texto da mesma forma, usando uma estrutura de processamento unificada. Durante a construção, a equipe de pesquisa utilizou 30 milhões de dados de texto e 30 milhões de dados de pares de texto e imagem, estabelecendo a base para o treinamento multimodal do modelo. Os resultados experimentais finais mostram que o Liquid apresenta desempenho superior em compreensão multimodal, geração de imagens e tarefas de texto puro, e a consistência semântica entre as imagens e o texto gerados é significativamente maior do que em outros modelos autoregressivos.

A proposta do Liquid fornece novas ideias para o design de arquitetura de inteligência multimodal geral, sugerindo que o futuro da fusão multimodal em inteligência artificial pode experimentar uma evolução mais eficiente e flexível.

Link do artigo:https://arxiv.org/pdf/2412.04332