Pesquisadores do Meta AI, em colaboração com parceiros acadêmicos, desenvolveram um sistema inovador chamado MILS (Multimodal Iterative LLM Solver) que ensina modelos de linguagem grandes (LLMs) a processar imagens, vídeos e áudio sem treinamento específico. O MILS se destaca por sua dependência da capacidade natural de resolução de problemas do modelo de linguagem, em vez de depender de grandes conjuntos de dados de treinamento.
O MILS funciona emparelhando dois modelos de IA para resolver tarefas: um "gerador", que propõe soluções, e um "avaliador", que avalia a eficácia das soluções geradas. O feedback do avaliador ajuda o gerador a refinar continuamente as respostas até atingir um resultado satisfatório. Por exemplo, em tarefas de descrição de imagens, o MILS pode refinar gradualmente a descrição, capturando detalhes em diferentes níveis.
O MILS se destaca particularmente na descrição de imagens. Usando o modelo Llama-3.1-8B como gerador e o modelo CLIP como avaliador, o MILS cria descrições de imagens tão detalhadas quanto, ou até mais do que, os métodos líderes atuais, mesmo que o CLIP não tenha sido treinado especificamente para essa tarefa. Além disso, o MILS aprimora a geração de imagem a partir de texto por meio do ajuste fino de prompts de texto e pode combinar prompts gerados por IA com ferramentas de processamento de imagens para tarefas de edição, como conversão de estilo.
A precisão da descrição da imagem aumenta com o número de etapas entre o gerador e o avaliador. | Imagem: Ashutosh et al.
A funcionalidade do MILS não se limita a imagens; ele se estende a vídeos e áudio. Em testes com o conjunto de dados de vídeo MSR-VTT, o MILS superou os modelos existentes na descrição de conteúdo de vídeo. Como o MILS não modifica os parâmetros do modelo durante a execução, ele pode converter diferentes tipos de dados em texto legível, permitindo a integração de informações de várias fontes (imagens, áudio, etc.) e sua transformação no formato desejado, abrindo novas possibilidades para aplicações de fusão de informações multimodais.
Testes mostraram que o uso de modelos geradores e avaliadores maiores produz resultados mais precisos, e aumentar o número de soluções potenciais melhora significativamente o desempenho. Os pesquisadores também descobriram que escalar para modelos de linguagem maiores não apenas melhora a qualidade dos resultados, mas também resulta em ganhos significativos de desempenho.
Uma paisagem evolui de uma descrição básica simples para uma representação complexa com detalhes mais precisos e mais elementos naturais. | Imagem: Ashutosh et al.
A estratégia inovadora do MILS está alinhada com a tendência atual na IA de direção para capacidades de raciocínio mais inteligentes. A equipe do Meta também afirma que o MILS pode ter um grande potencial em áreas como processamento de dados 3D no futuro, impulsionando ainda mais o desenvolvimento da IA multimodal.
Com o rápido desenvolvimento do GPT-4 da OpenAI e outras alternativas de código aberto, como Llama3.2 do Meta, Pixtral do Mistral e Janus Pro do DeepSeek, esses novos sistemas de IA multimodal estão acelerando sua aplicação na vida cotidiana e estabelecendo uma base importante para o futuro desenvolvimento da inteligência artificial.