A comunidade MoDa lançou um framework unificado de alinhamento multimodal de código aberto chamado OneLLM. Este framework utiliza um codificador universal e um módulo de projeção unificado para alinhar entradas multimodais com o LLM. Ele suporta a compreensão de vários tipos de dados modais, incluindo imagens, áudio e vídeo, e demonstra forte capacidade de zero-shot em tarefas como vídeo-texto e áudio-vídeo-texto. O código-fonte do OneLLM já foi publicado no GitHub, onde os pesos do modelo e o espaço de criação do modelo estão disponíveis.
OneLLM: Framework Unificado de Alinhamento Multimodal de Código Aberto

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.