ChinaZ.com (站长之家) - 17 de junho de 2024: Uma equipe de pesquisa da Universidade Chinesa de Hong Kong e da Academia Chinesa de Ciências, entre outras instituições, apresentou um novo paradigma de pré-treinamento multimodal chamado MiCo (Multimodal Context). Este método alcançou resultados notáveis na área de aprendizado multimodal, quebrando 37 recordes de desempenho de ponta (SOTA).

1.jpg

Características principais:

  • Compreensão multimodal: O MiCo visa construir uma inteligência multimodal capaz de entender qualquer modalidade e aprender representações universais.

  • Pré-treinamento em larga escala: Ao introduzir mais modalidades, dados e parâmetros de modelo, o MiCo simula o processo cognitivo multimodal do cérebro humano durante o pré-treinamento.

  • Design da arquitetura de rede neural: O MiCo divide as diferentes modalidades em "modalidades de conhecimento" e "modalidades de interface" e projeta uma arquitetura de aprendizado multimodal correspondente, usando um método de inferência gerativa para alinhamento.

  • Contexto e lei de escala multimodais: O MiCo utiliza o contexto multimodal para fortalecer o reforço mútuo entre as modalidades, construindo relações contextuais transmodais.

Resultados experimentais:

  • Em 10 testes de benchmark de percepção unimodal em diferentes modalidades, o MiCo alcançou 7 resultados SOTA.

  • Em 25 tarefas de compreensão transmodal, incluindo recuperação, perguntas e respostas e descrição, o MiCo obteve 20 resultados SOTA.

  • Em 18 testes de benchmark de modelos de linguagem grandes multimodais, o MiCo alcançou 10 resultados SOTA.

Método de pré-treinamento do MiCo:

A equipe utilizou pré-treinamento conjunto de vídeo com áudio correspondente, descrição textual, profundidade e normais, simulando as capacidades de percepção visual, auditiva e espaço-temporal do cérebro humano.

Recursos multimodais foram extraídos usando codificadores multimodais (como ViT), e recursos textuais foram extraídos usando codificadores textuais, construindo relações contextuais multimodais.

Conclusão e trabalhos futuros:

O projeto MiCo é uma tentativa importante de simular a cognição multimodal do cérebro humano usando inteligência artificial. A equipe espera que ele possa inspirar pesquisas futuras e o desenvolvimento de modelos básicos multimodais mais poderosos.

Os planos para trabalhos futuros incluem a incorporação de mais modalidades, como fluxo óptico, dados IMU e arquivos de eventos, para continuar aprimorando o pré-treinamento conjunto multimodal.