Pesquisadores da Apple e da Escola Politécnica Federal de Lausanne (EPFL), na Suíça, desenvolveram em conjunto um único modelo modalidade-a-modalidade arbitrária que pode ser treinado em dezenas de modalidades altamente diversas e treinado de forma colaborativa em um grande conjunto de dados multimodais e corpus de texto. O modelo, chamado 4M-21, foi treinado em 21 modalidades diferentes, realizando pelo menos três vezes mais tarefas do que os modelos existentes sem perda de desempenho.

image.png

O estudo empregou o esquema de pré-treinamento 4M, que melhora o desempenho e a adaptabilidade do modelo ao aumentar o tamanho do modelo e do conjunto de dados, aumentar o número e os tipos de modalidades envolvidas no treinamento do modelo e treinar conjuntamente em vários conjuntos de dados. Os pesquisadores usaram diferentes métodos de tokenização para discretizar modalidades com características diferentes, como embeddings globais de imagem, pose humana e instâncias semânticas. Na escolha da arquitetura, o estudo adotou uma arquitetura codificador-decodificador 4M baseada em Transformer, adicionando embeddings modais adicionais para acomodar novas modalidades.

image.png

O modelo não apenas pode executar uma série de tarefas visuais comuns fora da caixa, como estimativa de profundidade e normais de superfície DIODE, segmentação semântica e de instâncias COCO e estimativa de pose humana 3DPW3D, mas também pode gerar qualquer modalidade treinada, suportar vários métodos para realizar geração granular e multimodal e recuperar imagens RGB ou outras modalidades usando outras modalidades como consulta. Além disso, os pesquisadores conduziram experimentos de transferência multimodal em NYUv2, segmentação semântica Hypersim e ARKitScenes.

Suas características importantes incluem:

Modalidade arbitrária para modalidade arbitrária: Aumento de 7 para 21 modalidades diferentes em relação ao melhor modelo modalidade-a-modalidade arbitrária existente, permitindo recuperação intermodal, geração controlável e desempenho robusto fora da caixa.

Suporte à diversidade: Adição de suporte a mais dados estruturados, como pose humana, instâncias SAM, metadados, etc.

Tokenização: Investigação de tokenização discreta de modalidades diferentes usando métodos específicos da modalidade, como embeddings globais de imagem, pose humana e instâncias semânticas.

Escala: Expansão do tamanho do modelo para 3B de parâmetros e do conjunto de dados para 0,5B de amostras.

Treinamento colaborativo: Treinamento colaborativo simultâneo em visão e linguagem.

  • Endereço do artigo: https://arxiv.org/pdf/2406.09406

Destaques:

- Pesquisadores da Apple e da EPFL (Suíça) desenvolveram em conjunto um único modelo modalidade-a-modalidade arbitrária que pode ser treinado em 21 modalidades diferentes.

- O modelo pode executar uma série de tarefas visuais comuns fora da caixa, além de gerar qualquer modalidade treinada e suportar vários métodos para realizar geração granular e multimodal.

- Os pesquisadores também conduziram experimentos de transferência multimodal em NYUv2, segmentação semântica Hypersim e ARKitScenes.