Pesquisadores da Apple e da Escola Politécnica Federal de Lausanne (EPFL), na Suíça, lançaram em código aberto um modelo de visão multimodal em larga escala chamado 4M-21. Diferentemente de outros modelos otimizados para tarefas ou tipos de dados específicos, o 4M-21 possui ampla versatilidade e flexibilidade. Apesar de ter apenas 3 bilhões de parâmetros, ele oferece dezenas de funcionalidades, incluindo classificação de imagens, detecção de objetos, segmentação semântica, segmentação de instâncias, estimativa de profundidade e estimativa de normais de superfície.
A tecnologia central do modelo é a conversão de "tokens discretos", que transforma dados de vários modos em sequências de tokens com um formato unificado. Sejam dados de imagem, mapas de características de redes neurais, vetores, dados estruturados ou dados representados em texto, todos podem ser convertidos para o mesmo formato de dados compreensível pelo modelo. Essa conversão não apenas simplifica o treinamento do modelo, mas também estabelece a base para a aprendizagem e o processamento multimodais.
Acesso ao produto: https://github.com/apple/ml-4m/
Durante o treinamento, o 4M-21 utiliza o método de mascaramento para aprendizagem multimodal. Ele mascara aleatoriamente alguns tokens na sequência de entrada e, em seguida, prevê as partes mascaradas com base nos tokens restantes. Este método força o modelo a aprender a estrutura estatística e as relações subjacentes dos dados de entrada, capturando a interação e as características comuns entre diferentes modos. O mascaramento melhora não apenas a capacidade de generalização do modelo, mas também a precisão das tarefas de geração.
Os pesquisadores avaliaram o desempenho do 4M-21 em tarefas como classificação de imagens, detecção de objetos, segmentação semântica, segmentação de instâncias, estimativa de profundidade, estimativa de normais de superfície e estimativa de pose 3D do corpo humano. Os resultados mostraram que a capacidade de processamento multimodal do 4M-21 é comparável à dos modelos mais avançados, com excelente desempenho em todas as tarefas.
Destaques:
- A Apple e a EPFL lançaram em código aberto o 4M-21, um modelo de visão multimodal em larga escala com ampla versatilidade e flexibilidade.
- O 4M-21 oferece dezenas de funcionalidades, incluindo classificação de imagens, detecção de objetos, segmentação semântica, segmentação de instâncias, estimativa de profundidade e estimativa de normais de superfície.
- A tecnologia chave do 4M-21 é a conversão de "tokens discretos", que transforma dados de vários modos em sequências de tokens com um formato unificado.