Uma equipe de pesquisa do Instituto de Tecnologia de Illinois, Universidade de Zhejiang, Universidade da Flórida Central e Universidade de Illinois em Chicago lançou recentemente o novo modelo de linguagem grande de cena 3D, Robin3D.

O modelo foi treinado em um conjunto de dados em larga escala contendo um milhão de dados de instruções de acompanhamento, e alcançou o melhor desempenho atual em cinco benchmarks comuns de aprendizado multi-modal 3D, marcando um grande avanço na construção de agentes 3D genéricos.

image.png

O sucesso do Robin3D é atribuído ao seu inovador mecanismo de dados RIG (Robust Instruction Generation). O mecanismo RIG visa gerar dois tipos de dados de instruções cruciais: dados de instruções de acompanhamento adversários e dados de instruções de acompanhamento diversificados.

Os dados de instruções de acompanhamento adversários, por meio da mistura de amostras positivas e negativas, melhoram a capacidade de discernimento e compreensão do modelo, enquanto os dados de instruções de acompanhamento diversificados incluem vários estilos de instruções para melhorar a capacidade de generalização do modelo.

image.png

Os pesquisadores apontaram que os modelos de linguagem grandes 3D existentes dependem principalmente de pares de linguagem visual 3D positivos e instruções baseadas em modelos para treinamento, o que leva à capacidade de generalização insuficiente e ao risco de superajuste. O Robin3D, por meio da introdução de dados de instruções adversários e diversificados, supera eficazmente essas limitações.

O modelo Robin3D também integra o projetor de aprimoramento de relações (RAP), ligação de recursos de ID (IFB) para capacidade de nomeação e localização. O módulo RAP aprimora recursos centrados em objetos por meio de contexto e informações de localização abrangentes em nível de cena, enquanto o módulo IFB fortalece a conexão entre eles vinculando cada ID ao seu recurso correspondente.

image.png

Os resultados experimentais mostram que o Robin3D, sem ajuste fino para tarefas específicas, superou os métodos anteriores em cinco benchmarks, incluindo ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.

Em particular, na avaliação Multi3DRefer, que inclui casos de objetivo zero, o Robin3D obteve um aumento significativo de 7,8% e 7,3% nos indicadores F1@0,25 e F1@0,5, respectivamente.

O lançamento do Robin3D marca um grande avanço nos modelos de linguagem grandes 3D em termos de inteligência espacial, estabelecendo uma base sólida para a construção futura de agentes 3D mais genéricos e poderosos.

Endereço do artigo: https://arxiv.org/pdf/2410.00255