Uma equipe de pesquisa do Instituto de Tecnologia de Illinois, Universidade de Zhejiang, Universidade da Flórida Central e Universidade de Illinois em Chicago lançou recentemente o novo modelo de linguagem grande de cena 3D, Robin3D.
O modelo foi treinado em um conjunto de dados em larga escala contendo um milhão de dados de instruções de acompanhamento, e alcançou o melhor desempenho atual em cinco benchmarks comuns de aprendizado multi-modal 3D, marcando um grande avanço na construção de agentes 3D genéricos.
O sucesso do Robin3D é atribuído ao seu inovador mecanismo de dados RIG (Robust Instruction Generation). O mecanismo RIG visa gerar dois tipos de dados de instruções cruciais: dados de instruções de acompanhamento adversários e dados de instruções de acompanhamento diversificados.
Os dados de instruções de acompanhamento adversários, por meio da mistura de amostras positivas e negativas, melhoram a capacidade de discernimento e compreensão do modelo, enquanto os dados de instruções de acompanhamento diversificados incluem vários estilos de instruções para melhorar a capacidade de generalização do modelo.
Os pesquisadores apontaram que os modelos de linguagem grandes 3D existentes dependem principalmente de pares de linguagem visual 3D positivos e instruções baseadas em modelos para treinamento, o que leva à capacidade de generalização insuficiente e ao risco de superajuste. O Robin3D, por meio da introdução de dados de instruções adversários e diversificados, supera eficazmente essas limitações.
O modelo Robin3D também integra o projetor de aprimoramento de relações (RAP), ligação de recursos de ID (IFB) para capacidade de nomeação e localização. O módulo RAP aprimora recursos centrados em objetos por meio de contexto e informações de localização abrangentes em nível de cena, enquanto o módulo IFB fortalece a conexão entre eles vinculando cada ID ao seu recurso correspondente.
Os resultados experimentais mostram que o Robin3D, sem ajuste fino para tarefas específicas, superou os métodos anteriores em cinco benchmarks, incluindo ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.
Em particular, na avaliação Multi3DRefer, que inclui casos de objetivo zero, o Robin3D obteve um aumento significativo de 7,8% e 7,3% nos indicadores F1@0,25 e F1@0,5, respectivamente.
O lançamento do Robin3D marca um grande avanço nos modelos de linguagem grandes 3D em termos de inteligência espacial, estabelecendo uma base sólida para a construção futura de agentes 3D mais genéricos e poderosos.
Endereço do artigo: https://arxiv.org/pdf/2410.00255