Un equipo de investigación conjunto del Instituto de Tecnología de Illinois, la Universidad de Zhejiang, la Universidad de Florida Central y la Universidad de Illinois en Chicago ha publicado recientemente el nuevo modelo de lenguaje grande de escenas 3D, Robin3D.

Este modelo se entrenó en un conjunto de datos a gran escala que contiene un millón de datos de instrucciones, y logró el mejor rendimiento en cinco pruebas de referencia comunes de aprendizaje multimodal 3D, lo que representa un gran avance en la construcción de agentes 3D generales.

image.png

El éxito de Robin3D se debe a su innovador motor de datos RIG (Robust Instruction Generation). El motor RIG está diseñado para generar dos tipos de datos de instrucciones clave: datos de instrucciones de seguimiento adversariales y datos de instrucciones de seguimiento diversificados.

Los datos de instrucciones de seguimiento adversariales mejoran la capacidad de comprensión y discriminación del modelo mediante la mezcla de muestras positivas y negativas, mientras que los datos de instrucciones de seguimiento diversificados incluyen varios estilos de instrucciones para mejorar la capacidad de generalización del modelo.

image.png

Los investigadores señalan que los modelos de lenguaje grande 3D existentes se basan principalmente en el entrenamiento con pares de lenguaje visual 3D positivos y instrucciones basadas en plantillas, lo que lleva a una capacidad de generalización insuficiente y un riesgo de sobreajuste. Robin3D supera estas limitaciones mediante la introducción de datos de instrucciones adversariales y diversificados.

El modelo Robin3D también integra un proyector de mejora de relaciones (RAP), enlace de características de ID (IFB) para la capacidad de referencia y localización. El módulo RAP mejora las características centradas en objetos mediante un contexto y una información de ubicación a nivel de escena ricos, mientras que el módulo IFB refuerza la conexión entre ellos mediante el enlace de cada ID con sus características correspondientes.

image.png

Los resultados experimentales muestran que Robin3D supera los métodos anteriores en cinco pruebas de referencia, incluyendo ScanRefer, Multi3DRefer, Scan2Cap, ScanQA y SQA3D, sin necesidad de ajuste fino para tareas específicas.

En particular, en la evaluación Multi3DRefer, que incluye casos de objetivos cero, Robin3D logró una mejora significativa del 7,8% y el 7,3% en los indicadores F1@0,25 y F1@0,5 respectivamente.

El lanzamiento de Robin3D marca un gran avance en la inteligencia espacial de los modelos de lenguaje grande 3D, sentando una base sólida para la construcción futura de agentes 3D más generales y potentes.

Enlace del artículo: https://arxiv.org/pdf/2410.00255