En el mundo de la IA, acabamos de recibir a un nuevo miembro notable: Cambrian-1, un gran modelo de lenguaje multimodal (MLLM) creado por grandes figuras de la industria como LeCun y Xie Saining. La aparición de este modelo no solo representa un salto tecnológico, sino también una profunda reflexión sobre la investigación del aprendizaje multimodal.

La filosofía de diseño de Cambrian-1 prioriza la visión, algo especialmente valioso en la investigación actual de IA centrada en el lenguaje. Nos recuerda que la forma en que los humanos adquieren conocimiento va mucho más allá del lenguaje; las experiencias sensoriales visuales, auditivas, táctiles, etc., son igualmente importantes. La publicación de código abierto de Cambrian-1 proporciona un recurso invaluable para todos los investigadores y desarrolladores interesados en el aprendizaje multimodal.

image.png

La construcción de este modelo se centra en cinco elementos clave: aprendizaje de representación visual, diseño del conector, datos de ajuste de instrucciones, estrategia de ajuste de instrucciones y pruebas de referencia. Cada elemento representa una exploración profunda del espacio de diseño de MLLM, reflejando la visión única del equipo de investigación sobre los problemas existentes.

Cabe destacar que el rendimiento de Cambrian-1 en tareas de lenguaje visual es impresionante. No solo supera a otros modelos de código abierto, sino que incluso se acerca a los modelos propietarios de vanguardia en algunas pruebas de referencia. Este logro se basa en la innovadora reflexión del equipo de investigación sobre el ajuste de instrucciones y el diseño del conector.

Sin embargo, el camino de investigación de Cambrian-1 no ha estado exento de dificultades. Los investigadores descubrieron que incluso los MLLM bien entrenados pueden tener deficiencias en la capacidad de conversación, un fenómeno conocido como "fenómeno de contestador automático". Para solucionar este problema, incorporaron indicaciones del sistema durante el entrenamiento para fomentar conversaciones más ricas.

El éxito de Cambrian-1 se debe al poderoso equipo de investigación que lo respalda. Shengbang Tong (童晟邦), como primer autor del artículo, ha realizado una contribución innegable. Actualmente está cursando un doctorado en la Universidad de Nueva York bajo la supervisión de los profesores Yann LeCun y Xie Saining. Sus intereses de investigación abarcan varios campos, incluyendo modelos del mundo, aprendizaje supervisado/autosupervisado, modelos generativos y modelos multimodales.

La publicación de código abierto de Cambrian-1 ha aportado un soplo de aire fresco a la comunidad de IA. No solo proporciona una potente herramienta de aprendizaje multimodal, sino que también ha estimulado una profunda reflexión sobre la investigación del aprendizaje multimodal. A medida que más investigadores y desarrolladores se unan a la exploración de Cambrian-1, tenemos razones para creer que se convertirá en una fuerza impulsora importante para el desarrollo de la tecnología de IA.

Dirección del proyecto: https://github.com/cambrian-mllm/cambrian

Artículo: https://arxiv.org/abs/2406.16860