ChinaZ.com, 17 de junio de 2024: Un equipo de investigación de la Universidad China de Hong Kong y la Academia China de Ciencias, entre otras instituciones, ha propuesto un paradigma de preentrenamiento multimodal llamado MiCo (Multimodal Context). Este método ha logrado resultados notables en el campo del aprendizaje multimodal, batiendo 37 récords de rendimiento de vanguardia (SOTA).
Características principales:
Comprensión multimodal: MiCo busca construir una inteligencia multimodal capaz de comprender cualquier modalidad y aprender representaciones generales.
Preentrenamiento a gran escala: Al incorporar más modalidades, volumen de datos y parámetros del modelo, MiCo simula el proceso cognitivo multimodal del cerebro humano durante el preentrenamiento.
Diseño de la arquitectura de red neuronal: MiCo divide las diferentes modalidades en "modalidades de conocimiento" y "modalidades de interfaz", y diseña una arquitectura de aprendizaje multimodal correspondiente, utilizando un método de inferencia generativa para la alineación.
Contexto multimodal y ley de escala: MiCo utiliza el contexto multimodal para reforzar el refuerzo mutuo entre las modalidades, construyendo relaciones contextuales entre modalidades.
Resultados experimentales:
En 10 pruebas de referencia de percepción unimodal de diferentes modalidades, MiCo obtuvo 7 resultados SOTA.
En 25 tareas de comprensión intermodal, incluyendo recuperación, preguntas y respuestas, y descripción, MiCo obtuvo 20 resultados SOTA.
En 18 pruebas de referencia de modelos de lenguaje grandes multimodales, MiCo obtuvo 10 resultados SOTA.
Método de preentrenamiento de MiCo:
El equipo utilizó un preentrenamiento conjunto de vídeo con audio emparejado, descripción de texto, profundidad y normales, simulando las capacidades de percepción visual, auditiva y espacio-temporal del cerebro humano.
Se extrajeron características multimodales mediante un codificador multimodal (como ViT) y características de texto mediante un codificador de texto, construyendo relaciones de contexto multimodal.
Conclusión y trabajo futuro:
El proyecto MiCo es un intento importante de simular la cognición multimodal del cerebro humano mediante la inteligencia artificial. El equipo espera que inspire futuras investigaciones y el desarrollo de modelos básicos multimodales más potentes.
El plan de trabajo futuro incluye la incorporación de más modalidades, como flujo óptico, datos IMU y archivos de eventos, para seguir mejorando el preentrenamiento conjunto multimodal.