La comunidad MoDel ha lanzado un marco unificado de alineación multimodal de código abierto llamado OneLLM. Este marco utiliza un codificador universal y un módulo de proyección unificado para alinear las entradas multimodales con LLM. Admite la comprensión de datos multimodales como imágenes, audio y video, y muestra una sólida capacidad de cero disparos en tareas como video-texto, audio-video-texto, etc. El código fuente de OneLLM ya se ha publicado en GitHub, donde se pueden obtener los pesos del modelo y el espacio de creación del modelo.