La communauté MoDa a publié en open source un framework unifié d'alignement multi-modal appelé OneLLM. Ce framework utilise un encodeur universel et un module de projection unifié pour aligner les entrées multi-modales avec les LLM (Large Language Models). Il prend en charge la compréhension de données multi-modales telles que les images, l'audio et la vidéo, et démontre de fortes capacités zéro-shot dans des tâches telles que vidéo-texte, audio-vidéo-texte. Le code source de OneLLM est disponible sur GitHub, où vous pouvez également trouver les poids des modèles et l'espace de création des modèles.