4M est un framework conçu pour entraîner des modèles multimodaux et multitâches. Il est capable de traiter diverses tâches de vision et de réaliser une génération conditionnelle multimodale. Des analyses expérimentales démontrent sa généralisation et son extensibilité aux tâches visuelles, jetant ainsi les bases d'explorations plus poussées de l'apprentissage multimodal dans le domaine de la vision et au-delà.