DreamLLM est un framework d'apprentissage qui, pour la première fois, réalise une synergie entre la compréhension et la création multimodales des grands modèles linguistiques (LLM). Il génère des modèles postérieurs de langage et d'image en échantillonnant directement dans l'espace multi-modal original. Cette approche évite les limitations et les pertes d'information inhérentes aux extracteurs de caractéristiques externes tels que CLIP, permettant ainsi une compréhension multimodale plus complète. DreamLLM apprend efficacement toutes les distributions conditionnelles, marginales et conjointes multimodales en modélisant le contenu textuel et imagé ainsi que les documents croisés bruts non structurés. Par conséquent, DreamLLM est le premier MLLM capable de générer du contenu croisé de forme libre. Des expériences exhaustives démontrent les performances exceptionnelles de DreamLLM en tant que généraliste multi-modal à zéro-shot, exploitant pleinement les synergies d'apprentissage améliorées.