Ces dernières années, les grands modèles de langage (LLM) ont fait des progrès remarquables dans le domaine de l'intelligence artificielle, notamment en matière de fusion multimodale. Une équipe de recherche conjointe de l'Université de Technologie de Huazhong, de ByteDance et de l'Université de Hong Kong a récemment proposé un nouveau framework de génération multimodale, Liquid, visant à résoudre les limitations des modèles multimodaux actuels en matière de traitement visuel.
Les grands modèles multimodaux traditionnels reposent sur des modules visuels externes complexes, ce qui augmente non seulement la complexité du système, mais limite également son extensibilité. L'innovation de Liquid réside dans l'utilisation de VQGAN comme tokenizer d'images, éliminant ainsi la dépendance à des composants visuels externes. En codant les images en jetons visuels discrets, le modèle peut partager directement le vocabulaire avec les jetons textuels, permettant ainsi une compréhension et une génération visuelle « natives ».
Des recherches ont montré que Liquid permet non seulement de réduire les coûts de formation, mais aussi de mettre en lumière la relation entre les capacités multimodales et l'échelle des LLM. L'équipe a mené des expériences sur des LLM de différentes tailles (de 0,5 milliard à 32 milliards de paramètres). Les résultats montrent que, avec l'augmentation de la taille du modèle, les performances et la qualité de génération des tâches de génération visuelle suivent la même loi d'échelle que les tâches linguistiques. Plus encourageant encore, il existe une relation de promotion mutuelle entre la compréhension et la génération visuelle, les deux pouvant être optimisées conjointement grâce à un espace de représentation partagé.
La conception de Liquid reflète un minimalisme prononcé, traitant les images et le texte de manière équivalente au sein d'un framework unifié. Lors de sa construction, l'équipe de recherche a utilisé 30 millions de données textuelles et 30 millions de paires image-texte pour la formation multimodale du modèle. Les résultats finaux montrent que Liquid affiche des performances supérieures dans la compréhension multimodale, la génération d'images et les tâches textuelles pures, la cohérence sémantique entre les images et le texte généré étant significativement supérieure à celle d'autres modèles autorégressifs.
Liquid offre une nouvelle approche pour la conception architecturale de l'intelligence multimodale générale, suggérant que l'avenir de l'intelligence artificielle dans la fusion multimodale pourrait connaître une évolution plus efficace et plus flexible.
Lien de l'article : https://arxiv.org/pdf/2412.04332