Des chercheurs de Meta AI, en collaboration avec des partenaires universitaires, ont développé un système innovant, MILS (Multimodal Iterative LLM Solver), capable d'apprendre aux grands modèles de langage à traiter des images, des vidéos et de l'audio sans formation spécifique. MILS tire parti des capacités naturelles de résolution de problèmes des modèles linguistiques, plutôt que d'un entraînement massif sur des données, ce qui représente un avantage unique.
MILS fonctionne en associant deux modèles d'IA pour résoudre des tâches : un « générateur » qui propose des solutions et un « évaluateur » qui évalue leur efficacité. Le feedback de l'évaluateur permet au générateur d'améliorer continuellement ses réponses jusqu'à obtenir un résultat satisfaisant. Par exemple, pour la description d'images, MILS affine progressivement la description pour capturer avec précision les détails à différents niveaux.
MILS excelle particulièrement dans la description d'images. En utilisant Llama-3.1-8B comme générateur et CLIP comme évaluateur, MILS crée des descriptions aussi détaillées, voire plus, que les méthodes de pointe actuelles, même si CLIP n'a pas été entraîné spécifiquement pour cette tâche. De plus, MILS améliore la génération d'images à partir de texte grâce au réglage fin des invites textuelles, et peut combiner les invites générées par l'IA avec des outils de traitement d'images pour des tâches d'édition comme la conversion de style.
La précision de la description d'image augmente avec le nombre d'étapes entre le générateur et l'évaluateur. | Image : Ashutosh et al.
Les capacités de MILS ne se limitent pas aux images ; elles s'étendent aux vidéos et à l'audio. Lors de tests sur l'ensemble de données vidéo MSR-VTT, MILS a surpassé les modèles existants pour la description de contenu vidéo. Comme MILS ne modifie pas les paramètres du modèle pendant son exécution, il peut convertir différents types de données en texte lisible, permettant de fusionner des informations provenant de plusieurs sources (images, audio, etc.) et de les transformer au format souhaité, ouvrant ainsi de nouvelles possibilités pour les applications de fusion d'informations multimodales.
Les tests montrent que l'utilisation de modèles générateurs et évaluateurs plus importants produit des résultats plus précis, et que l'augmentation du nombre de solutions potentielles améliore considérablement les performances. Les chercheurs ont également constaté que l'utilisation de modèles linguistiques plus grands améliore non seulement la qualité des résultats, mais aussi les performances globales.
Une description de paysage évoluant d'une simple description de base vers une représentation complexe avec des détails plus précis et plus d'éléments naturels. | Image : Ashutosh et al.
La stratégie innovante de MILS s'inscrit dans la tendance actuelle de l'IA vers des capacités de raisonnement plus intelligentes. L'équipe Meta a également indiqué que MILS pourrait présenter un potentiel énorme dans des domaines tels que le traitement de données 3D, contribuant ainsi à faire progresser l'IA multimodale.
Avec le développement rapide de GPT-4 d'OpenAI et d'autres alternatives open source comme Llama 3.2 de Meta, Pixtral de Mistral et Janus Pro de DeepSeek, ces nouveaux systèmes d'IA multimodale accélèrent leur application à la vie quotidienne et jettent les bases de l'avenir de l'intelligence artificielle.