Récemment, une équipe de recherche de l'Université de Pékin et d'autres institutions a annoncé la sortie de LLaVA-o1, un modèle multimodal open source. Il s'agirait du premier modèle langage visuel capable de raisonnement spontané et systématique, comparable à GPT-o1.
Ce modèle a démontré d'excellentes performances dans six benchmarks multimodaux exigeants. Sa version à 11 milliards de paramètres surpasse ses concurrents, tels que Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct.
LLaVA-o1, basé sur le modèle Llama-3.2-Vision, utilise un mécanisme d'inférence "réflexion lente". Cela lui permet de réaliser des processus d'inférence plus complexes de manière autonome, dépassant les méthodes traditionnelles de prompting en chaîne de pensée.
Dans les benchmarks d'inférence multimodale, LLaVA-o1 a surpassé son modèle de base de 8,9 %. Son originalité réside dans son processus d'inférence divisé en quatre étapes : résumé, explication visuelle, raisonnement logique et génération de conclusion. Contrairement aux modèles traditionnels dont le processus d'inférence est souvent simplifié et sujet aux erreurs, LLaVA-o1 assure une sortie plus précise grâce à un raisonnement structuré en plusieurs étapes.
Par exemple, pour résoudre le problème : "Soustrayez toutes les petites boules jaunes et les objets violets, combien d'objets restent-ils ?", LLaVA-o1 commence par résumer la question, extrait ensuite les informations de l'image, puis procède à un raisonnement étape par étape avant de fournir la réponse. Cette approche par étapes améliore la capacité de raisonnement systématique du modèle, le rendant plus efficace pour traiter les problèmes complexes.
Il est important de noter que LLaVA-o1 utilise une méthode de recherche par faisceaux au niveau des étapes lors de l'inférence. Cette méthode permet au modèle de générer plusieurs réponses candidates à chaque étape et de sélectionner la meilleure pour poursuivre l'inférence à l'étape suivante, améliorant ainsi considérablement la qualité globale de l'inférence. Grâce à l'ajustement fin supervisé et à des données d'entraînement appropriées, LLaVA-o1 excelle par rapport aux modèles plus grands ou propriétaires.
Les résultats de l'équipe de l'Université de Pékin ont non seulement fait progresser l'IA multimodale, mais ont également ouvert de nouvelles pistes pour les futurs modèles de compréhension du langage visuel. L'équipe a annoncé que le code, les poids pré-entraînés et les données de LLaVA-o1 seront entièrement open source, encourageant ainsi davantage de chercheurs et de développeurs à explorer et à utiliser ce modèle innovant.
Article : https://arxiv.org/abs/2411.10440
GitHub : https://github.com/PKU-YuanGroup/LLaVA-o1
Points clés :
🌟 LLaVA-o1 est un nouveau modèle d'inférence multimodal développé par une équipe de l'Université de Pékin et d'autres institutions, doté d'une capacité d'inférence "réflexion lente".
📈 Ce modèle surpasse son modèle de base de 8,9 % dans les benchmarks d'inférence multimodale.
🔍 LLaVA-o1 assure la précision grâce à un raisonnement structuré en plusieurs étapes et sera prochainement open source.