Récemment, une étude dirigée par Yann LeCun, le scientifique en chef de l'IA chez Meta, a révélé comment l'intelligence artificielle peut développer une compréhension fondamentale de la physique en regardant des vidéos. Cette recherche, menée conjointement par Meta FAIR, l'Université de Paris et l'EHESS, montre qu'un système d'IA peut acquérir des connaissances physiques intuitives par apprentissage autosupervisé, sans règles préétablies.

QQ_1739931962266.png

L'équipe de recherche a utilisé une nouvelle méthode appelée architecture de prédiction d'intégration jointe vidéo (V-JEPA). Contrairement à des modèles d'IA génératifs comme Sora d'OpenAI, le fonctionnement de V-JEPA se rapproche davantage du traitement de l'information dans le cerveau humain. V-JEPA ne vise pas à générer des prédictions de pixels parfaites, mais se concentre sur la prédiction dans un espace de représentation abstrait. De cette manière, le système d'IA peut apprendre des concepts physiques fondamentaux.

Dans cette étude, l'équipe a emprunté la méthode d'évaluation de la « violation des attentes » issue de la psychologie du développement, initialement utilisée pour tester la compréhension physique des bébés. Les chercheurs ont montré à l'IA deux scénarios similaires : l'un physiquement possible, l'autre physiquement impossible (par exemple, une balle traversant un mur). En mesurant les réactions à ces violations physiques, il est possible d'évaluer la compréhension physique de l'IA.

V-JEPA a été testé sur trois ensembles de données : IntPhys (concepts physiques de base), GRASP (interactions complexes) et InfLevel (environnements réels). Les résultats montrent que V-JEPA excelle dans la constance des objets, la continuité et la cohérence des formes, tandis que les performances de grands modèles linguistiques multimodaux tels que Gemini1.5Pro et Qwen2-VL-72B sont presque équivalentes à des suppositions aléatoires.

L'efficacité d'apprentissage de V-JEPA est également remarquable. Le système n'a besoin que de 128 heures de vidéos pour maîtriser les concepts physiques de base. De plus, même un petit modèle de 115 millions de paramètres montre des résultats solides. L'étude montre que V-JEPA peut identifier efficacement les schémas de mouvement et identifier avec une grande précision les événements physiquement irréalistes, jetant ainsi les bases d'une véritable compréhension du monde par l'IA.

Cette recherche remet en question une hypothèse fondamentale de nombreuses recherches en IA, à savoir que le système a besoin de « connaissances de base » prédéfinies pour comprendre les lois de la physique. Les découvertes de V-JEPA montrent que l'apprentissage par observation peut aider l'IA à acquérir ces connaissances, de manière similaire à la façon dont les bébés, les primates et même les jeunes oiseaux comprennent la physique. La recherche s'inscrit dans l'objectif à long terme de Meta d'explorer l'architecture JEPA, visant à créer des modèles du monde complets permettant aux systèmes d'IA autonomes de comprendre plus en profondeur leur environnement.

Points clés :

🧠 L'étude montre que l'IA apprend les connaissances physiques à partir de vidéos, sans règles préétablies.

📊 V-JEPA surpasse les grands modèles linguistiques en matière de compréhension physique et présente une capacité d'apprentissage supérieure.

🌍 Meta impulse une nouvelle direction de développement de l'IA, visant à créer des modèles de compréhension de l'environnement plus complets.