Récemment, des chercheurs de l'institut de recherche de ByteDance et de l'université Tsinghua ont publié une nouvelle étude soulignant les lacunes importantes des modèles actuels de génération de vidéos IA, tels que Sora d'OpenAI. Bien que capables de créer des effets visuels époustouflants, ces modèles montrent de sérieuses faiblesses dans leur compréhension des lois physiques fondamentales. Cette recherche a suscité un large débat sur les capacités de l'IA à simuler la réalité.
L'équipe de recherche a testé les modèles de génération de vidéos IA dans trois scénarios différents : prédiction dans un contexte connu, prédiction dans un contexte inconnu et combinaison d'éléments familiers. Leur objectif était de déterminer si ces modèles avaient réellement appris les lois physiques ou s'ils se reposaient simplement sur les caractéristiques superficielles de leur entraînement.
Les tests ont révélé que ces modèles d'IA n'avaient pas appris de règles universelles. Au lieu de cela, ils s'appuient principalement sur des caractéristiques superficielles comme la couleur, la taille, la vitesse et la forme lors de la génération de vidéos, suivant un ordre de priorité strict : la couleur en premier, puis la taille, la vitesse et enfin la forme.
Dans des scénarios familiers, ces modèles affichent des performances presque parfaites, mais ils se révèlent impuissants face à des situations inconnues. Une expérience a mis en évidence les limites de ces modèles dans le traitement du mouvement des objets. Par exemple, entraînés avec des sphères se déplaçant rapidement, ils ont montré, lors de tests avec des sphères lentes, une inversion soudaine de la direction de ces dernières après quelques images. Ce phénomène est clairement illustré dans la vidéo associée.
Les chercheurs soulignent que simplement augmenter la taille des modèles ou les données d'entraînement ne résout pas le problème. Bien que des modèles plus grands obtiennent de meilleurs résultats dans des contextes et des combinaisons familiers, ils restent incapables de comprendre les lois physiques fondamentales ou de gérer des scénarios au-delà de leur entraînement. Le co-auteur Kang Bingyi a déclaré : « Si la couverture des données est suffisamment bonne dans un scénario spécifique, il est possible de créer un modèle du monde surapprenant. » Mais un tel modèle ne correspond pas à la définition d'un véritable modèle du monde, car un véritable modèle du monde devrait pouvoir généraliser au-delà des données d'entraînement.
Le co-auteur Bingyi Kang a illustré cette limitation sur X, expliquant que lorsque le modèle était entraîné avec une balle se déplaçant rapidement de gauche à droite et vice-versa, puis testé avec une balle se déplaçant lentement, il montrait la balle changeant soudainement de direction après seulement quelques images (visible à 1 minute 55 secondes dans la vidéo).
Ces résultats remettent en question le projet Sora d'OpenAI. OpenAI avait affirmé que Sora pourrait évoluer vers un véritable modèle du monde grâce à une expansion continue, affirmant même une compréhension élémentaire des interactions physiques et de la géométrie 3D. Cependant, les chercheurs soulignent que la simple augmentation d'échelle ne suffit pas pour permettre aux modèles de génération de vidéos de découvrir les lois physiques fondamentales.
Yann LeCun, responsable de l'IA chez Meta, a également exprimé ses doutes, considérant que la prédiction du monde par génération de pixels est « une perte de temps et vouée à l'échec ». Néanmoins, beaucoup attendent toujours la sortie de Sora par OpenAI d'ici la mi-février 2024, pour démontrer son potentiel en matière de génération de vidéos.
Points clés :
🌟 L'étude révèle d'importantes lacunes dans la compréhension des lois physiques par les modèles de génération de vidéos IA, qui s'appuient sur les caractéristiques superficielles des données d'entraînement.
⚡ L'augmentation de l'échelle des modèles ne résout pas le problème, ces modèles affichant de mauvaises performances dans des scénarios inconnus.
🎥 Le projet Sora d'OpenAI est remis en question, la simple augmentation d'échelle ne permettant pas de créer un véritable modèle du monde.