Recientemente, investigadores del Instituto ByteDance y la Universidad Tsinghua publicaron un nuevo estudio que indica que los actuales modelos de generación de video con IA, como Sora de OpenAI, aunque capaces de crear impresionantes efectos visuales, presentan importantes deficiencias en la comprensión de las leyes físicas básicas. Este estudio ha generado un amplio debate sobre la capacidad de la IA para simular la realidad.
El equipo de investigación probó modelos de generación de video con IA en tres escenarios diferentes: predicción en patrones conocidos, predicción en patrones desconocidos y nuevas combinaciones de elementos familiares. Su objetivo era determinar si estos modelos realmente aprendían las leyes físicas o simplemente se basaban en características superficiales de su entrenamiento.
Las pruebas revelaron que estos modelos de IA no habían aprendido reglas universalmente aplicables. Por el contrario, al generar videos, se basan principalmente en características superficiales como el color, el tamaño, la velocidad y la forma, siguiendo un estricto orden de prioridad: el color primero, seguido del tamaño, la velocidad y la forma.
En escenarios familiares, estos modelos funcionan casi a la perfección, pero ante situaciones desconocidas se muestran incapaces. Una prueba del estudio mostró las limitaciones de los modelos de IA al procesar el movimiento de objetos. Por ejemplo, cuando el modelo se entrenó con esferas que se movían rápidamente de un lado a otro, y en la prueba se le presentaron esferas que se movían lentamente, el modelo mostró que las esferas cambiaban de dirección repentinamente después de unas pocas imágenes. Este fenómeno se muestra claramente en el video relacionado.
Los investigadores señalan que simplemente aumentar el tamaño del modelo o la cantidad de datos de entrenamiento no resuelve el problema. Aunque los modelos más grandes funcionan mejor con patrones y combinaciones familiares, siguen siendo incapaces de comprender las leyes físicas básicas o de manejar escenarios que se salen del ámbito de su entrenamiento. El coautor, Bingyi Kang, mencionó: "Si la cobertura de datos es suficientemente buena en un escenario específico, tal vez se pueda formar un modelo mundial sobreajustado". Pero este modelo no se ajusta a la definición de un verdadero modelo mundial, ya que un verdadero modelo mundial debería poder extrapolar más allá de los datos de entrenamiento.
El coautor Bingyi Kang demostró esta limitación en X, explicando que cuando entrenaron el modelo con una bola moviéndose rápidamente de izquierda a derecha y viceversa, y luego lo probaron con una bola que se movía lentamente, el modelo mostró que la bola cambiaba de dirección repentinamente después de solo unas pocas imágenes (se puede ver en el video a partir del minuto 1:55).
Los resultados de esta investigación suponen un desafío para el proyecto Sora de OpenAI. OpenAI había afirmado que Sora podría convertirse en un verdadero modelo mundial a través de la expansión continua, incluso afirmando que ya tenía una comprensión básica de la interacción física y la geometría tridimensional. Pero los investigadores señalan que el simple aumento de escala no es suficiente para que los modelos de generación de video descubran las leyes físicas básicas.
Yann LeCun, responsable de IA de Meta, también expresó sus dudas, considerando que la predicción del mundo mediante la generación de píxeles es "una pérdida de tiempo y está destinada al fracaso". A pesar de ello, muchos esperan que OpenAI lance Sora a mediados de febrero de 2024, mostrando su potencial en la generación de video.
Puntos clave:
🌟 El estudio revela que los modelos de generación de video con IA presentan importantes deficiencias en la comprensión de las leyes físicas, dependiendo de las características superficiales de los datos de entrenamiento.
⚡ Aumentar el tamaño del modelo no resuelve el problema; estos modelos funcionan mal en escenarios desconocidos.
🎥 El proyecto Sora de OpenAI enfrenta desafíos; el simple aumento de escala no permite crear un verdadero modelo mundial.