Recentemente, uma pesquisa liderada por Yann LeCun, cientista-chefe de IA do Meta, revelou como a inteligência artificial pode desenvolver uma compreensão básica de física apenas assistindo a vídeos. Conduzido por cientistas do Meta FAIR, da Universidade de Paris e da EHESS, o estudo demonstra que um sistema de IA pode adquirir conhecimento físico intuitivo por meio de aprendizado autossupervisionado, sem regras predefinidas.

QQ_1739931962266.png

A equipe de pesquisa utilizou um novo método chamado arquitetura de previsão de incorporação conjunta de vídeo (V-JEPA). Diferentemente de modelos de IA generativos como o Sora da OpenAI, o V-JEPA funciona de forma mais semelhante ao processamento de informações do cérebro humano. O V-JEPA não busca gerar previsões de pixels perfeitas, mas sim se concentra em fazer previsões em um espaço de representação abstrato. Dessa forma, o sistema de IA consegue aprender conceitos físicos básicos.

No estudo, a equipe utilizou o método de avaliação de "violação de expectativa" da psicologia do desenvolvimento, inicialmente usado para testar a compreensão física de bebês. Os pesquisadores mostraram à IA dois cenários semelhantes – um fisicamente possível e outro fisicamente impossível (por exemplo, uma bola passando por uma parede). Medindo as reações a essas violações físicas, foi possível avaliar a compreensão física da IA.

O V-JEPA foi testado em três conjuntos de dados: IntPhys (conceitos físicos básicos), GRASP (interações complexas) e InfLevel (ambiente real). Os resultados mostraram que o V-JEPA teve um desempenho excepcional em constância de objeto, continuidade e consistência de forma, enquanto modelos de linguagem multimodal grandes como Gemini1.5Pro e Qwen2-VL-72B tiveram um desempenho quase equivalente a um palpite aleatório.

A eficiência de aprendizado do V-JEPA também é notável. O sistema precisou apenas de 128 horas de vídeo para dominar conceitos físicos básicos. Além disso, até mesmo um modelo menor com 115 milhões de parâmetros apresentou resultados robustos. A pesquisa indica que o V-JEPA consegue identificar padrões de movimento e reconhecer eventos fisicamente irreais com alta precisão, lançando as bases para um futuro em que a IA realmente compreenda o mundo.

Este estudo desafia uma suposição fundamental em muitas pesquisas de IA: a de que o sistema precisa de "conhecimento básico" predefinido para entender as leis da física. A descoberta do V-JEPA sugere que o aprendizado por observação pode ajudar a IA a adquirir esse conhecimento, semelhante ao processo de compreensão física de bebês, primatas e até mesmo pássaros jovens. A pesquisa se alinha com o objetivo de longo prazo do Meta de explorar a arquitetura JEPA, visando criar modelos de mundo abrangentes que permitam que sistemas de IA autônomos compreendam melhor seu ambiente.

Destaques:

🧠 A pesquisa mostra que a IA aprende conhecimento físico através de vídeos, sem regras predefinidas.

📊 O V-JEPA supera os grandes modelos de linguagem na compreensão da física, demonstrando maior capacidade de aprendizagem.

🌍 O Meta impulsiona uma nova direção no desenvolvimento de IA, buscando criar modelos de compreensão ambiental mais abrangentes.