Recentemente, a equipe do Meta AI lançou o modelo V-JEPA (Video Joint Embedding Predictive Architecture), uma inovação que visa impulsionar o desenvolvimento da inteligência artificial. Os humanos processam naturalmente informações de sinais visuais, identificando objetos e padrões de movimento ao seu redor. Um objetivo importante da aprendizagem de máquina é revelar os princípios básicos que permitem a aprendizagem não supervisionada em humanos. Os pesquisadores propuseram uma hipótese fundamental – o princípio da predição de características – que afirma que as representações de entradas sensoriais contínuas devem ser capazes de se prever mutuamente.

QQ_1740362456122.png

Métodos de pesquisa anteriores utilizavam análise de características lentas e técnicas espectrais para manter a consistência temporal e evitar o colapso da representação. Muitos métodos novos combinam aprendizagem contrastiva e modelagem mascarada para garantir que as representações evoluam continuamente no tempo. As tecnologias modernas não se concentram apenas na invariância temporal, mas também melhoram o desempenho mapeando as relações de características em diferentes passos de tempo por meio do treinamento de redes de previsão. Para dados de vídeo, a aplicação de mascaramento espaço-temporal melhora ainda mais a qualidade das representações aprendidas.

A equipe de pesquisa do Meta, em colaboração com várias instituições de renome, desenvolveu o modelo V-JEPA. Este modelo, com a previsão de características como núcleo, concentra-se na aprendizagem de vídeo não supervisionada. Diferentemente dos métodos tradicionais, ele não depende de codificadores pré-treinados, amostras negativas, reconstrução ou supervisão de texto. O V-JEPA foi treinado usando dois milhões de vídeos públicos e obteve desempenho notável em tarefas de movimento e aparência, sem necessidade de ajuste fino.

O método de treinamento do V-JEPA constrói um modelo de aprendizagem centrado em objetos a partir de dados de vídeo. Primeiro, a rede neural extrai representações centradas em objetos dos quadros de vídeo, capturando características de movimento e aparência. Essas representações são aprimoradas ainda mais por meio da aprendizagem contrastiva para melhorar a separabilidade dos objetos. Em seguida, uma arquitetura baseada em transformadores processa essas representações para simular interações temporais entre os objetos. Toda a estrutura é treinada em um conjunto de dados em larga escala para otimizar a precisão da reconstrução e a consistência entre quadros.

QQ_1740362382811.png

O V-JEPA superou os métodos de previsão de pixels, especialmente na avaliação congelada, exceto por uma ligeira deficiência na tarefa de classificação ImageNet. Após o ajuste fino, o V-JEPA superou outros métodos baseados no modelo ViT-L/16 usando menos amostras de treinamento. O V-JEPA apresenta desempenho excelente em tarefas de compreensão de movimento e vídeo, com maior eficiência de treinamento e manutenção da precisão em cenários de poucas amostras.

Este estudo demonstra a eficácia da previsão de características como um objetivo independente de aprendizagem de vídeo não supervisionada. O V-JEPA apresenta desempenho excelente em várias tarefas de imagem e vídeo e supera os métodos anteriores de representação de vídeo sem adaptação de parâmetros. O V-JEPA tem vantagens na captura de detalhes sutis de movimento, mostrando seu potencial na compreensão de vídeo.

Artigo científico: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

Destaques:

📽️ O modelo V-JEPA é um novo modelo de aprendizagem de vídeo da Meta AI, focado na previsão não supervisionada de características.

🔍 Este modelo não depende de codificadores pré-treinados tradicionais e supervisão de texto, aprendendo diretamente dos dados de vídeo.

⚡ O V-JEPA apresenta excelente desempenho em tarefas de vídeo e aprendizagem com poucas amostras, mostrando sua capacidade de treinamento eficiente e sua poderosa capacidade de representação.