Recientemente, el equipo de Meta AI presentó el modelo V-JEPA (Video Joint Embedding Predictive Architecture), una innovación que busca impulsar el desarrollo de la inteligencia artificial. Los humanos procesamos naturalmente la información de las señales visuales para identificar objetos y patrones de movimiento a nuestro alrededor. Un objetivo importante del aprendizaje automático es desentrañar los principios básicos que permiten el aprendizaje no supervisado en humanos. Los investigadores plantearon una hipótesis clave: el principio de predicción de características, que sugiere que las representaciones de entradas sensoriales consecutivas deberían poder predecirse mutuamente.
Los métodos de investigación anteriores utilizaban el análisis de características lentas y técnicas espectrales para mantener la coherencia temporal y evitar el colapso de la representación. Muchos métodos nuevos combinan el aprendizaje por contraste y el modelado enmascarado para asegurar que las representaciones evolucionen con el tiempo. Las técnicas modernas no solo se centran en la invariancia temporal, sino que también mejoran el rendimiento al entrenar redes de predicción para mapear las relaciones entre características en diferentes pasos de tiempo. Para los datos de vídeo, la aplicación del enmascaramiento espacio-temporal mejora aún más la calidad de las representaciones aprendidas.
El equipo de investigación de Meta, en colaboración con varias instituciones de renombre, desarrolló el modelo V-JEPA. Este modelo, centrado en la predicción de características, se enfoca en el aprendizaje de vídeo no supervisado. A diferencia de los métodos tradicionales, no depende de codificadores preentrenados, muestras negativas, reconstrucción o supervisión de texto. V-JEPA se entrenó con dos millones de vídeos públicos y obtuvo un rendimiento notable en tareas de movimiento y apariencia, sin necesidad de ajuste fino.
El método de entrenamiento de V-JEPA construye un modelo de aprendizaje centrado en objetos a partir de datos de vídeo. Primero, la red neuronal extrae representaciones centradas en objetos de los fotogramas de vídeo, capturando características de movimiento y apariencia. Estas representaciones se mejoran mediante el aprendizaje por contraste para aumentar la separabilidad de los objetos. A continuación, una arquitectura basada en transformadores procesa estas representaciones para simular las interacciones temporales entre los objetos. El marco completo se entrena con un conjunto de datos a gran escala para optimizar la precisión de la reconstrucción y la coherencia entre fotogramas.
V-JEPA superó a los métodos de predicción de píxeles, especialmente en la evaluación congelada, aunque mostró un rendimiento ligeramente inferior en la tarea de clasificación de ImageNet. Después del ajuste fino, V-JEPA superó a otros métodos basados en el modelo ViT-L/16 utilizando menos muestras de entrenamiento. V-JEPA mostró un excelente rendimiento en la comprensión del movimiento y las tareas de vídeo, con una mayor eficiencia de entrenamiento y manteniendo la precisión en entornos de bajo número de muestras.
Esta investigación demuestra la eficacia de la predicción de características como objetivo independiente del aprendizaje de vídeo no supervisado. V-JEPA obtuvo un excelente rendimiento en diversas tareas de imagen y vídeo, superando a los métodos anteriores de representación de vídeo sin necesidad de adaptación de parámetros. V-JEPA tiene una ventaja en la captura de detalles de movimiento sutiles, mostrando su potencial en la comprensión de vídeo.
Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
Puntos clave:
📽️ V-JEPA es un nuevo modelo de aprendizaje de vídeo de Meta AI que se centra en la predicción de características no supervisada.
🔍 Este modelo no depende de codificadores preentrenados tradicionales ni de supervisión de texto, aprendiendo directamente de los datos de vídeo.
⚡ V-JEPA muestra un excelente rendimiento en tareas de vídeo y aprendizaje con pocos ejemplos, demostrando su eficiente capacidad de entrenamiento y su potente capacidad de representación.