Das Meta AI-Team hat kürzlich das Video Joint Embedding Predictive Architecture (V-JEPA) Modell vorgestellt, eine Innovation, die die Entwicklung der künstlichen Intelligenz vorantreiben soll. Menschen verarbeiten Informationen aus visuellen Signalen ganz natürlich und erkennen so Objekte und Bewegungsmuster in ihrer Umgebung. Ein wichtiges Ziel des maschinellen Lernens ist es, die grundlegenden Prinzipien aufzudecken, die dem menschlichen unüberwachten Lernen zugrunde liegen. Die Forscher stellten eine zentrale Hypothese auf – das Prinzip der Merkmalsprognose –, die besagt, dass Repräsentationen kontinuierlicher sensorischer Eingaben einander vorhersagen können sollten.

QQ_1740362456122.png

Frühere Forschungsansätze nutzten die langsame Merkmalsanalyse und Spektraltechniken, um die zeitliche Konsistenz zu wahren und einen Zusammenbruch der Repräsentation zu verhindern. Viele neue Methoden kombinieren nun kontrastives Lernen und Maskierungsmodellierung, um sicherzustellen, dass sich die Repräsentationen im Zeitverlauf weiterentwickeln. Moderne Techniken konzentrieren sich nicht nur auf die Zeitinvarianz, sondern verbessern die Leistung auch durch das Trainieren von Prognose-Netzwerken, die die Beziehungen zwischen Merkmalen zu verschiedenen Zeitpunkten abbilden. Bei Videodaten verbessert die Anwendung der räumlich-zeitlichen Maskierung die Qualität der gelernten Repräsentationen weiter.

Das Forschungsteam von Meta hat in Zusammenarbeit mit mehreren renommierten Institutionen das V-JEPA-Modell entwickelt. Dieses Modell basiert auf der Merkmalsprognose und konzentriert sich auf unüberwachtes Video-Lernen. Im Gegensatz zu traditionellen Methoden verzichtet es auf vortrainierte Encoder, negative Stichproben, Rekonstruktion oder textuelle Aufsicht. V-JEPA wurde mit zwei Millionen öffentlichen Videos trainiert und erzielte bemerkenswerte Ergebnisse bei Bewegungs- und Aussehenaufgaben, ohne dass ein Feintuning erforderlich war.

Die Trainingsmethode von V-JEPA basiert auf der Erstellung eines objektzentrierten Lernmodells aus Videodaten. Zunächst extrahiert ein neuronales Netzwerk objektzentrierte Repräsentationen aus Videobildern und erfasst Bewegungs- und Aussehenmerkmale. Diese Repräsentationen werden durch kontrastives Lernen weiter verbessert, um die Objekt-Trennung zu erhöhen. Anschließend verarbeitet eine Transformer-Architektur diese Repräsentationen, um die zeitlichen Interaktionen zwischen Objekten zu simulieren. Das gesamte Framework wird mit einem großen Datensatz trainiert, um die Genauigkeit der Rekonstruktion und die Konsistenz zwischen den Bildern zu optimieren.

QQ_1740362382811.png

V-JEPA übertrifft Pixel-Prognosemethoden, insbesondere bei der Bewertung mit fixierten Parametern, außer bei der ImageNet-Klassifizierung, wo es leicht hinterherhinkt. Nach dem Feintuning übertrifft V-JEPA andere Methoden, die auf dem ViT-L/16-Modell basieren, bei Verwendung weniger Trainingsdaten. V-JEPA zeigt eine hervorragende Leistung bei Bewegungsverständnis und Videoaufgaben, eine höhere Trainingseffizienz und behält auch bei wenigen Daten seine Genauigkeit bei.

Diese Forschung zeigt die Wirksamkeit der Merkmalsprognose als eigenständiges Ziel für unüberwachtes Video-Lernen. V-JEPA erzielt hervorragende Ergebnisse bei verschiedenen Bild- und Videoaufgaben und übertrifft bestehende Video-Repräsentationsmethoden ohne Anpassung der Parameter. V-JEPA zeichnet sich durch die Erfassung feiner Bewegungsdetails aus und zeigt sein Potenzial im Bereich des Videoverständnisses.

Artikel: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

Wichtigste Punkte:

📽️ V-JEPA ist ein neues Video-Lernmodell von Meta AI, das sich auf unüberwachte Merkmalsprognose konzentriert.

🔍 Das Modell verzichtet auf traditionelle vortrainierte Encoder und textuelle Aufsicht und lernt direkt aus Videodaten.

⚡ V-JEPA zeigt hervorragende Ergebnisse bei Videoaufgaben und Lernen mit wenigen Daten und demonstriert so seine effiziente Trainingsfähigkeit und seine starke Repräsentationsfähigkeit.