Meta Reality Labs a récemment lancé un modèle d'intelligence artificielle nommé « Sapiens », qui a réalisé des percées significatives dans le traitement des tâches de vision humaine. Spécialement conçu pour analyser et comprendre les personnes et leurs mouvements dans les images ou les vidéos, le modèle Sapiens, entraîné sur plus de 300 millions d'images humaines, affiche des performances exceptionnelles, que ce soit dans des environnements complexes ou avec des données limitées.
Entraîné sur plus de 300 millions d'images humaines, le modèle Sapiens démontre une capacité remarquable à traiter les tâches de vision humaine dans des environnements complexes. Ses principales fonctions incluent l'estimation de la pose 2D, la segmentation des parties du corps, l'estimation de la profondeur et la prédiction des normales de surface. Ces fonctionnalités permettent à Sapiens d'identifier précisément les postures humaines, de distinguer finement les différentes parties du corps et de prédire les informations de profondeur et l'orientation des surfaces des objets dans l'image.
D'un point de vue technique, Sapiens utilise plusieurs méthodes de pointe. Premièrement, il est pré-entraîné sur un ensemble de données à grande échelle comprenant 300 millions d'images, ce qui lui confère une puissante capacité de généralisation. Deuxièmement, Sapiens utilise une architecture de transformateur visuel, capable de traiter des entrées haute résolution et d'effectuer des inférences granulaires. De plus, grâce à l'auto-encodage masqué pré-entraîné et à l'apprentissage multitâche, Sapiens peut apprendre des représentations de caractéristiques robustes et traiter simultanément plusieurs tâches complexes.
Les perspectives d'application de Sapiens sont vastes. Dans les domaines de la vidéosurveillance et de la réalité virtuelle, il peut analyser en temps réel les mouvements et les postures humaines, supportant ainsi la capture de mouvement et l'interaction homme-machine. Dans le domaine médical, Sapiens peut, grâce à une analyse précise des postures et des parties du corps, assister les professionnels de santé dans le suivi des patients et les guider dans leur rééducation. Pour les plateformes de médias sociaux, Sapiens peut analyser les images téléchargées par les utilisateurs, offrant ainsi une expérience interactive plus riche. Dans les domaines de la réalité virtuelle et de la réalité augmentée, il contribue à créer des représentations humaines plus réalistes, améliorant ainsi l'immersion de l'utilisateur.
Les résultats expérimentaux montrent que Sapiens surpasse les méthodes de pointe existantes sur plusieurs tâches. Que ce soit pour la détection de points clés sur le corps entier, le visage, les mains et les pieds, ou pour les tâches de segmentation des parties du corps, d'estimation de la profondeur et de prédiction des normales de surface, Sapiens fait preuve d'une grande précision et d'une grande cohérence.
Adresse du projet : https://about.meta.com/realitylabs/codecavatars/sapiens
Adresse de l'article : https://arxiv.org/pdf/2408.12569