Meta Reality Labs ha lanzado recientemente un modelo de inteligencia artificial llamado "Sapiens", que ha logrado un gran avance en el procesamiento de tareas de visión humana. Sapiens está diseñado específicamente para analizar y comprender a las personas y sus acciones en imágenes o videos. Entrenado rigurosamente con más de 300 millones de imágenes humanas, demuestra un rendimiento excepcional tanto en entornos complejos como con escasez de datos.

El modelo Sapiens, entrenado con más de 300 millones de imágenes humanas, muestra una capacidad excepcional para manejar tareas de visión humana en entornos complejos. Sus funciones principales incluyen la estimación de postura 2D, la segmentación de partes del cuerpo, la estimación de profundidad y la predicción de normales de superficie. Estas funciones permiten a Sapiens identificar con precisión la postura corporal, diferenciar con detalle las diferentes partes del cuerpo y predecir la información de profundidad y la orientación de la superficie de los objetos en la imagen.

image.png

Desde una perspectiva técnica, Sapiens utiliza varios métodos avanzados. Primero, se preentrena en un conjunto de datos a gran escala que contiene 300 millones de imágenes, lo que proporciona al modelo una potente capacidad de generalización. Segundo, Sapiens emplea una arquitectura de transformador visual, capaz de procesar entradas de alta resolución y realizar inferencias de grano fino. Además, mediante el preentrenamiento con autocodificadores enmascarados y el aprendizaje multitarea, Sapiens puede aprender representaciones de características robustas y procesar simultáneamente múltiples tareas complejas.

Las perspectivas de aplicación de Sapiens son muy amplias. En el ámbito de la videovigilancia y la realidad virtual, puede analizar en tiempo real los movimientos y posturas humanas, proporcionando soporte para la captura de movimiento y la interacción humano-computadora. En el campo médico, Sapiens puede ayudar a los profesionales de la salud a monitorear a los pacientes y guiar su rehabilitación mediante un análisis preciso de la postura y las partes del cuerpo. Para las plataformas de redes sociales, Sapiens puede utilizarse para analizar las imágenes subidas por los usuarios, ofreciendo experiencias interactivas más ricas. En el campo de la realidad virtual y la realidad aumentada, ayuda a crear representaciones humanas más realistas, mejorando la experiencia inmersiva del usuario.

Los resultados experimentales muestran que Sapiens supera a los métodos más avanzados existentes en varias tareas. Tanto en la detección de puntos clave en todo el cuerpo, la cara, las manos y los pies, como en las tareas de segmentación de partes del cuerpo, estimación de profundidad y predicción de normales de superficie, Sapiens demuestra alta precisión y consistencia.

Dirección del proyecto: https://about.meta.com/realitylabs/codecavatars/sapiens

Dirección del artículo: https://arxiv.org/pdf/2408.12569