OmniHuman-1 es un marco de generación de vídeo humano condicional multimodal de extremo a extremo, capaz de generar vídeos humanos basados en una sola imagen de persona y señales de movimiento (como audio, vídeo o una combinación de ambos). Esta tecnología supera el problema de la escasez de datos de alta calidad mediante una estrategia de entrenamiento mixto, admite la entrada de imágenes con cualquier relación de aspecto y genera vídeos humanos realistas. Destaca por su rendimiento con entradas de señales débiles (especialmente audio) y es adecuado para diversas escenas, como presentadores virtuales y producción de vídeo.