Recentemente, um projeto de código aberto chamado Ultralight-Digital-Human gerou grande interesse na comunidade de desenvolvedores. Este projeto resolveu com sucesso o desafio da implantação de tecnologia de humanos digitais em dispositivos móveis, permitindo que smartphones comuns executem aplicativos de humanos digitais em tempo real, abrindo novas possibilidades para a popularização dessa tecnologia.
Este modelo de humano digital ultraleve emprega uma inovadora técnica de aprendizado profundo. Através da otimização de algoritmos e da compressão de modelos, o sistema massivo de humanos digitais foi "emagrecido" para funcionar perfeitamente em dispositivos móveis. O sistema suporta o processamento em tempo real de entrada de vídeo e áudio, e pode sintetizar rapidamente imagens de humanos digitais com resposta rápida e operação suave.
Em termos de implementação técnica, o projeto integra duas soluções de extração de recursos de áudio, Wenet e Hubert, permitindo que os desenvolvedores escolham a solução mais adequada para cenários de aplicação específicos. Ao introduzir a tecnologia de sincronização de rede (syncnet), a sincronização labial do humano digital foi significativamente melhorada. Para garantir a operação suave em dispositivos móveis, a equipe de desenvolvimento utilizou a técnica de poda de parâmetros durante o treinamento e a implantação, reduzindo efetivamente a demanda por recursos computacionais.
Outro destaque do projeto é a disponibilização de um documento completo do processo de treinamento. Os desenvolvedores precisam apenas preparar um vídeo de rosto de alta qualidade com duração de 3 a 5 minutos para começar a treinar seu próprio modelo de humano digital, seguindo as instruções. O sistema também especifica os requisitos de vídeo: o modo Wenet requer uma taxa de quadros de 20 fps, enquanto o modo Hubert requer 25 fps.
Para garantir a eficácia do treinamento, a equipe do projeto lembra os desenvolvedores de prestar atenção aos seguintes pontos críticos: priorizar modelos pré-treinados como base; garantir a qualidade dos dados de treinamento; monitorar regularmente o processo de treinamento; e ajustar os parâmetros de treinamento conforme necessário. Esses detalhes afetarão diretamente o resultado final do humano digital.
Atualmente, este projeto de código aberto já demonstra um enorme potencial em áreas como aplicativos sociais, jogos para dispositivos móveis e realidade virtual. Em comparação com as tecnologias tradicionais de humanos digitais, ele não apenas reduz os requisitos de hardware, mas também oferece compatibilidade multiplataforma, permitindo uma operação estável em vários smartphones.
Endereço do projeto: https://github.com/anliyuan/Ultralight-Digital-Human