Com a crescente realidade das imagens geradas por IA, muitas pessoas, ao assistir a vídeos, não conseguem deixar de se perguntar: isso é uma gravação real? Ou uma obra de IA?
Recentemente, um vídeo do “Quantum Bit” no Bilibili, que explora como usar IA para identificar vídeos gerados por IA, gerou grande discussão, com visualizações ultrapassando 1,68 milhão em pouco tempo. Vamos ver como a IA consegue “identificar” a IA.
O vídeo apresenta algumas dicas para identificar vídeos de IA a olho nu. Por exemplo, observar se os personagens fazem movimentos ou expressões faciais pouco naturais, se a voz, a sincronia labial e as emoções durante a fala são coerentes. Mas, diante de uma quantidade enorme de vídeos, a força de trabalho humana é claramente insuficiente, sendo necessário o uso da IA.
Na identificação de vídeos com troca de rosto feita por IA, a IA tem vantagens únicas. A tecnologia de troca de rosto por IA geralmente consiste em inserir partes sintéticas quadro a quadro no vídeo original. Embora o olho humano possa apenas sentir que “algo está estranho”, a IA consegue localizar com precisão essas “marcas de edição”. Assim como cada pessoa tem uma impressão digital única, as informações de iluminação, textura etc. de diferentes vídeos são difíceis de replicar perfeitamente, e essas pequenas diferenças são a chave para a identificação pela IA.
Para vídeos gerados totalmente por IA, o método de identificação é mais complexo. Uma equipe de pesquisa, a partir das características do modelo, características de movimento e características de profundidade monocular geométrica, treinou três classificadores. Tomando como exemplo os vídeos gerados pelo Sora, a instabilidade na quantidade de pessoas e animais, as mudanças anormais de cor e sombra no movimento dos objetos e os erros de perspectiva e proporção durante a filmagem são pistas importantes para a identificação pela IA.
Mais interessante ainda é que os pesquisadores descobriram um novo método chamado DIVID. Eles descobriram que, se vídeos de IA e vídeos reais forem submetidos a um modelo de difusão para regeneração, os resultados serão muito diferentes. Os pixels dos vídeos gerados por IA tendem a estar mais próximos da média dos dados de treinamento, enquanto os vídeos criados por humanos apresentarão personalidades distintas em vários aspectos. Com base nessa característica, o algoritmo DIVID, desenvolvido para identificar vídeos gerados pelo Sora, atingiu uma precisão de 93,7%.
O surgimento desses métodos de identificação por IA, sem dúvida, fornece uma arma poderosa para combater a disseminação de informações falsas. Eles são como olhos de lince no mundo digital, ajudando-nos a discernir o verdadeiro do falso no oceano de informações.