Recentemente, pesquisadores desenvolveram um sistema inovador de inteligência artificial, o DiffSensei, capaz de transformar automaticamente histórias escritas em quadrinhos estilo mangá. Este sistema não apenas mantém a consistência da aparência dos personagens, mas também controla o layout das páginas, demonstrando o enorme potencial da IA na criação de mangás.

O projeto é uma colaboração entre a Universidade de Pequim, o Laboratório de Inteligência Artificial de Xangai e a Universidade Tecnológica de Nanyang, combinando modelos de difusão com modelos de linguagem grandes para lidar com os elementos visuais e narrativos da criação de mangás. Para demonstrar as capacidades do DiffSensei, a equipe de pesquisa criou uma história em quadrinhos fictícia sobre os pioneiros da IA, Geoffrey Hinton, Yann LeCun e Yoshua Bengio. A história em quadrinhos narra como os três cientistas desenvolveram um modelo de IA que superou a arquitetura Transformer e, finalmente, ganharam o Prêmio Nobel.

QQ20250103-093559.png

Imagem: Wu et al.

DiffSensei-Example-2-770x244.jpg

Imagem: Wu et al.

Como o DiffSensei funciona

O DiffSensei utiliza modelos multimodais e a tecnologia LoRA para garantir que os personagens do mangá mantenham uma aparência consistente em cada painel. O sistema cria mangás em três etapas: primeiro, gera o layout da página; em seguida, desenha os personagens; e, finalmente, adiciona o texto da fala.

Para treinar o DiffSensei, os pesquisadores criaram um conjunto de dados chamado MangaZero. Este conjunto de dados contém mais de 43.000 páginas de mangá e 427.000 painéis individuais de 48 séries de mangá diferentes. Cada painel foi cuidadosamente anotado, registrando a posição dos personagens e a localização do diálogo, o que é crucial para o funcionamento adequado do sistema.

DiffSensei-method-770x421.jpg

Imagem: Wu et al.

Potencial futuro e desafios

Embora o DiffSensei demonstre um enorme potencial, o sistema ainda enfrenta alguns desafios. Atualmente, quando a imagem de referência dos personagens não é clara o suficiente, o sistema pode apresentar erros, e às vezes personagens semelhantes podem ser fundidos incorretamente. Além disso, sem uma referência clara dos personagens, a arte gerada pode parecer sem graça e não consegue representar perfeitamente um estilo de mangá específico.

Os pesquisadores acreditam que o DiffSensei poderá simplificar enormemente o processo de criação de mangás no futuro. A tecnologia oferece uma nova ferramenta para artistas, editores e criadores, permitindo-lhes criar facilmente mangás personalizados, mantendo ao mesmo tempo um controle preciso sobre os personagens e o layout das páginas.