Récemment, des chercheurs ont développé un système d'intelligence artificielle innovant, DiffSensei, capable de transformer automatiquement des histoires écrites en bandes dessinées de style manga. Ce système non seulement préserve la cohérence de l'apparence des personnages, mais contrôle également la mise en page des pages de la bande dessinée, démontrant ainsi l'énorme potentiel de l'IA dans la création de mangas.
Ce projet, une collaboration entre l'Université de Pékin, le laboratoire d'intelligence artificielle de Shanghai et l'Université technologique de Nanyang, combine des modèles de diffusion et des grands modèles de langage pour traiter les éléments visuels et narratifs de la création de mangas. Pour illustrer les capacités de DiffSensei, l'équipe de recherche a créé une bande dessinée fictive retraçant l'histoire de Geoffrey Hinton, Yann LeCun et Yoshua Bengio, pionniers de l'intelligence artificielle. La bande dessinée raconte comment ces trois scientifiques ont développé des modèles d'IA dépassant l'architecture Transformer et ont finalement obtenu le prix Nobel.
Image : Wu et al.
Image : Wu et al.
Fonctionnement de DiffSensei
DiffSensei utilise des modèles multimodaux et la technologie LoRA pour garantir la cohérence de l'apparence des personnages dans chaque case de la bande dessinée. Le système crée la bande dessinée en trois étapes : il génère d'abord la mise en page, puis dessine les personnages, et enfin ajoute les dialogues.
Pour entraîner DiffSensei, les chercheurs ont créé un ensemble de données appelé MangaZero. Cet ensemble de données contient plus de 43 000 pages de mangas provenant de 48 séries différentes et 427 000 cases individuelles, chacune étant annotée en détail, indiquant la position des personnages et des dialogues, ce qui est crucial pour le bon fonctionnement du système.
Image : Wu et al.
Potentiel futur et défis
Bien que DiffSensei présente un potentiel énorme, le système est encore confronté à certains défis. Actuellement, lorsque l'image de référence d'un personnage n'est pas suffisamment claire, le système peut faire des erreurs, et des personnages similaires peuvent parfois être fusionnés par erreur. De plus, sans référence claire des personnages, les œuvres d'art générées peuvent paraître fades et ne pas parfaitement refléter un style de manga spécifique.
Les chercheurs estiment que DiffSensei pourrait simplifier considérablement le processus de création de mangas à l'avenir. Cette technologie offre aux artistes, aux éditeurs et aux créateurs un nouvel outil leur permettant de créer facilement des mangas personnalisés tout en conservant un contrôle précis sur les personnages et la mise en page.