Recientemente, investigadores han desarrollado un innovador sistema de inteligencia artificial, DiffSensei, capaz de convertir automáticamente historias escritas en cómics estilo manga. Este sistema no solo mantiene la coherencia en la apariencia de los personajes, sino que también controla el diseño de las páginas del cómic, demostrando un enorme potencial de la IA en la creación de cómics.
Este proyecto, una colaboración entre la Universidad de Pekín, el Laboratorio de Inteligencia Artificial de Shanghái y la Universidad Tecnológica de Nanyang, combina modelos de difusión con modelos de lenguaje grandes para gestionar los elementos visuales y narrativos de la creación de cómics. Para mostrar las capacidades de DiffSensei, el equipo de investigación creó un cómic ficticio sobre las historias de los pioneros de la IA, Geoffrey Hinton, Yann LeCun y Yoshua Bengio. El cómic narra cómo estos tres científicos desarrollaron modelos de IA que superaron la arquitectura Transformer y, finalmente, obtuvieron el Premio Nobel.
Imagen: Wu et al.
Imagen: Wu et al.
Funcionamiento de DiffSensei
DiffSensei utiliza modelos multimodales y la técnica LoRA para asegurar que los personajes del cómic mantengan una apariencia consistente en cada viñeta. El sistema crea el cómic en tres pasos: primero genera el diseño de la página, luego dibuja los personajes y finalmente añade el texto de los diálogos.
Para entrenar a DiffSensei, los investigadores crearon un conjunto de datos llamado MangaZero. Este conjunto de datos contiene más de 43.000 páginas de cómics y 427.000 viñetas individuales de 48 series de manga diferentes. Cada viñeta está meticulosamente anotada, registrando la posición de los personajes y los diálogos, lo cual es crucial para el correcto funcionamiento del sistema.
Imagen: Wu et al.
Potencial futuro y desafíos
Aunque DiffSensei muestra un gran potencial, el sistema aún enfrenta algunos desafíos. Actualmente, cuando la imagen de referencia de un personaje no es lo suficientemente clara, el sistema puede cometer errores, a veces fusionando erróneamente personajes similares. Además, si no hay una referencia clara del personaje, la obra de arte generada puede parecer insípida y no puede representar perfectamente un estilo de cómic específico.
Los investigadores creen que DiffSensei podría simplificar enormemente el proceso de creación de cómics en el futuro. Esta tecnología ofrece a artistas, editores y creadores una nueva herramienta que les permite crear fácilmente cómics personalizados, manteniendo al mismo tiempo un control preciso sobre los personajes y el diseño de las páginas.