近日,研究人员开发了一种创新的人工智能系统——DiffSensei,能够自动将书面故事转换成漫画风格。这一系统不仅可以保持角色外观的一致性,还能控制漫画页面的布局,展现了AI在漫画创作领域的巨大潜力。

该项目是由北京大学、上海人工智能实验室和南洋理工大学联合研发的,结合了扩散模型与大型语言模型,旨在处理漫画创作中的视觉和叙事元素。为了展示DiffSensei的功能,研究团队创作了一部虚构漫画,讲述了人工智能领域先驱杰弗里·辛顿、扬·勒昆和约书亚·本吉奥的故事。漫画讲述了三位科学家如何开发能够超越Transformer架构的人工智能模型,并最终获得诺贝尔奖。

QQ20250103-093559.png

Image: Wu et al.

DiffSensei-Example-2-770x244.jpg

Image: Wu et al.

DiffSensei的工作原理

DiffSensei使用多模态模型和LoRA技术,确保漫画中的角色在每个面板上保持一致的外观。该系统通过三步实现漫画创作:首先是生成页面布局,接着绘制角色,最后添加对话文本。

为了训练DiffSensei,研究人员构建了一个名为MangaZero的数据集。该数据集包含了来自48个不同漫画系列的43,000多页漫画和427,000个单独面板,每个面板都进行了详细标注,记录了角色位置和对话位置,这对于系统的顺利运行至关重要。

DiffSensei-method-770x421.jpg

Image: Wu et al.

未来的潜力与挑战

尽管DiffSensei展示了巨大的潜力,但该系统仍然面临一些挑战。当前,当角色的参考图像不够清晰时,系统可能会出现错误,有时相似人物会被误融合。而且,若没有明确的角色参考,生成的艺术作品可能显得平淡,无法完美呈现特定漫画风格。

研究人员相信,DiffSensei能够在未来极大地简化漫画制作过程。该技术为艺术家、出版商和创作者提供了一个新的工具,使他们能够轻松制作个性化的漫画,同时保持对角色和页面布局的精确控制。