在人工智能领域,每一天都可能发生颠覆性的变革。就在Midjourney刚刚进行大更新的第二天,开源图像生成领域就迎来了一匹令人瞩目的黑马——FLUX.1。这个突如其来的新玩家不仅在性能上声称大幅超越了DALL·E3、Midjourney V6等闭源模型,还将开源的SD3系列全线秒杀,瞬间引爆了AI圈。
让我们先来认识一下FLUX.1的幕后主脑。它的创始人Robin Rombach可不是什么无名之辈,而是扩散模型领域的权威专家。他的代表作包括VQGAN、Taming Transformers和Latent Diffusion,曾担任Stability AI的首席科学家,领导了全球知名的Stable Diffusion系列项目。可以说,Robin Rombach在AI图像生成领域可谓是"老司机"中的"老司机"。
今年3月,由于Stability AI内部出现动荡,Robin选择离开。经过四个月的沉淀,他带着新的开源大模型平台FLUX.1重磅回归。更令人惊讶的是,FLUX.1一亮相就获得了由著名风投机构Andreessen Horowitz领投的3200万美元种子轮融资。这无疑为FLUX.1的未来发展注入了强心剂。
那么,FLUX.1到底有什么过人之处?首先,它基于Vision Transformer架构,采用了流程匹配训练方法,并使用旋转位置嵌入和并行注意层来提升模型性能和硬件利用效率。这120亿参数的模型推出了三个版本:
Pro版:通过API使用,性能最强劲。
Dev版:非商用的指导蒸馏模型,继承了Pro版的大部分性能。
Schnell版:可以商用的开源模型,性能也相当出色。
根据FLUX.1团队的测试数据,即便是开源的Schnell版本,在文本语义还原、图片质量、动作一致性、连贯性和多样性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特别是在文本嵌入图片方面,FLUX.1展现出了明显的优势。
这里,AIbase挑选了几张官方的生成效果展示,大家可以参考一下:
真实摄影图片
提示词:一台机器产生无尽的宝丽来图像并将其吹向空中。实景国家地理照片
提示词:旧教室里黑板的照片。黑板上用粉笔写着“让我们一起做一些非常漂亮的东西”,单词后面有一个红色的粉笔心。阳光从窗户照进来
超现实主义图片
提示词:由 hajime sorayama 设计的抽象 chrome80年代科幻自动机喷枪静态物体、单一垂直线、生成艺术、p5js、抖动
提示词:甜甜圈 耶稣 混合 神话中的生物
动物形象图片
提示词:两只穿着维多利亚风格服装的可爱蜘蛛正在举行一场小型茶会,旁边是一张小桌子,叶子上放着茶壶,微距照片
提示词:特写自由度渲染一个神话中的生物,由详细的螺旋分形和卷须,详细的递归皮肤纹理
动漫图片
提示词:精美的动漫作品,一个可爱的动漫猫女,看上去心情很沮丧,手里拿着一张纸,纸上画着一个微笑,她快要哭了
AIbase测试了一下之前的猫猫守护神,也完全没问题,FLUX.1对提示词的理解比较准确。
当然,FLUX.1的野心显然不止于此。团队表示,文生图只是一个开始,未来他们还计划推出文生视频模型,挑战Sora、Gen-3、Luma等一线产品。
对于开发者和AI爱好者来说,FLUX.1的出现无疑是一个重大利好。Schnell版本已经完全开源,并获得了Comfyui的支持。如果你有36G以上的显存,甚至可以运行t5的fp16版本。不过需要注意的是,t5xxl_fp16.safetensors或clip_l.safetensors以及VAE需要单独下载。
FLUX.1的横空出世,不仅为开源AI图像生成领域带来了新的希望,也为整个AI行业注入了新的活力。它的强大性能和开源特性,很可能会加速AI图像生成技术的普及和创新。对于普通用户来说,这意味着我们可能很快就能在家用电脑上运行媲美甚至超越Midjourney的AI图像生成模型。
项目地址:https://github.com/black-forest-labs/flux
试玩地址:https://replicate.com/black-forest-labs/flux-pro
Comfyui工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/