AI图像生成迎来新霸主！开源模型FLUX.1横空出世，Midjourney、DALL·E 3紧张了？

在人工智能领域，每一天都可能发生颠覆性的变革。就在Midjourney刚刚进行大更新的第二天，开源图像生成领域就迎来了一匹令人瞩目的黑马——FLUX.1。这个突如其来的新玩家不仅在性能上声称大幅超越了DALL·E3、Midjourney V6等闭源模型，还将开源的SD3系列全线秒杀，瞬间引爆了AI圈。

让我们先来认识一下FLUX.1的幕后主脑。它的创始人Robin Rombach可不是什么无名之辈，而是扩散模型领域的权威专家。他的代表作包括VQGAN、Taming Transformers和Latent Diffusion，曾担任Stability AI的首席科学家，领导了全球知名的Stable Diffusion系列项目。可以说，Robin Rombach在AI图像生成领域可谓是"老司机"中的"老司机"。

今年3月，由于Stability AI内部出现动荡，Robin选择离开。经过四个月的沉淀，他带着新的开源大模型平台FLUX.1重磅回归。更令人惊讶的是，FLUX.1一亮相就获得了由著名风投机构Andreessen Horowitz领投的3200万美元种子轮融资。这无疑为FLUX.1的未来发展注入了强心剂。

那么，FLUX.1到底有什么过人之处?首先，它基于Vision Transformer架构，采用了流程匹配训练方法，并使用旋转位置嵌入和并行注意层来提升模型性能和硬件利用效率。这120亿参数的模型推出了三个版本:

Pro版:通过API使用，性能最强劲。
Dev版:非商用的指导蒸馏模型，继承了Pro版的大部分性能。
Schnell版:可以商用的开源模型，性能也相当出色。

根据FLUX.1团队的测试数据，即便是开源的Schnell版本，在文本语义还原、图片质量、动作一致性、连贯性和多样性等方面，也超越了Midjourney v6.0、DALL·E3（HD）和SD3-Ultra等主流模型。特别是在文本嵌入图片方面，FLUX.1展现出了明显的优势。

这里，AIbase挑选了几张官方的生成效果展示，大家可以参考一下:

真实摄影图片

提示词：一台机器产生无尽的宝丽来图像并将其吹向空中。实景国家地理照片

提示词:旧教室里黑板的照片。黑板上用粉笔写着“让我们一起做一些非常漂亮的东西”，单词后面有一个红色的粉笔心。阳光从窗户照进来

超现实主义图片

提示词:由 hajime sorayama 设计的抽象 chrome80年代科幻自动机喷枪静态物体、单一垂直线、生成艺术、p5js、抖动

提示词:甜甜圈耶稣混合神话中的生物

动物形象图片

提示词:两只穿着维多利亚风格服装的可爱蜘蛛正在举行一场小型茶会，旁边是一张小桌子，叶子上放着茶壶，微距照片

提示词:特写自由度渲染一个神话中的生物，由详细的螺旋分形和卷须，详细的递归皮肤纹理

动漫图片

提示词:精美的动漫作品，一个可爱的动漫猫女，看上去心情很沮丧，手里拿着一张纸，纸上画着一个微笑，她快要哭了

QQ截图20240802091854.jpg

AIbase测试了一下之前的猫猫守护神，也完全没问题，FLUX.1对提示词的理解比较准确。

当然，FLUX.1的野心显然不止于此。团队表示，文生图只是一个开始，未来他们还计划推出文生视频模型，挑战Sora、Gen-3、Luma等一线产品。

对于开发者和AI爱好者来说，FLUX.1的出现无疑是一个重大利好。Schnell版本已经完全开源，并获得了Comfyui的支持。如果你有36G以上的显存，甚至可以运行t5的fp16版本。不过需要注意的是，t5xxl_fp16.safetensors或clip_l.safetensors以及VAE需要单独下载。

FLUX.1的横空出世，不仅为开源AI图像生成领域带来了新的希望，也为整个AI行业注入了新的活力。它的强大性能和开源特性，很可能会加速AI图像生成技术的普及和创新。对于普通用户来说，这意味着我们可能很快就能在家用电脑上运行媲美甚至超越Midjourney的AI图像生成模型。

项目地址:https://github.com/black-forest-labs/flux

试玩地址:https://replicate.com/black-forest-labs/flux-pro

Comfyui工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/

AI新闻资讯

AI图像生成迎来新霸主！开源模型FLUX.1横空出世，Midjourney、DALL·E 3紧张了？

AIbase基地