Deep floyd

高度写实的文本到图像模型

普通产品图像文本到图像图像合成

Deep floyd是一个开源的文本到图像模型，具有高度的写实性和语言理解能力。它由一个冻结的文本编码器和三个级联的像素扩散模块组成：一个基础模型用于根据文本提示生成 64x64 像素的图像，以及两个超分辨率模型，分别用于生成分辨率逐渐增加的图像：256x256 像素和 1024x1024 像素。模型的所有阶段都利用基于 T5 transformer 的冻结文本编码器来提取文本嵌入，然后将其输入到一个增强了交叉注意力和注意力池化的 UNet 架构中。这个高效的模型在性能上超过了当前的最先进模型，在 COCO 数据集上实现了零样本 FID 得分为 6.66。我们的工作强调了级联扩散模型的第一阶段中更大的 UNet 架构的潜力，并展示了文本到图像合成的一个有前途的未来。

生成高度写实的图像
理解文本提示并生成相应图像
支持超分辨率图像生成

用于文本到图像合成、图像生成任务

打开网站

Deep floyd 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

Deep floyd 访问量趋势

Deep floyd 访问地理位置分布

Deep floyd 流量来源

Deep floyd 替代品

Best AI Websites & Tools

Deep floyd

Deep floyd 最新流量情况

Deep floyd 访问量趋势

Deep floyd 访问地理位置分布

Deep floyd 流量来源

Deep floyd 替代品

DynamicControl — 自适应条件选择，提升文本到图像生成控制力

Sana_600M_1024px — 高分辨率、高效率的文本到图像生成框架

Sana_1600M_1024px_MultiLing — 高分辨率、多语言支持的文本到图像生成模型

Sana — 高效率的高分辨率图像合成框架

Trajectory Consistency Distillation (TCD) — 提高文本到图像合成质量的一致性蒸馏技术

Orthogonal Finetuning (OFT) — OFT可有效稳定微调文本到图像扩散模型

DiffSplat — DiffSplat 是一个从文本提示和单视图图像生成 3D 高斯点云的生成框架。

Fashion-Hut-Modeling-LoRA — 基于Diffusion的文本到图像生成模型，专注于时尚模特摄影风格图像生成

Flux-Midjourney-Mix2-LoRA — 一款基于Midjourney风格的文本到图像生成模型，专注于高分辨率和写实风格的图像创作。

NeuralSVG — NeuralSVG：从文本提示生成矢量图形的隐式表示方法。

VMix — 文本到图像扩散模型的美学质量提升工具

Story-Adapter — 无需训练的迭代框架，用于长篇故事可视化

Synthesys — AI内容生成平台，提供视频、语音和图像生成服务

LuminaBrush — 用于文本到图像扩散模型的照明绘图工具

flux-condensation — 基于文本生成图像的AI模型

Sana_600M_512px — 高效率、高分辨率的文本到图像生成框架

shou_xin — 手訫风格的铅笔素描生成模型

Bylo.ai — 最佳免费AI图像生成器

AWPortraitCN — 基于FLUX.1-dev的中文人物肖像生成模型

Sana_1600M_512px_MultiLing — 高分辨率、多语言文本到图像生成模型

Sana_1600M_1024px — 高分辨率、高效率的文本到图像生成框架

Sana_1600M_512px — 高分辨率、高效率的文本到图像生成框架

MV-Adapter — 多视图一致性图像生成的便捷解决方案

text-to-pose — 基于文本生成姿态并进一步生成图像的模型

Sana-1.6B — 高分辨率图像合成的线性扩散变换器

OneDiffusion — 多功能大规模扩散模型，支持双向图像合成与理解。

Stable Diffusion 3.5 ControlNets — 用于生成图像的AI模型，支持多种控制网络

FLUX.1-dev-IP-Adapter — 基于FLUX.1-dev模型的IP-Adapter，实现图像工作如文本般灵活。