CogView

基于Transformer的通用领域文本到图像生成

普通产品图像Transformer文本到图像

CogView是一个用于通用领域文本到图像生成的预训练Transformer模型。该模型包含410亿参数,能够生成高质量、多样化的图像。模型的训练思路采用抽象到具体的方式,先 pretrain 获得通用知识,然后 finetune 在特定域生成图像,能显著提升生成质量。值得一提的是,论文还提出了两种帮助大模型稳定训练的技巧:PB-relax 和 Sandwich-LN。

输入普通语言描述
生成匹配的图像
支持中英文输入
支持超分辨率提升生成图像质量
支持后期筛选生成样本

文本描述到图像生成
图像超分辨率
语义理解

一个胖乎乎的猫坐在桌子上
一朵粉色的玫瑰花在阳光下盛开
蓝色的天空中有一群白云飘过

打开网站

CogView 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

CogView 访问量趋势

CogView 访问地理位置分布

CogView 流量来源

CogView 替代品

Best AI Websites & Tools

CogView

CogView 最新流量情况

CogView 访问量趋势

CogView 访问地理位置分布

CogView 流量来源

CogView 替代品

Stable Diffusion 3.5 Medium — 基于文本生成图像的多模态扩散变换器模型

stable-diffusion-3.5-large-turbo — 高效能的文本到图像生成模型

AuraFlow — 开源的基于流的文本到图像生成模型

Lumina-T2X — 一个统一的文本到任意模态生成框架

Trajectory Consistency Distillation (TCD) — 提高文本到图像合成质量的一致性蒸馏技术

Snap Video — Snap视频:用于文本到视频合成的可扩展空间时间转换器

Orthogonal Finetuning (OFT) — OFT可有效稳定微调文本到图像扩散模型

BioEmu — BioEmu 是一个用于可扩展模拟蛋白质平衡系综的生成式深度学习模型。

MoBA — MoBA 是一种用于长文本上下文的混合块注意力机制，旨在提升大语言模型的效率。

DiffSplat — DiffSplat 是一个从文本提示和单视图图像生成 3D 高斯点云的生成框架。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

Fashion-Hut-Modeling-LoRA — 基于Diffusion的文本到图像生成模型，专注于时尚模特摄影风格图像生成

Flux-Midjourney-Mix2-LoRA — 一款基于Midjourney风格的文本到图像生成模型，专注于高分辨率和写实风格的图像创作。

ViTPose — 基于Transformer实现的ViTPose模型集合

NeuralSVG — NeuralSVG：从文本提示生成矢量图形的隐式表示方法。

EurusPRM-Stage2 — EurusPRM-Stage2是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

EurusPRM-Stage1 — EurusPRM-Stage1是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

FlexRAG — 一个用于信息检索和生成的灵活高性能框架

ModernBERT-large — 高性能的双向编码器Transformer模型

VMix — 文本到图像扩散模型的美学质量提升工具

Story-Adapter — 无需训练的迭代框架，用于长篇故事可视化

ModernBERT — ModernBERT是新一代的编码器模型，性能卓越。

DynamicControl — 自适应条件选择，提升文本到图像生成控制力

LuminaBrush — 用于文本到图像扩散模型的照明绘图工具

flux-condensation — 基于文本生成图像的AI模型

Sana_600M_512px — 高效率、高分辨率的文本到图像生成框架

Sana_600M_1024px — 高分辨率、高效率的文本到图像生成框架

shou_xin — 手訫风格的铅笔素描生成模型