CogView

Modelo Transformer para generación de imágenes a partir de texto en dominios generales

Producto ComúnImagenTransformerTexto a imagen

CogView es un modelo Transformer preentrenado para la generación de imágenes a partir de texto en dominios generales. Este modelo, con 41 mil millones de parámetros, es capaz de generar imágenes de alta calidad y gran diversidad. Su entrenamiento se basa en un enfoque de lo abstracto a lo concreto: primero se realiza un preentrenamiento para adquirir conocimiento general, y luego un ajuste fino en dominios específicos para generar imágenes, lo que mejora significativamente la calidad de la generación. Cabe destacar que el artículo también presenta dos técnicas para estabilizar el entrenamiento de modelos de gran tamaño: PB-relax y Sandwich-LN.

Generar imágenes que coincidan con una descripción en lenguaje natural
Admite entrada en chino e inglés
Admite el aumento de la resolución para mejorar la calidad de las imágenes generadas
Admite la selección posterior de muestras generadas

Generación de imágenes a partir de descripciones de texto
Superresolución de imágenes
Comprensión semántica

Un gato regordete sentado en una mesa
Una rosa rosa floreciendo bajo el sol
Un grupo de nubes blancas flotando en un cielo azul

Abrir sitio web

CogView Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

CogView Tendencia de visitas

CogView Distribución geográfica de las visitas

Best AI Websites & Tools

CogView

CogView Situación del tráfico más reciente

CogView Tendencia de visitas

CogView Distribución geográfica de las visitas

CogView Fuentes de tráfico

CogView Alternativas

CogView — Modelo Transformer para generación de imágenes a partir de texto en dominios generales

Stable Diffusion 3.5 Medium — Modelo de transformador de difusión multimodal basado en la generación de imágenes a partir de texto.

stable-diffusion-3.5-large-turbo — Modelo de generación de imágenes a partir de texto de alto rendimiento

AuraFlow — Modelo de generación de imágenes a partir de texto basado en flujo, de código abierto.

Lumina-T2X — Un marco unificado de generación de texto a cualquier modalidad

Destilación de Consistencia de Trayectoria (TCD) — Técnica de destilación de consistencia para mejorar la calidad de la síntesis de imagen a partir de texto.

Ideogram 1.0 — Generación de imágenes asistida por inteligencia artificial

Ajuste Fino Ortogonal (OFT) — OFT estabiliza eficazmente el ajuste fino de modelos de difusión de texto a imagen.

QwQ-32B — QwQ-32B es un potente modelo de inferencia, diseñado para la resolución de problemas complejos y la generación de texto, con un rendimiento excepcional.

ART — Una técnica de transformador de área anónima para la generación de imágenes transparentes multicapa variables.

CogView4-6B — CogView4-6B es un potente modelo de generación de imágenes a partir de texto, centrado en la generación de imágenes de alta calidad.

CogView4 — CogView4 es un modelo de generación de imágenes a partir de texto de alta resolución que admite chino e inglés.

Microsoft Muse — Muse es el primer modelo de IA generativa de Microsoft diseñado para la concepción creativa de videojuegos, capaz de generar efectos visuales y acciones de control para juegos.

BioEmu — BioEmu es un modelo de aprendizaje profundo generativo para la simulación escalable de conjuntos de equilibrio de proteínas.

MoBA — MoBA es un mecanismo de atención de bloques mixtos para contextos de texto largo, diseñado para mejorar la eficiencia de los modelos lingüísticos grandes.

DiffSplat — DiffSplat es un framework generativo que crea nubes de puntos gaussianas 3D a partir de indicaciones de texto e imágenes de vista única.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

Fashion-Hut-Modeling-LoRA — Modelo de generación de imágenes a partir de texto basado en Diffusion, enfocado en la generación de imágenes con estilo de fotografía de modelos de moda.

Flux-Midjourney-Mix2-LoRA — Modelo de generación de imágenes a partir de texto basado en el estilo de Midjourney, enfocado en alta resolución y realismo.

Spell by Spline — Spell es un modelo de IA que genera mundos 3D a partir de imágenes, compatible con varias técnicas de renderizado.

ViTPose — Conjunto de modelos ViTPose basados en Transformer

NeuralSVG — NeuralSVG: Un método de representación neuronal implícita para generar gráficos vectoriales a partir de indicaciones de texto.

EurusPRM-Etapa2 — EurusPRM-Etapa2 es un modelo de aprendizaje reforzado basado en recompensas implícitas de proceso, diseñado para mejorar la capacidad de razonamiento de los modelos generativos.

VMix — Herramienta para mejorar la calidad estética de los modelos de difusión de texto a imagen

Story-Adapter — Marco iterativo sin entrenamiento para la visualización de historias largas

ModernBERT — ModernBERT es un modelo de codificador de última generación con un rendimiento excepcional.

DynamicControl — Selección adaptativa de condiciones, mejora el control de la generación de imágenes a partir de texto

LuminaBrush — Herramienta de dibujo de iluminación para modelos de difusión de texto a imagen.

flux-condensation — Modelo de IA para generación de imágenes a partir de texto

Sana_600M_512px — Marco de generación de imágenes a partir de texto de alta eficiencia y alta resolución