Hoy, el equipo de modelos de lenguaje grande Doubao lanza oficialmente el informe técnico de generación de imágenes a partir de texto, revelando por primera vez los detalles técnicos del modelo de generación de imágenes Seedream 2.0, que abarca la construcción de datos, el marco de preentrenamiento y el flujo de trabajo completo de RLHF posterior al entrenamiento, lanzando una "bomba" en el campo de la generación de imágenes a partir de texto.

Desde su lanzamiento a principios de diciembre de 2024 en la aplicación Doubao y Jimeng, Seedream 2.0 ha prestado servicios a cientos de millones de usuarios finales y ha sido muy apreciado por diseñadores profesionales. En comparación con modelos principales como Ideogram 2.0 y Midjourney V6.1, resuelve problemas como la mala representación de texto y la comprensión insuficiente de la cultura china, logrando mejoras integrales en la comprensión bilingüe chino-inglés, la estética y el cumplimiento de instrucciones.

QQ20250312-134342.png

QQ20250312-134350.png

Según las pruebas de referencia Bench-240, la racionalidad estructural y la precisión de la comprensión del texto generado a partir de indicaciones en inglés son superiores; la tasa de utilización de texto generado y renderizado en chino alcanza el 78%, y la tasa de respuesta perfecta es del 63%, superando con creces a otros modelos de la industria.

QQ20250312-134356.png

En cuanto a la implementación técnica, el equipo ha realizado innovaciones en múltiples aspectos. En la etapa de preprocesamiento de datos, se construye un marco basado en la "fusión de conocimiento". La arquitectura de datos de cuatro dimensiones equilibra la calidad de los datos y la diversidad del conocimiento, el motor de etiquetado inteligente logra una evolución cognitiva de tres niveles, mejorando la capacidad de comprensión e identificación del modelo, y la reconstrucción de la ingeniería aumenta considerablemente la eficiencia del procesamiento de datos.

En la etapa de preentrenamiento, el equipo se centra en la comprensión bilingüe y la representación de texto. El esquema de alineación bilingüe nativa, mediante el ajuste fino de LLM y la construcción de conjuntos de datos especializados, rompe la barrera dimensional entre lenguaje e imagen; el sistema de fusión de codificación multimodal permite al modelo considerar tanto el significado del texto como la forma de las letras; la arquitectura DiT de tres niveles mejorada, introduciendo las tecnologías QK-Norm y Scaling ROPE, mejora la estabilidad del entrenamiento y permite la generación de imágenes de múltiples resoluciones.

QQ20250312-134404.png

Nota:Rendimiento de Seedream 2.0 en diferentes dimensiones para indicaciones en inglés. Los datos de cada dimensión en esta figura se basan en el mejor indicador como sistema de referencia y se han ajustado mediante normalización.

En el proceso de RLHF posterior al entrenamiento, el equipo ha desarrollado y optimizado el sistema, centrándose en tres aspectos: un sistema de datos de preferencias multidimensionales, tres modelos de recompensa diferentes y el aprendizaje iterativo para impulsar la evolución del modelo, mejorando eficazmente el rendimiento del modelo, y las puntuaciones de rendimiento de los diferentes modelos de recompensa aumentan constantemente en las iteraciones.

QQ20250312-134518.png

Nota: Rendimiento de Seedream 2.0 en diferentes dimensiones para indicaciones en chino. Los datos de cada dimensión en esta figura se basan en el mejor indicador como sistema de referencia y se han ajustado mediante normalización.

El lanzamiento de este informe técnico demuestra la determinación del equipo de modelos de lenguaje grande Doubao de impulsar el desarrollo de la tecnología de generación de imágenes. En el futuro, el equipo seguirá explorando tecnologías innovadoras, mejorando los límites del rendimiento del modelo, investigando a fondo los mecanismos de optimización del aprendizaje por refuerzo y compartiendo continuamente la experiencia tecnológica para contribuir al floreciente desarrollo del sector.

Página de demostración tecnológica: https://team.doubao.com/tech/seedream

Informe técnico: https://arxiv.org/pdf/2503.07703