El equipo Seed de ByteDance ha publicado oficialmente el informe técnico del modelo de generación de imágenes a partir de texto Seedream 3.0. Este modelo ha logrado una mejora significativa en el rendimiento, siendo un modelo base de generación de imágenes nativo de alta resolución y compatible con inglés y chino. Ha logrado avances significativos en resolución y precisión de la estructura de la imagen generada, mostrando ventajas notables en comparación con la versión anterior.
Rendimiento de Seedream 3.0 en diferentes dimensiones. Los datos de cada dimensión en esta figura se han normalizado tomando el mejor indicador como referencia.
En cuanto a sus características principales, Seedream 3.0 puede generar imágenes de 2K de forma nativa, sin necesidad de post-procesamiento para obtener imágenes de alta resolución, satisfaciendo diversas necesidades; la velocidad de generación de imágenes es extremadamente rápida, solo 3 segundos, lo que aumenta considerablemente la eficiencia creativa; se ha optimizado la generación de texto pequeño y el diseño de texto, resolviendo problemas de la industria y ofreciendo capacidades de diseño gráfico de nivel comercial; se ha mejorado la estética y la estructura, aumentando el cumplimiento de las instrucciones y haciendo que las imágenes generadas sean más impactantes.
En cuanto a la implementación técnica, Seedream 3.0 ha innovado en múltiples dimensiones. En la optimización de datos, se ha ampliado el conjunto de datos mediante la detección de defectos de imagen, se ha adoptado una estrategia de muestreo de colaboración visual y semántica y se ha mejorado la distribución de datos mediante un sistema de recuperación de texto e imagen de desarrollo propio.
En la fase de preentrenamiento, se utiliza la codificación de posición rotacional multimodal para mejorar la capacidad de renderizado de texto, se utiliza el entrenamiento mixto de múltiples resoluciones para lograr la generación directa de imágenes de 2K y se utiliza una nueva función de pérdida para mejorar el efecto del entrenamiento. En la fase posterior de entrenamiento RLHF, se diseña una descripción estética de grano múltiple, se amplía la escala del modelo de recompensa y se mejora el rendimiento del modelo. En la aceleración de la inferencia, se utilizan la predicción de ruido consistente y el proceso de muestreo suave, y se utiliza el muestreo de pasos de tiempo importantes para acelerar el entrenamiento de destilación del modelo, logrando una generación de imágenes de 1K de extremo a extremo en tan solo 3 segundos.
Actualmente, Seedream 3.0 ya está disponible en las plataformas Doubao y Jimeng. En el prestigioso campo de competencia Artificial Analysis, compitió con numerosos modelos de generación de imágenes a partir de texto conocidos, llegando a ocupar el primer puesto, destacando especialmente en el diseño de carteles y la generación creativa.
En el futuro, el equipo Seed planea profundizar en la investigación en áreas como el diseño de estructuras más eficientes, la mejora del nivel de inteligencia del modelo y la exploración del fenómeno de escalado de datos y modelos, con el objetivo de impulsar el desarrollo del campo de la generación visual.
Arxiv:https://arxiv.org/abs/2504.11346
Página de presentación técnica:https://team.doubao.com/tech/seedream3_0