El modelo de generación de imágenes a partir de texto de Tencent, HunYuan DiT, ha recibido una reciente actualización con el lanzamiento de una versión de 6 GB de VRAM, permitiendo su ejecución en ordenadores personales. Esta versión es compatible con la biblioteca Diffusers y plugins como LoRA y ControlNet, e incluye soporte para la interfaz gráfica de Kohya, simplificando el entrenamiento de modelos LoRA personalizados. HunYuan DiT se ha actualizado a la versión 1.2, mejorando la calidad de imagen y la composición.

Además, Tencent ha lanzado código abierto para el modelo de etiquetado de imágenes HunYuan Captioner, compatible con chino e inglés y optimizado para la generación de imágenes a partir de texto. Este modelo comprende mejor el significado del texto en chino, generando descripciones de imágenes estructuradas, completas y precisas. También puede identificar personajes y lugares conocidos, permitiendo a los desarrolladores añadir conocimientos contextuales personalizados.

微信截图_20240705081554.png

La publicación de código abierto de HunYuan Captioner permite a investigadores y anotadores de datos de todo el mundo mejorar la calidad de las descripciones de imágenes, generando descripciones más completas y precisas, y mejorando el rendimiento de los modelos. Los conjuntos de datos generados pueden utilizarse para entrenar modelos basados en HunYuan DiT, así como otros modelos de visión.

Las tres principales actualizaciones de HunYuan DiT son el lanzamiento de una versión con bajos requisitos de VRAM, la integración de la interfaz de entrenamiento Kohya y la actualización a la versión 1.2, lo que reduce el umbral de uso y mejora la calidad de la imagen. Si bien HunYuan DiT genera imágenes de alta calidad, los altos requisitos de VRAM habían sido un obstáculo para muchos desarrolladores. Ahora, con una versión que requiere solo 6 GB de VRAM, y gracias a la colaboración con Hugging Face, la versión de bajos requisitos de VRAM y los plugins correspondientes son compatibles con la biblioteca Diffusers, simplificando su uso.

Kohya es un servicio de entrenamiento de ajuste fino de modelos ligero y de código abierto que ofrece una interfaz gráfica de usuario, ampliamente utilizado en el entrenamiento de modelos de generación de imágenes a partir de texto basados en difusión. Los usuarios pueden utilizar Kohya para el ajuste fino de parámetros completos y el entrenamiento LoRA sin necesidad de escribir código.

HunYuan Captioner crea descripciones de imágenes estructuradas, mejorando su integridad a través de diversas fuentes y añadiendo una gran cantidad de conocimiento contextual, lo que resulta en descripciones más precisas y completas. Estas mejoras han convertido a HunYuan DiT en uno de los modelos de código abierto DiT nacionales más populares, con más de 2.6k estrellas en Github.

Sitio web oficial

https://dit.hunyuan.tencent.com/

Código

https://github.com/Tencent/HunyuanDiT

Modelo

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Artículo científico

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf