En la ola de la tecnología de IA, Kuaishou ha lanzado Kolors, un gran modelo de generación de imágenes a partir de texto, que se ha convertido en una estrella brillante de la tecnología de IA nacional por su excelente rendimiento y espíritu de código abierto. Kolors no solo supera a los modelos de código abierto existentes en cuanto a la generación de imágenes, sino que también alcanza un nivel comparable al de los modelos comerciales de código cerrado, lo que ha generado un gran revuelo en las redes sociales.
El camino de Kolors hacia el código abierto
La apertura del código fuente de Kolors no es solo un hito tecnológico, sino también una muestra de la actitud abierta de Kuaishou hacia la tecnología de IA. En la Conferencia Mundial de Inteligencia Artificial, Kuaishou anunció la apertura oficial del código fuente de Kolors, proporcionando recursos completos que incluyen pesos del modelo, código completo e informes técnicos. Actualmente, ya está disponible en la plataforma Huggingface y GitHub para que los desarrolladores de todo el mundo lo utilicen de forma gratuita.
Además, en la página principal de GitHub se ha anunciado el plan de código abierto. La interfaz y el modelo grande ya se han abierto, y posteriormente se abrirán Lora, ControlNet, etc., de Kolors, lo que genera mucha expectación.
El excelente rendimiento de Kolors
Kolors ha recibido excelentes críticas de desarrolladores y usuarios gracias a su potente capacidad de comprensión de la semántica compleja y su calidad de imagen fotográfica. En la evaluación de modelos de generación de imágenes a partir de texto de Zhiyuan FlagEval, Kolors obtuvo una puntuación subjetiva general de 75,23, ocupando el segundo lugar a nivel mundial, y especialmente destacando en la calidad de la imagen, donde obtuvo la primera posición.
La innovación tecnológica de Kolors
Kolors utiliza un modelo de difusión de espacio latente y combina un modelo de lenguaje grande para la representación de texto, lo que le permite comprender textos complejos y largos. Mediante una estrategia de entrenamiento progresivo en dos etapas, Kolors ha alcanzado un nivel internacional líder en estética y calidad de imagen. Además, Kolors es el primer modelo de generación de imágenes a partir de texto que admite de forma nativa la generación de texto en chino, lo que demuestra su ventaja en la comprensión y presentación de elementos característicos de China.
Implementación de Kolors en ComfyUI
Después de tantas presentaciones, seguramente ya están deseando probarlo. Ahora les enseñaremos cómo implementar Kolors localmente.
Ya existe una implementación con un solo clic de Kolors en GitHub.
Página principal de GitHub: https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
Página principal de Huggingface: https://huggingface.co/Kwai-Kolors/Kolors
Primero, copiamos la URL del proyecto.
Después de copiarla, la instalamos en el gestor de ComfyUI y reiniciamos.
Luego, creamos un flujo de trabajo de generación de imágenes a partir de texto de Kolors lo más simple posible.
Una vez configurado, al hacer clic en "Agregar cola de indicaciones", se descargarán automáticamente el modelo grande y el codificador de texto necesarios.
⚠️Atención: Como todos los modelos se descargan de Huggingface, el modelo grande tiene aproximadamente 5 GB y el codificador de texto aproximadamente 11 GB, por lo que se recomienda utilizar una VPN para mantener una conexión estable a internet.
Finalmente, el modelo se descargará en la siguiente ruta de archivo:
Solución de errores de instalación
En la primera descarga y uso, es posible que se encuentre con un error que indica que no se encuentra el archivo del codificador de texto.
La solución es muy sencilla: en la dirección del proyecto de Huggingface, descargue todos los archivos JSON y Python del archivo text_encoder,
y colóquelos en la carpeta text_encoder local. Como los nombres de los archivos descargados no son correctos, también debemos renombrarlos, según la siguiente imagen.
Por último, también debemos descargar el modelo VAE y colocarlo en la ruta de archivo que se muestra en la siguiente imagen.
Ruta de archivo VAE local:
Una vez resueltos estos problemas, ya podemos usar Korols para generar imágenes. Usar indicaciones en chino en nuestro flujo de trabajo recién creado es muy cómodo, y la calidad de la imagen es excelente, sin grandes problemas en las manos. También ofrece buenos resultados en imágenes abstractas, sin ser inferior a Midjourney.
El futuro de Kolors y la comunidad de código abierto
En medio de la agitación de Stability AI, la apertura del código fuente de Kolors de Kuaishou se ha convertido en un nuevo foco de atención para la comunidad de código abierto. Kuaishou planea abrir gradualmente el código fuente de los componentes de aplicación relacionados con Kolors, enriqueciendo su ecosistema de código abierto y esperando impulsar el desarrollo de la comunidad de modelos grandes de generación de imágenes a partir de texto junto con desarrolladores de todo el mundo.
Conclusión
El gran modelo Kolors de Kuaishou, con su actitud abierta, tecnología de alto nivel y aplicaciones comerciales reales, demuestra la verdadera capacidad de la tecnología de IA nacional. En la actualidad, con la continua evolución de la tecnología de IA, la apertura y aplicación de Kolors nos muestran las infinitas posibilidades de la combinación de tecnología y formas de contenido. A medida que más empresas y desarrolladores se unan al ecosistema de código abierto de Kolors, tenemos motivos para creer que esto traerá nuevas oportunidades de desarrollo a toda la industria.
------------------------------------------------------------------------------------------
Los tutoriales de IA de recursos para webmasters son una plataforma de tutoriales de dibujo de IA perteneciente a Chinaz.
Una gran cantidad de tutoriales de IA gratuitos, con contenido práctico que se actualiza continuamente.
Si desea aprender más tutoriales de dibujo de IA, visite el sitio web de tutoriales de IA de recursos para webmasters: