Kuaishou ha lanzado hoy un gran avance: el modelo de generación de imágenes de código abierto "Ke Tu Kolors". No se trata de un modelo cualquiera; se ha entrenado con miles de millones de pares de texto e imágenes, utiliza un modelo de lenguaje general (GLM) como codificador de texto, admite indicaciones en chino e inglés y puede procesar contextos de hasta 256 tokens.

Características de Ke Tu Kolors:

  • Compatibilidad con chino e inglés: Utiliza un modelo de lenguaje general (GLM) como codificador de texto, lo que permite que el modelo no solo domine el inglés, sino que también comprenda y utilice perfectamente las indicaciones en chino.

  • Capacidad de procesamiento de textos largos: Admite una longitud de contexto de hasta 256 tokens, lo que permite a los creadores describir con detalle lo que imaginan, ya sean escenas complejas o historias ricas.

  • Entrenamiento con datos masivos: Entrenado con miles de millones de pares de texto e imágenes, el modelo cuenta con una vasta base de conocimientos que le permite generar imágenes diversas y precisas.

  • Optimización de elementos culturales chinos: Se ha optimizado especialmente para los elementos culturales chinos, lo que hace que las imágenes generadas se acerquen más a las características culturales chinas y satisfagan las necesidades de localización.

  • Generación de texto chino: "Ke Tu Kolors" no solo comprende el chino, sino que también puede incrustar texto chino en las imágenes generadas, añadiendo más expresividad a las imágenes.

Tras una prueba en AIbase, hemos descubierto que Ke Tu presenta un mejor rendimiento al insertar texto chino en las imágenes; en su mayoría, la salida es correcta. Sin embargo, en el caso del inglés, es propenso a omisiones o errores ortográficos.

QQ截图20240708112714.jpg

QQ截图20240708111705.jpg

Como podemos ver, el gato tumbado generado arriba no presenta problemas con el chino, pero si cambio a "AIbase", aparecen omisiones. En cuanto a la salida en chino, Ke Tu ofrece un rendimiento notable, aunque hay que tener en cuenta que el texto no debe ser demasiado largo, ya que esto puede provocar errores.

QQ截图20240708112728.jpg

Este modelo no es solo una herramienta simple; detrás hay un sólido respaldo tecnológico de Kuaishou. Entrenado con una gran cantidad de datos y optimizado especialmente para elementos culturales chinos, las imágenes generadas tienen un toque más chino. Esto no es solo un avance tecnológico, sino también una herencia cultural.

El plan de código abierto también incluye compatibilidad con CN (ControlNet), LoRa (adaptación de bajo rango), IPA (adaptación de indicaciones de imagen) y soporte directo de ComfyUI, todo ello para que su proceso creativo sea más fluido y personalizado.

Detalles técnicos:

  • "Ke Tu Kolors" se basa en la arquitectura del modelo SDXL y se integra con la tecnología ChatGLM256 para mejorar la comprensión bilingüe y la capacidad de generación de texto.

  • Cabe destacar que la ejecución de este modelo requiere una gran cantidad de memoria de vídeo, aproximadamente 19 GB, lo que puede suponer una exigencia para los dispositivos de hardware.

La publicación de código abierto de "Ke Tu Kolors" por parte de Kuaishou no solo es una contribución a la comunidad tecnológica, sino también un audaz impulso a la libertad creativa. Esto demuestra la determinación y la capacidad de Kuaishou en materia de tecnología de IA, y nos permite vislumbrar el ilimitado potencial de la IA en la creación artística.

Sitio web de Ke Tu: https://top.aibase.com/tool/kuaishouketudamoxingkolors

Dirección del proyecto: https://top.aibase.com/tool/kolors