Kwai lança modelo de geração de imagens de código aberto: Kolors, com suporte à geração de texto em imagens

O Kuaishou lançou hoje um grande recurso: o modelo de geração de imagens de código aberto "Ke Tu Kolors". Este não é um modelo comum; ele foi treinado em bilhões de pares de texto e imagem, utiliza o modelo de linguagem universal (GLM) como codificador de texto, suporta prompts bilíngues chinês-inglês e pode processar contextos de até 256 tokens.

Visão geral dos recursos do Ke Tu Kolors:

Suporte bilíngue chinês-inglês: Utiliza o modelo de linguagem universal (GLM) como codificador de texto, permitindo que o modelo não apenas domine o inglês, mas também compreenda e utilize perfeitamente prompts em chinês.
Capacidade de processamento de texto longo: Suporta comprimento de contexto de até 256 tokens, permitindo que os criadores descrevam detalhadamente suas ideias, sejam cenários complexos ou histórias ricas.
Treinamento em dados massivos: Treinado em bilhões de pares de texto e imagem, o modelo possui um vasto banco de conhecimento, capaz de gerar imagens diversificadas e precisas.
Otimização de elementos culturais chineses: Foi otimizado especificamente para elementos culturais chineses, fazendo com que as imagens geradas sejam mais próximas das características da cultura chinesa, atendendo às necessidades de localização.
Geração de texto chinês: O "Ke Tu Kolors" não apenas compreende chinês, mas também pode incorporar texto chinês nas imagens geradas, adicionando mais expressividade às imagens.

Após um teste do AIBase, descobrimos que o Ke Tu apresenta um melhor desempenho na inserção de texto chinês nas imagens, com saída correta na maioria das vezes. No entanto, em inglês, é propenso a omissão ou erros de ortografia.

QQ截图20240708112714.jpg

QQ截图20240708111705.jpg

Como podemos ver, o gatinho relaxado gerado acima está perfeito em chinês, mas ao usar "AIBase", ocorrem omissões de letras. Quanto à saída em chinês, o Ke Tu apresenta um desempenho notável, mas lembre-se de que o texto não deve ser muito longo, pois isso pode causar erros.

QQ截图20240708112728.jpg

Este modelo não é apenas uma ferramenta simples; ele conta com o suporte tecnológico robusto do Kuaishou. Treinado em um grande volume de dados e com otimização específica para elementos culturais chineses, as imagens geradas possuem um toque mais chinês. Isso não é apenas um avanço tecnológico, mas também uma preservação cultural.

O plano de código aberto também inclui suporte CN (ControlNet), LoRa (adaptação de baixo posto), IPA (adaptação de prompt de imagem) e suporte direto ao ComfyUI, tudo para tornar seu processo criativo mais fluido e personalizado.

Detalhes técnicos:

O "Ke Tu Kolors" é baseado na arquitetura do modelo SDXL e integra a tecnologia ChatGLM256 para aprimorar a compreensão bilíngue e a capacidade de geração de texto.
É importante observar que a execução deste modelo requer uma grande quantidade de memória de vídeo, aproximadamente 19 GB, o que pode exigir um hardware específico.

Com o lançamento de código aberto do "Ke Tu Kolors", o Kuaishou não apenas contribui para a comunidade tecnológica, mas também impulsiona audaciosamente a liberdade criativa. Isso demonstra a determinação e a força do Kuaishou em tecnologia de IA, e nos permite vislumbrar o potencial ilimitado da IA na criação artística.

Site oficial do Ke Tu: https://top.aibase.com/tool/kuaishouketudamoxingkolors

Endereço do projeto: https://top.aibase.com/tool/kolors

Notícias e Informações de IA

Kwai lança modelo de geração de imagens de código aberto: Kolors, com suporte à geração de texto em imagens

AIbase