Recentemente, um novo método de pesquisa revelou capacidades latentes em modelos de IA durante o processo de aprendizado, superando as expectativas anteriores. Os pesquisadores, analisando a dinâmica de aprendizado dos modelos de IA em um "espaço conceitual", descobriram como fazer com que os sistemas de IA entendam e gerem imagens de forma mais eficaz.
Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney
"Espaço conceitual" é um sistema de coordenadas abstrato que representa as características de cada conceito individual nos dados de treinamento, como a forma, cor ou tamanho de um objeto. Os pesquisadores afirmam que, ao descrever a dinâmica de aprendizado neste espaço, é possível revelar a velocidade de aprendizado conceitual e como a ordem de aprendizado é influenciada por uma propriedade de dados chamada "sinal conceitual". Este sinal conceitual reflete a sensibilidade da variação dos valores conceituais ao processo de geração de dados. Por exemplo, quando a diferença entre vermelho e azul é clara no conjunto de dados, o modelo aprende cores mais rapidamente.
Durante a pesquisa, a equipe observou mudanças repentinas na direção da dinâmica de aprendizado do modelo, transitando da "memória conceitual" para a "generalização". Para verificar isso, eles treinaram um modelo com "círculo vermelho grande", "círculo azul grande" e "círculo vermelho pequeno". A combinação "círculo azul pequeno", não presente no treinamento, não pôde ser gerada pelo modelo com prompts de texto simples. No entanto, usando a técnica de "intervenção latente" (manipulando a ativação responsável pela cor e tamanho no modelo) e "prompt excessivo" (aumentando as especificações de cor através dos valores RGB), os pesquisadores conseguiram gerar um "círculo azul pequeno". Isso indica que, embora o modelo compreenda a combinação de "azul" e "pequeno", ele não domina essa capacidade com prompts de texto simples.
Os pesquisadores também expandiram esse método para conjuntos de dados reais, como o CelebA, que contém várias propriedades de imagens faciais, como gênero e sorriso. Os resultados mostraram que o modelo exibiu capacidades ocultas na geração de imagens de mulheres sorrindo, enquanto demonstrava fraqueza com prompts básicos. Além disso, experimentos preliminares com o Stable Diffusion 1.4 mostraram que prompts excessivos podem gerar imagens incomuns, como cartões de crédito triangulares.
Portanto, a equipe de pesquisa propôs uma hipótese geral sobre capacidades ocultas: os modelos generativos possuem capacidades latentes que emergem de forma repentina e consistente durante o treinamento, embora o modelo possa não exibir essas capacidades quando confrontado com prompts comuns.
Destaques:
🌟 Modelos de IA exibem capacidades latentes ocultas durante o aprendizado, superando o que prompts convencionais podem gerar.
🔍 Através de técnicas como "intervenção latente" e "prompt excessivo", os pesquisadores conseguiram ativar essas capacidades ocultas, gerando imagens inesperadas.
📊 A pesquisa analisou a dinâmica de aprendizado no "espaço conceitual", mostrando que a velocidade de aprendizado de diferentes conceitos é influenciada pelas características dos dados.