Uma equipe de pesquisa da Universidade de Surrey e da Universidade de Stanford desenvolveu um novo método para ensinar inteligência artificial (IA) a entender esboços feitos à mão, mesmo aqueles feitos por não artistas. O modelo se aproxima do desempenho humano na identificação de esboços de cenas.

image.png

A Dra. Yulia Gryaditskaya, palestrante do Centro de Visão, Voz e Processamento de Sinais (CVSSP) da Universidade de Surrey e do Instituto de Inteligência Artificial do People Centered AI (PAI), disse: "O esboço é uma poderosa linguagem de comunicação visual. Às vezes, é até mais expressivo e flexível do que a linguagem falada. Desenvolver ferramentas que entendam esboços é um passo em direção a uma interação homem-máquina mais robusta e fluxos de trabalho de design mais eficientes. Por exemplo, imagens podem ser pesquisadas ou criadas por meio de esboços." Pessoas de todas as idades e origens usam desenhos para explorar novas ideias e se comunicar. No entanto, os sistemas de IA têm tido problemas para entender esboços. A IA precisa aprender a entender as imagens. Normalmente, isso envolve um processo demorado e trabalhoso de coleta de rótulos para cada pixel na imagem. A IA então aprende com esses rótulos.

No entanto, a equipe de pesquisa ensinou a IA usando uma combinação de esboços e descrições de texto. Ela aprendeu a agrupar pixels e combiná-los com categorias na descrição. Como resultado, a IA exibiu uma compreensão mais rica e semelhante à humana do que antes. Ela foi capaz de identificar e rotular corretamente pipas, árvores, girafas e outros objetos com 85% de precisão, superando outros modelos que dependiam de pixels rotulados. Além de identificar objetos em cenas complexas, ela também pode determinar a qual objeto cada traço pertence. Este novo método não se limita a esboços informais feitos por não artistas, mas também funciona para esboços de objetos para os quais não houve treinamento explícito.

A Professora Assistente de Psicologia da Universidade de Stanford, Judith Fan, disse: "Desenhar e escrever são algumas das atividades humanas mais típicas e têm sido usadas há muito tempo para capturar as observações e pensamentos das pessoas. Este trabalho fez um progresso emocionante na capacidade dos sistemas de IA de entender a essência do que as pessoas estão tentando comunicar, quer usem imagens ou palavras." Esta pesquisa faz parte do Instituto de Inteligência Artificial do People Centered AI da Universidade de Surrey, especificamente seu programa SketchX. O SketchX usa IA para tentar entender como vemos o mundo pela maneira como desenhamos.

O Professor Yi-Zhe Song, codiretor do Instituto de Inteligência Artificial do People Centered AI e líder do SketchX, disse: "Esta pesquisa é um exemplo típico de como a IA pode aprimorar atividades humanas básicas, como esboços. Ao entender esboços grosseiros com precisão quase humana, esta tecnologia tem um enorme potencial para aprimorar a criatividade natural das pessoas, independentemente de seu talento artístico."

Endereço do artigo: https://arxiv.org/abs/2312.12463