Verificação de Visão
Estudar as relações entre strings em modelos de linguagem, verificando o mundo visual.
Produto ComumImagemModelos de LinguagemVisão
Este artigo avalia sistematicamente a capacidade de grandes modelos de linguagem (LLMs) em gerar e reconhecer conceitos visuais progressivamente complexos, demonstrando como usar modelos de texto para treinar sistemas iniciais de aprendizado de representações visuais. Embora os modelos de linguagem não processem diretamente informações visuais em nível de pixel, a pesquisa utiliza código para representar imagens. Embora as imagens geradas por LLMs não se assemelhem a imagens naturais, os resultados na geração e correção de imagens demonstram que a modelagem precisa de strings pode ensinar aos modelos de linguagem muitos aspectos do mundo visual. Além disso, experimentos utilizando imagens geradas por modelos de texto para aprendizado de representação visual autossupervisionado destacam o potencial de treinar, apenas com LLMs, modelos visuais capazes de avaliação semântica de imagens naturais.
Verificação de Visão Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44