CogAgent: Modelo de Linguagem Visual de Código Aberto

A ZhiPu AI lançou o CogAgent, um modelo de linguagem visual com 18 bilhões de parâmetros. O CogAgent demonstra excelente desempenho na compreensão e navegação de interfaces gráficas do usuário (GUI), alcançando desempenho de ponta (SOTA) em vários benchmarks.

O modelo suporta entrada visual de alta resolução e perguntas e respostas em diálogo, podendo responder a perguntas sobre qualquer captura de tela de GUI. Além disso, o CogAgent suporta tarefas relacionadas a OCR (Reconhecimento Ótico de Caracteres), com sua capacidade significativamente aprimorada por meio de pré-treinamento e ajuste fino.

Os usuários podem fazer upload de capturas de tela para inferência de tarefas e obter informações sobre o plano, a próxima ação e as coordenadas da operação específica.