O modelo CogAgent-9B, baseado no modelo GLM-PC da Zhipu AI, agora está disponível em código aberto para promover o desenvolvimento do ecossistema de agentes de modelos grandes. O CogAgent-9B é um modelo de tarefa de agente especializado treinado com base no GLM-4V-9B, capaz de prever a próxima operação da interface gráfica do usuário (GUI) com base apenas em uma captura de tela como entrada, combinando-a com as operações históricas especificadas pelo usuário para qualquer tarefa. Sua versatilidade permite sua ampla aplicação em vários cenários de interação baseados em GUI, como computadores pessoais, telefones celulares e dispositivos de veículos.

微信截图_20241227091131.png

Em comparação com a primeira versão do modelo CogAgent, lançada em dezembro de 2023, o CogAgent-9B-20241220 apresenta melhorias significativas na percepção da GUI, precisão de previsão de raciocínio, completude do espaço de ação, versatilidade e generalização de tarefas, e suporta capturas de tela e interação de linguagem em chinês e inglês. A entrada do CogAgent inclui apenas instruções em linguagem natural do usuário, histórico de ações executadas e captura de tela da GUI, sem informações de layout em formato de texto ou etiquetas de elementos adicionais. A saída inclui o processo de pensamento, descrição em linguagem natural da próxima ação, descrição estruturada da próxima ação e julgamento de sensibilidade da próxima ação.

Nos testes de desempenho, o CogAgent-9B-20241220 obteve resultados líderes em vários conjuntos de dados, demonstrando suas vantagens na localização da GUI, operação em etapas únicas, classificação stepwise em chinês e operações em várias etapas. Essa iniciativa da Zhipu Technology não apenas impulsiona o desenvolvimento da tecnologia de modelos grandes, mas também fornece novas ferramentas e possibilidades para profissionais de TI com deficiência visual.

Código:

https://github.com/THUDM/CogAgent

Modelo:

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

Comunidade Moda: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220