CogAgent: Modelo de linguagem visual de código aberto da Zhipu AI, com suporte para perguntas e respostas na interface gráfica do usuário

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Dec 21, 2023

164

CogAgent: Modelo de Linguagem Visual de Código Aberto

A ZhiPu AI lançou o CogAgent, um modelo de linguagem visual com 18 bilhões de parâmetros. O CogAgent demonstra excelente desempenho na compreensão e navegação de interfaces gráficas do usuário (GUI), alcançando desempenho de ponta (SOTA) em vários benchmarks.

O modelo suporta entrada visual de alta resolução e perguntas e respostas em diálogo, podendo responder a perguntas sobre qualquer captura de tela de GUI. Além disso, o CogAgent suporta tarefas relacionadas a OCR (Reconhecimento Ótico de Caracteres), com sua capacidade significativamente aprimorada por meio de pré-treinamento e ajuste fino.

Os usuários podem fazer upload de capturas de tela para inferência de tarefas e obter informações sobre o plano, a próxima ação e as coordenadas da operação específica.

Modelo de linguagem visual Perguntas e respostas na interface gráfica do usuário Código aberto

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

30,5 mil estrelas! Esta joia de ferramenta de IA para design está fazendo os desenvolvedores pirarem. Por que?

Um projeto de código aberto no GitHub chamado "system-prompts-and-models-of-ai-tools" está gerando grande interesse, acumulando 30,5 mil estrelas e se tornando um recurso popular para desenvolvedores e pesquisadores de IA. De acordo com o AIbase, este projeto reúne prompts de sistema e configurações de modelos para 9 ferramentas de IA populares, com mais de 6500 linhas de conteúdo, cobrindo v0, Cursor, Manus, Same.dev, Lovable, Devin, Rep.

Apr 25, 2025

Máquina virtual blockchain com o primeiro framework de desenvolvimento de modelos grandes integrado do mundo agora de código aberto

Apr 24, 2025

Kunlun Wanwei lança versão 2.0 do Skywork-R1V: aprimoramento da capacidade de raciocínio visual e de texto

Em 24 de abril, a Kunlun Wanwei anunciou o lançamento oficial de código aberto de seu modelo de raciocínio multimodal Skywork-R1V2.0 (doravante referido como R1V2.0). Esta versão atualizada apresenta melhorias significativas na capacidade de raciocínio visual e de texto, especialmente em tarefas de raciocínio profundo em problemas de ciências exatas do vestibular e em cenários de tarefas gerais, tornando-se um dos modelos multimodais de código aberto mais equilibrados em termos de capacidade de raciocínio visual e de texto.

Apr 24, 2025

AWS lança SWE-PolyBench: novo benchmark de código aberto para avaliar assistentes de programação de IA

Recentemente, o AWS AI Labs lançou o SWE-PolyBench, um benchmark de código aberto multilíngue projetado para fornecer uma estrutura mais completa para a avaliação de assistentes de programação de IA. Com o avanço dos modelos de linguagem em grande escala (LLM), o desenvolvimento de assistentes de programação de IA tem progredido significativamente, com esses assistentes capazes de gerar, modificar e entender código de software. No entanto, os métodos de avaliação atuais ainda apresentam muitas limitações, com muitos benchmarks frequentemente se concentrando em uma única linguagem, como Python, sem refletir a realidade de forma abrangente.

Apr 24, 2025

AI Diário: Lançamento da versão 2.5 do modelo de geração 3D da Tencent Hun Yuan; lançamento do recurso de referência de personagens de imagem da Haier; lançamento do aplicativo Xin Xiang, superinteligência móvel, pelo Baidu

Apr 23, 2025

Modelo TTS de código aberto revolucionário Dia lançado: suporta emoções, prompts não verbais e se compara a conversas humanas reais

Uma startup de duas pessoas chamada Nari Labs lançou o Dia, um modelo de texto para fala (TTS) com 1,6 bilhão de parâmetros, projetado para gerar conversas naturais diretamente de prompts de texto. Seu cofundador, Toby Kim, afirma que o Dia supera produtos proprietários de concorrentes como ElevenLabs e o recurso de geração de podcast NotebookLM do Google, e pode até desafiar o gpt-4o-mini lançado recentemente pela OpenAI.

Apr 23, 2025

Modelo de geração de vídeo MAGI-1 de código aberto da Sand AI: expansível infinitamente, alta fidelidade

Em 21 de abril de 2025, a Sand AI lançou o modelo de geração de vídeo de código aberto MAGI-1, que rapidamente se tornou o foco da área de IA generativa, devido à sua arquitetura de difusão autorregressiva inovadora e desempenho excepcional. O modelo utiliza a licença Apache 2.0, e o código, os pesos e as ferramentas de inferência estão disponíveis no GitHub e no Hugging Face, fornecendo uma poderosa ferramenta de criação para desenvolvedores em todo o mundo. O MAGI-1 é baseado em uma arquitetura de transformador de difusão, introduzindo atenção causal em blocos e atenção paralela.

Apr 22, 2025

Boletim Diário de IA: Kunlun Wanwei lança código aberto do SkyReels-V2; atualização do iFlytek StarFire X1; teste interno do espaço Coze

Bem-vindo à seção 【Boletim Diário de IA】! Aqui está seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo de IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA. Saiba mais sobre novos produtos de IA: https://top.aibase.com/ 1、Kunlun Wanwei lança código aberto do SkyReels-V2: modelo de geração de filmes de duração ilimitada A equipe SkyReels da Kunlun Wanwei lançou o SkyReels-V2, o primeiro modelo de geração de filmes baseado em difusão no mundo...

Apr 21, 2025

Intel lança o AI Playground de código aberto: execução de modelos de IA locais com GPUs Arc

A Intel anunciou recentemente o lançamento de código aberto do seu software AI Playground, projetado para IA generativa local, oferecendo aos usuários de GPUs Intel Arc uma poderosa plataforma para execução de modelos de IA. De acordo com o AIbase, o AI Playground suporta diversos modelos de geração de imagens e vídeos, além de modelos de linguagem grandes (LLMs), reduzindo significativamente o custo de hardware para aplicativos de IA por meio da otimização de recursos de computação locais. O projeto já foi lançado no GitHub, atraindo desenvolvedores e entusiastas de IA em todo o mundo.

Apr 21, 2025

Persona Engine de código aberto: AI, assistentes virtuais e Live2D para uma nova experiência interativa

Recentemente, o projeto Persona Engine (Motor de Personalidade) foi oficialmente lançado como código aberto. Com sua poderosa combinação de modelos de linguagem grandes (LLM), Live2D, reconhecimento automático de fala (ASR), conversão de texto em fala (TTS) e clonagem de voz em tempo real (RVC), o projeto atraiu ampla atenção no campo da IA e criação de conteúdo virtual. De acordo com o AIbase, o projeto permite a interação em tempo real com personagens virtuais, fornecendo-lhes a capacidade de conversação natural e expressões dinâmicas. É particularmente adequado para VTubing e outras aplicações.

Apr 21, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

CogAgent: Modelo de linguagem visual de código aberto da Zhipu AI, com suporte para perguntas e respostas na interface gráfica do usuário

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

30,5 mil estrelas! Esta joia de ferramenta de IA para design está fazendo os desenvolvedores pirarem. Por que?

Máquina virtual blockchain com o primeiro framework de desenvolvimento de modelos grandes integrado do mundo agora de código aberto

Kunlun Wanwei lança versão 2.0 do Skywork-R1V: aprimoramento da capacidade de raciocínio visual e de texto

AWS lança SWE-PolyBench: novo benchmark de código aberto para avaliar assistentes de programação de IA

AI Diário: Lançamento da versão 2.5 do modelo de geração 3D da Tencent Hun Yuan; lançamento do recurso de referência de personagens de imagem da Haier; lançamento do aplicativo Xin Xiang, superinteligência móvel, pelo Baidu

Modelo TTS de código aberto revolucionário Dia lançado: suporta emoções, prompts não verbais e se compara a conversas humanas reais

Modelo de geração de vídeo MAGI-1 de código aberto da Sand AI: expansível infinitamente, alta fidelidade

Boletim Diário de IA: Kunlun Wanwei lança código aberto do SkyReels-V2; atualização do iFlytek StarFire X1; teste interno do espaço Coze

Intel lança o AI Playground de código aberto: execução de modelos de IA locais com GPUs Arc

Persona Engine de código aberto: AI, assistentes virtuais e Live2D para uma nova experiência interativa