Precisão de tarefas de raciocínio gráfico do GPT-4 é de apenas 33%, causando preocupação

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Nov 21, 2023

Precisão do GPT-4 em Tarefas de Raciocínio Gráfico

Um estudo recente revelou que o GPT-4 apresenta uma precisão de apenas 33% em tarefas de raciocínio gráfico, levantando preocupações sobre sua capacidade de processamento de imagens. Os pesquisadores utilizaram o conjunto de dados ConceptARC para testar o modelo, e os resultados mostraram que a taxa de acerto média de humanos na mesma tarefa foi de 91%, significativamente superior à do GPT-4.

A metodologia da pesquisa, incluindo a forma como os participantes foram recrutados e a maneira como as informações foram apresentadas, foi questionada. Isso destaca as limitações dos grandes modelos de linguagem em determinadas tarefas e reforça a necessidade de uma análise mais aprofundada dos métodos de pesquisa.

Criador da Manus, Ji Yichao: Produtos Manus são desenvolvidos com base no modelo de linguagem grande Qwen da Alibaba

O produto Manus, um agente de IA lançado pela startup chinesa Monica, recentemente causou furor na plataforma X. Hoje, seu fundador, Ji Yichao, divulgou mais detalhes técnicos do produto nas redes sociais. De acordo com Ji Yichao, Manus é desenvolvido com base no modelo de linguagem grande Qwen da Alibaba e utiliza vários modelos de ajuste fino para alcançar suas funcionalidades exclusivas. Essa notícia não apenas gerou discussões na indústria sobre a origem da tecnologia da Manus, mas também aumentou o interesse da comunidade global de IA em seu potencial. Ji Yichao

CSN Steel integra com sucesso o modelo de linguagem grande DeepSeek-R1, impulsionando a transformação digital

A CSN Steel deu um passo importante em sua jornada de transformação digital, anunciando recentemente em sua plataforma de interação a integração bem-sucedida do modelo de linguagem grande DeepSeek-R1. A empresa afirmou que, no futuro, se dedicará a promover a profunda integração entre tecnologia digital e economia real, usando isso como base para reformas abrangentes, buscando acelerar a construção de ativos de dados e explorar o valor potencial dos dados. Os esforços da CSN Steel para promover a manutenção inteligente representam uma estratégia crucial em um mercado competitivo. Com a integração do modelo de linguagem grande DeepSeek-R1, o 'Mensageiro CSN Steel'...

Ultrapassando o DeepSeek-R1! O modelo de linguagem grande Wanxiang da Alibaba assume a liderança no ranking global de código aberto

De acordo com o ranking mais recente divulgado pela comunidade de código aberto Hugging Face, o modelo de linguagem grande Wanxiang, lançado pela Alibaba, ultrapassou o DeepSeek-R1 apenas seis dias após seu lançamento em código aberto, assumindo a liderança em duas importantes listas de classificação: ranking de modelos populares e ranking de espaço de modelos. Essa conquista não apenas demonstra o desempenho técnico excepcional do modelo de linguagem grande Wanxiang, mas também reflete seu amplo reconhecimento e influência na comunidade global de código aberto.

Notícias e Informações de IA

Precisão de tarefas de raciocínio gráfico do GPT-4 é de apenas 33%, causando preocupação

站长之家

Notícias de IA Relacionadas Recomendadas

Criador da Manus, Ji Yichao: Produtos Manus são desenvolvidos com base no modelo de linguagem grande Qwen da Alibaba

Em apenas quatro semanas! A Foxconn lança o modelo de linguagem grande em chinês FoxBrain

CSN Steel integra com sucesso o modelo de linguagem grande DeepSeek-R1, impulsionando a transformação digital

Ultrapassando o DeepSeek-R1! O modelo de linguagem grande Wanxiang da Alibaba assume a liderança no ranking global de código aberto