Modelo GLM-4-9B da ZhiPu apresenta taxa de alucinação de apenas 1,3% e vence avaliação global de modelos de linguagem grandes

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Jan 10, 2025

314

Na área de inteligência artificial, o problema de "alucinação" em grandes modelos de linguagem tem sido um desafio crucial para a indústria. Recentemente, os resultados de um teste baseado no sistema de avaliação HHEM-2.1-Open mostraram que o modelo GLM-4-9B da Zhihu AI apresentou resultados notáveis.

Os dados do teste mostram que, entre os 85 grandes modelos de linguagem avaliados, o GLM-4-9B conquistou o primeiro lugar com uma taxa de consistência de fatos de 98,7% e uma taxa de resposta de 100%. É particularmente digno de nota que a taxa de alucinação do modelo seja apenas de 1,3%, um resultado que não apenas ocupa o primeiro lugar, mas também supera os modelos da série GPT da OpenAI e da série Gemini do Google.

Robô, Metaverso, Ficção Científica

Observação da fonte da imagem: A imagem foi gerada por IA, fornecida pela Midjourney.

Este resultado inovador marca um avanço significativo para os grandes modelos de linguagem chineses na redução da "taxa de alucinação", abrindo novas possibilidades para melhorar a confiabilidade e precisão dos aplicativos de IA. Isso não apenas demonstra a força técnica da Zhihu AI no desenvolvimento de modelos, mas também estabelece um novo padrão para o campo global de IA.

No contexto da crescente competição tecnológica de IA, o excelente desempenho do modelo GLM-4-9B certamente atrairá mais atenção para a Zhihu AI e também proporcionará às empresas chinesas de IA maior poder de voz no cenário internacional.

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

A xAI anunciou recentemente uma notícia emocionante: seu mais recente modelo de IA, Grok-3, obteve um desempenho excepcional no ranking do Chatbot Arena. O modelo, denominado "grok-3preview-02-24", demonstrou desempenho superior em várias áreas-chave. O Grok-3-Preview-02-24 da xAI superou o GPT4.5-Preview por uma pequena margem de 1 ponto. O Grok-3 recebeu mais de 3.000 votos e, no geral,

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Hoje, a Baidu anunciou um plano importante: lançar gradualmente a nova série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrir oficialmente o código-fonte para o público em 30 de junho. Essa iniciativa destaca o contínuo desenvolvimento e inovação da Baidu no campo da inteligência artificial.

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos

Pesquisas recentes mostram que, apesar do excelente desempenho da inteligência artificial em áreas como programação e criação de conteúdo, ela ainda apresenta deficiências no tratamento de problemas históricos complexos. Um estudo divulgado recentemente na conferência NeurIPS indica que mesmo os modelos de linguagem grandes (LLMs) mais avançados têm dificuldades em obter resultados satisfatórios em testes de conhecimento histórico. A equipe de pesquisa desenvolveu um benchmark de teste chamado Hist-LLM para avaliar três modelos de linguagem de ponta: GPT-4 (OpenAI), Llama (Meta) e Gemini (Google). O teste...

Notícias e Informações de IA

Modelo GLM-4-9B da ZhiPu apresenta taxa de alucinação de apenas 1,3% e vence avaliação global de modelos de linguagem grandes

AIbase基地

Notícias de IA Relacionadas Recomendadas

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

ByteDance lança AIBrix: novo sistema de inferência de código aberto projetado para modelos de linguagem grandes

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos