A startup de IA Arthur lança o Bench, uma ferramenta de avaliação de modelos de IA de código aberto

站长之家

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Aug 18, 2023

A startup de inteligência artificial de Nova York, Arthur, lançou a ferramenta de código aberto ArthurBench, usada para avaliar e comparar o desempenho de grandes modelos de linguagem. O ArthurBench pode ajudar empresas a testarem o desempenho de diferentes modelos de linguagem em casos de uso específicos, fornecendo métricas de precisão, legibilidade e mitigação de riscos para comparação. Empresas de serviços financeiros, fabricantes de veículos e plataformas de mídia já estão usando o ArthurBench para acelerar a análise e fornecer respostas mais precisas.

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

A xAI anunciou recentemente uma notícia emocionante: seu mais recente modelo de IA, Grok-3, obteve um desempenho excepcional no ranking do Chatbot Arena. O modelo, denominado "grok-3preview-02-24", demonstrou desempenho superior em várias áreas-chave. O Grok-3-Preview-02-24 da xAI superou o GPT4.5-Preview por uma pequena margem de 1 ponto. O Grok-3 recebeu mais de 3.000 votos e, no geral,

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Hoje, a Baidu anunciou um plano importante: lançar gradualmente a nova série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrir oficialmente o código-fonte para o público em 30 de junho. Essa iniciativa destaca o contínuo desenvolvimento e inovação da Baidu no campo da inteligência artificial.

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos

Pesquisas recentes mostram que, apesar do excelente desempenho da inteligência artificial em áreas como programação e criação de conteúdo, ela ainda apresenta deficiências no tratamento de problemas históricos complexos. Um estudo divulgado recentemente na conferência NeurIPS indica que mesmo os modelos de linguagem grandes (LLMs) mais avançados têm dificuldades em obter resultados satisfatórios em testes de conhecimento histórico. A equipe de pesquisa desenvolveu um benchmark de teste chamado Hist-LLM para avaliar três modelos de linguagem de ponta: GPT-4 (OpenAI), Llama (Meta) e Gemini (Google). O teste...

Notícias e Informações de IA

A startup de IA Arthur lança o Bench, uma ferramenta de avaliação de modelos de IA de código aberto

站长之家

Notícias de IA Relacionadas Recomendadas

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

ByteDance lança AIBrix: novo sistema de inferência de código aberto projetado para modelos de linguagem grandes

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos