Novos modelos de IA da OpenAI, o1-preview e o1-mini, alcançam pontuações mais altas em ranking de chatbots

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Sep 20, 2024

115

Os novos sistemas da OpenAI obtiveram resultados excepcionais em avaliações recentes, conquistando o primeiro lugar no ranking de chatbots. No entanto, o baixo número de avaliações pode distorcer os resultados.

De acordo com a visão geral publicada, esses novos sistemas se destacaram em todas as categorias de avaliação, incluindo desempenho geral, segurança e capacidade técnica. Um sistema especializado em tarefas STEM, juntamente com a versão GPT-4o lançada em início de setembro, ocupou brevemente o segundo lugar e liderou na área técnica.

O Chatbot Arena, uma plataforma para comparar diferentes sistemas, avaliou os novos sistemas usando mais de 6.000 avaliações da comunidade. Os resultados mostraram que esses novos sistemas se destacaram em tarefas matemáticas, prompts complexos e programação.

No entanto, esses novos sistemas receberam um número de avaliações significativamente menor do que outros sistemas estabelecidos, como o GPT-4o ou o Claude 3.5 da Anthropic, com menos de 3.000 avaliações por sistema. Uma amostra tão pequena pode distorcer a avaliação e limitar a importância dos resultados.

Os novos sistemas da OpenAI se destacaram em matemática e codificação, os principais objetivos de seu design. Ao "pensar" por mais tempo antes de responder, esses sistemas visam estabelecer um novo padrão para o raciocínio de IA. No entanto, esses sistemas não superaram outros sistemas em todas as áreas. Muitas tarefas não exigem raciocínio lógico complexo, e às vezes a resposta rápida de outros sistemas é suficiente.

O gráfico da Lmsys sobre a força do modelo matemático mostra claramente que esses novos sistemas obtiveram uma pontuação superior a 1360, muito acima do desempenho de outros sistemas.

Funcionalidade de busca de IA do WeChat direciona para o chatbot 'Yuanbao' devido ao excesso de acessos

Recentemente, a funcionalidade de busca de IA lançada pela Tencent em sua plataforma de mídia social WeChat, em teste beta, ficou indisponível em menos de um dia devido à sobrecarga do servidor. De acordo com a Tencent, a funcionalidade utiliza o modelo de linguagem grande HunYuan para busca e integra o modelo DeepSeek-R1 para fornecer serviços de raciocínio mais profundos. No entanto, apesar do pequeno número de usuários participantes do teste beta, o volume de chamadas foi excepcionalmente alto, levando a mensagens de erro frequentes como “Serviço ocupado, tente novamente mais tarde”. Nessas circunstâncias, a Tencent teve que tomar medidas rápidas para...

Musk lança o Grok 3, chatbot superinteligente, alegando ser a 'IA mais inteligente da Terra'

A xAI, empresa de Elon Musk, lançou oficialmente hoje seu modelo de linguagem de última geração, o Grok 3. Musk está confiante nesta nova versão, afirmando que o Grok 3 apresenta uma melhoria de 'uma ordem de magnitude' em relação ao seu antecessor, o Grok 2. Ele ousadamente o chamou de 'a inteligência artificial mais inteligente da Terra'. O Grok 3 não é um modelo único, mas sim uma família diversificada de modelos. Vale destacar que o Grok 3 mini, uma versão menor, foi projetado para responder perguntas rapidamente, embora em alguns...

Mistral AI lança novo aplicativo de chatbot, “Le Chat”, com versão básica gratuita

A Mistral AI lançou recentemente um novo aplicativo de chatbot, “Le Chat”, na Apple App Store. O aplicativo permite que os usuários interajam de forma mais conveniente com recursos como conversas em linguagem natural, pesquisa na web em tempo real, análise de documentos e geração de imagens. A versão básica, com funcionalidades de chat básicas, está disponível gratuitamente. Os usuários também podem optar por uma assinatura Pro de US$ 14,99 por mês para acessar um modelo mais avançado. A Mistral AI é uma empresa...

Notícias e Informações de IA

Novos modelos de IA da OpenAI, o1-preview e o1-mini, alcançam pontuações mais altas em ranking de chatbots

AIbase基地

Notícias de IA Relacionadas Recomendadas

Meta planeja lançar aplicativo independente de chatbot de IA para expandir sua base de usuários

Funcionalidade de busca de IA do WeChat direciona para o chatbot 'Yuanbao' devido ao excesso de acessos

Musk lança o Grok 3, chatbot superinteligente, alegando ser a 'IA mais inteligente da Terra'

Mistral AI lança novo aplicativo de chatbot, “Le Chat”, com versão básica gratuita