Os novos sistemas da OpenAI obtiveram resultados excepcionais em avaliações recentes, conquistando o primeiro lugar no ranking de chatbots. No entanto, o baixo número de avaliações pode distorcer os resultados.

QQ20240920-103932.png

De acordo com a visão geral publicada, esses novos sistemas se destacaram em todas as categorias de avaliação, incluindo desempenho geral, segurança e capacidade técnica. Um sistema especializado em tarefas STEM, juntamente com a versão GPT-4o lançada em início de setembro, ocupou brevemente o segundo lugar e liderou na área técnica.

O Chatbot Arena, uma plataforma para comparar diferentes sistemas, avaliou os novos sistemas usando mais de 6.000 avaliações da comunidade. Os resultados mostraram que esses novos sistemas se destacaram em tarefas matemáticas, prompts complexos e programação.

QQ20240920-103553.png

No entanto, esses novos sistemas receberam um número de avaliações significativamente menor do que outros sistemas estabelecidos, como o GPT-4o ou o Claude 3.5 da Anthropic, com menos de 3.000 avaliações por sistema. Uma amostra tão pequena pode distorcer a avaliação e limitar a importância dos resultados.

Os novos sistemas da OpenAI se destacaram em matemática e codificação, os principais objetivos de seu design. Ao "pensar" por mais tempo antes de responder, esses sistemas visam estabelecer um novo padrão para o raciocínio de IA. No entanto, esses sistemas não superaram outros sistemas em todas as áreas. Muitas tarefas não exigem raciocínio lógico complexo, e às vezes a resposta rápida de outros sistemas é suficiente.

O gráfico da Lmsys sobre a força do modelo matemático mostra claramente que esses novos sistemas obtiveram uma pontuação superior a 1360, muito acima do desempenho de outros sistemas.