Los nuevos sistemas de OpenAI obtuvieron excelentes resultados en evaluaciones recientes, alcanzando el primer lugar en la clasificación de chatbots. Sin embargo, el bajo número de puntuaciones podría distorsionar la evaluación.
Según el resumen publicado, estos nuevos sistemas destacaron en todas las categorías de evaluación, incluyendo rendimiento general, seguridad y capacidades técnicas. Un sistema especializado en tareas STEM, junto con la versión GPT-4o lanzada a principios de septiembre, ocupó brevemente el segundo lugar y lideró en el ámbito técnico.
Chatbot Arena, una plataforma para comparar diferentes sistemas, evaluó los nuevos sistemas utilizando más de 6.000 calificaciones de la comunidad. Los resultados mostraron que estos nuevos sistemas sobresalieron en tareas matemáticas, indicaciones complejas y programación.
Sin embargo, estos nuevos sistemas recibieron significativamente menos calificaciones que otros sistemas establecidos, como GPT-4o o Claude 3.5 de Anthropic, con menos de 3.000 reseñas por sistema. Un tamaño de muestra tan pequeño podría distorsionar la evaluación y limitar la importancia de los resultados.
Los nuevos sistemas de OpenAI sobresalieron en matemáticas y codificación, los objetivos principales de su diseño. Al "pensar" más tiempo antes de responder, estos sistemas buscan establecer un nuevo estándar para el razonamiento de la IA. Sin embargo, estos sistemas no superaron a otros en todos los ámbitos. Muchas tareas no requieren un razonamiento lógico complejo, y a veces la respuesta rápida de otros sistemas es suficiente.
El gráfico de Lmsys sobre la fuerza de los modelos matemáticos muestra claramente que estos nuevos sistemas obtuvieron una puntuación superior a 1360, superando con creces el rendimiento de otros sistemas.