Los nuevos modelos de IA de OpenAI, o1-preview y o1-mini, obtienen las puntuaciones más altas en la clasificación de chatbots

AIbase基地

Publicado elNoticias de IA · 3 minutos de lectura · Sep 20, 2024

115

Los nuevos sistemas de OpenAI obtuvieron excelentes resultados en evaluaciones recientes, alcanzando el primer lugar en la clasificación de chatbots. Sin embargo, el bajo número de puntuaciones podría distorsionar la evaluación.

Según el resumen publicado, estos nuevos sistemas destacaron en todas las categorías de evaluación, incluyendo rendimiento general, seguridad y capacidades técnicas. Un sistema especializado en tareas STEM, junto con la versión GPT-4o lanzada a principios de septiembre, ocupó brevemente el segundo lugar y lideró en el ámbito técnico.

Chatbot Arena, una plataforma para comparar diferentes sistemas, evaluó los nuevos sistemas utilizando más de 6.000 calificaciones de la comunidad. Los resultados mostraron que estos nuevos sistemas sobresalieron en tareas matemáticas, indicaciones complejas y programación.

Sin embargo, estos nuevos sistemas recibieron significativamente menos calificaciones que otros sistemas establecidos, como GPT-4o o Claude 3.5 de Anthropic, con menos de 3.000 reseñas por sistema. Un tamaño de muestra tan pequeño podría distorsionar la evaluación y limitar la importancia de los resultados.

Los nuevos sistemas de OpenAI sobresalieron en matemáticas y codificación, los objetivos principales de su diseño. Al "pensar" más tiempo antes de responder, estos sistemas buscan establecer un nuevo estándar para el razonamiento de la IA. Sin embargo, estos sistemas no superaron a otros en todos los ámbitos. Muchas tareas no requieren un razonamiento lógico complejo, y a veces la respuesta rápida de otros sistemas es suficiente.

El gráfico de Lmsys sobre la fuerza de los modelos matemáticos muestra claramente que estos nuevos sistemas obtuvieron una puntuación superior a 1360, superando con creces el rendimiento de otros sistemas.

Los chatbots de IA absorben el tráfico: las editoriales se enfrentan a una caída del 96%

Los chatbots de inteligencia artificial (IA) están revolucionando el ecosistema de internet, y los editores se enfrentan a un desafío sin precedentes. Los chatbots de empresas como OpenAI y Google parecen estar absorbiendo el tráfico que los sitios web necesitan desesperadamente, causando problemas significativos a los creadores de noticias y contenido. Según un informe de Forbes, los datos recientes de la plataforma de licencias de contenido TollBit muestran que los chatbots de IA han reducido el tráfico a los sitios web de los editores en un asombroso 96% en comparación con los motores de búsqueda tradicionales. A pesar de que OpenAI y Perp...

La función de búsqueda con IA de WeChat se dirige al chatbot "Yuanbao" debido a la alta demanda

Recientemente, la función de búsqueda con IA lanzada por Tencent en su plataforma de redes sociales WeChat dejó de funcionar correctamente después de menos de un día de prueba beta debido a una sobrecarga del servidor. Según Tencent, esta función utiliza el modelo grande de lenguaje HunYuan para la búsqueda e integra el modelo DeepSeek-R1 para proporcionar un servicio de pensamiento más profundo. Sin embargo, a pesar del escaso número de usuarios que participaron en la prueba beta, la cantidad de llamadas fue excepcionalmente grande, lo que provocó que el sistema mostrara con frecuencia el mensaje "El servicio está ocupado, inténtalo de nuevo más tarde". En estas circunstancias, Tencent tuvo que tomar medidas rápidamente.

Musk lanza Grok 3, un chatbot de súper inteligencia, que presume ser la "IA más inteligente de la Tierra"

La compañía xAI de Musk lanzó oficialmente hoy su modelo de última generación, Grok3. Musk confía en este lanzamiento y afirma que Grok3 ha mejorado "un orden de magnitud" con respecto a su predecesor, Grok2. Incluso se atrevió a calificarlo como la "inteligencia artificial más inteligente de la Tierra". Grok3 no es un modelo único, sino una diversa familia de modelos. Cabe destacar que la versión más pequeña, Grok3mini, está diseñada para responder preguntas rápidamente, aunque en algunos...

Noticias de IA

Los nuevos modelos de IA de OpenAI, o1-preview y o1-mini, obtienen las puntuaciones más altas en la clasificación de chatbots

AIbase基地

Noticias de IA relacionadas recomendadas

Los chatbots de IA absorben el tráfico: las editoriales se enfrentan a una caída del 96%

Meta planea lanzar una aplicación independiente de chatbot de IA para ampliar su base de usuarios

La función de búsqueda con IA de WeChat se dirige al chatbot "Yuanbao" debido a la alta demanda

Musk lanza Grok 3, un chatbot de súper inteligencia, que presume ser la "IA más inteligente de la Tierra"