2025-02-18 16:55:26.AIbase.
OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales
2024-12-10 11:31:07.AIbase.
El benchmark ARC-AGI está a punto de ser superado, pero su creador advierte sobre fallas en el diseño de la prueba
2024-12-05 14:45:53.AIbase.
ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"
2024-11-29 09:47:51.AIbase.
¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%
2024-11-25 15:09:04.AIbase.
Meta lanza un nuevo benchmark Multi-IF para desafiar la capacidad de seguir instrucciones multilingües y de varias rondas
2024-11-18 14:29:39.AIbase.
¿Modelos de difusión para videojuegos? DIAMOND logra un nuevo SOTA en el benchmark Atari 100k
2024-10-31 14:28:43.AIbase.
OpenAI lanza SimpleQA, un nuevo benchmark de IA para evaluar la precisión fáctica de los modelos de lenguaje
2024-10-14 14:51:30.AIbase.
El equipo de investigación de Apple publica el nuevo benchmark GSM-Symbolic: ¡revela las deficiencias en el razonamiento matemático de los modelos lingüísticos grandes!
2024-10-11 09:35:13.AIbase.
DeepMind presenta el nuevo benchmark Michelangelo: Revelando las deficiencias de la inferencia de LLM de contexto largo
2024-09-03 11:32:53.AIbase.
CardBench: Google lanza un benchmark integral de IA con más de 20 bases de datos reales y miles de consultas
2023-12-12 16:20:29.AIbase.
智谱 AI lanza AlignBench, un benchmark de alineación para LLM en chino
2023-11-02 15:21:41.AIbase.
Ant Group publica un benchmark de modelos grandes para el ámbito de DevOps
2023-08-09 14:07:10.AIbase.