Un equipo de la Universidad Tsinghua y otros colaboradores han publicado AgentBench, el primer benchmark sistemático para agentes de IA, que evalúa exhaustivamente 25 modelos de lenguaje diferentes. Los resultados de la investigación muestran que GPT-4 destaca en entornos complejos, y que los modelos de lenguaje comerciales de primer nivel presentan una ventaja significativa sobre los modelos de código abierto. El equipo de investigación recomienda mejorar aún más la capacidad de aprendizaje de los modelos de código abierto.
Lanzamiento del primer benchmark sistemático para agentes de IA, liderado por un equipo de Tsinghua

学生头条
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.