Resultados del Benchmark AgentBench

Un equipo de la Universidad Tsinghua y otros colaboradores han publicado AgentBench, el primer benchmark sistemático para agentes de IA, que evalúa exhaustivamente 25 modelos de lenguaje diferentes. Los resultados de la investigación muestran que GPT-4 destaca en entornos complejos, y que los modelos de lenguaje comerciales de primer nivel presentan una ventaja significativa sobre los modelos de código abierto. El equipo de investigación recomienda mejorar aún más la capacidad de aprendizaje de los modelos de código abierto.