El Instituto de Inteligencia Artificial de Beijing (BAAI) ha lanzado un modelo de evaluación llamado JudgeLM, capaz de evaluar de manera eficiente y precisa una variedad de modelos de lenguaje grandes. En comparación con GPT-4, JudgeLM logra más del 90% de consistencia en los resultados de evaluación con solo 1/120 del costo.
JudgeLM es aplicable a diversas situaciones de evaluación, incluyendo texto plano y modalidades múltiples, y puede generar puntuaciones, juicios y explicaciones detalladas. Gracias a sus métodos innovadores, la concordancia de JudgeLM con las respuestas de referencia supera el 90% en algunos casos, acercándose al rendimiento humano.
BAAI también ha publicado un conjunto de datos que incluye muestras de entrenamiento y validación para una investigación más profunda en la evaluación de modelos de lenguaje grandes. En el futuro, el equipo de JudgeLM continuará mejorando este modelo de evaluación para ofrecer una evaluación de modelos de lenguaje grandes más precisa, eficiente y que cubra un mayor rango de escenarios.