La empresa de inteligencia artificial de Nueva York, Arthur, ha lanzado ArthurBench, una herramienta de código abierto para evaluar y comparar el rendimiento de los grandes modelos de lenguaje. ArthurBench ayuda a las empresas a probar el rendimiento de diferentes modelos de lenguaje en casos de uso específicos, proporcionando métricas para comparar la precisión, la legibilidad y la gestión de riesgos. Empresas de servicios financieros, fabricantes de automóviles y plataformas de medios ya están utilizando ArthurBench para acelerar el análisis y ofrecer respuestas más precisas.
Arthur, empresa emergente de IA, lanza Bench, una herramienta de evaluación de modelos de IA de código abierto
