Arthur, empresa emergente de IA, lanza Bench, una herramienta de evaluación de modelos de IA de código abierto

站长之家

Publicado elNoticias de IA · 1 minutos de lectura · Aug 18, 2023

La empresa de inteligencia artificial de Nueva York, Arthur, ha lanzado ArthurBench, una herramienta de código abierto para evaluar y comparar el rendimiento de los grandes modelos de lenguaje. ArthurBench ayuda a las empresas a probar el rendimiento de diferentes modelos de lenguaje en casos de uso específicos, proporcionando métricas para comparar la precisión, la legibilidad y la gestión de riesgos. Empresas de servicios financieros, fabricantes de automóviles y plataformas de medios ya están utilizando ArthurBench para acelerar el análisis y ofrecer respuestas más precisas.

¿Navegador con IA integrada? La herramienta de código abierto Browser Use revoluciona el mundo de la tecnología ¡Los desarrolladores la llaman la mejor!

Recientemente, el mundo de la tecnología y la comunidad de desarrolladores han sido inundados por un proyecto de código abierto llamado Browser Use. Esta herramienta es como si le hubiéramos dado alas a la IA, permitiéndole controlar un navegador con la misma soltura que un humano. Con lenguaje natural, se puede dirigir a la IA para que complete automáticamente diversas tareas web. Su potente capacidad de automatización y su flexible sistema de implementación han encendido la pasión de los amantes de la tecnología de todo el mundo, generando una gran ola en la plataforma X (antes Twitter). Browser Use se está expandiendo rápidamente, impulsando el avance de la IA en el campo de la automatización de navegadores.

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

En el campo de la inteligencia artificial, el 'problema de alucinación' de los modelos de lenguaje grandes ha sido un desafío clave para la industria. Recientemente, los resultados de una prueba basada en el sistema de evaluación HHEM-2.1-Open muestran que el modelo GLM-4-9B de Zhihu AI ha presentado resultados notables. Los datos de la prueba muestran que, de los 85 modelos de lenguaje grandes que participaron en la evaluación, GLM-4-9B obtuvo el primer lugar con una tasa de consistencia de hechos del 98.7% y una tasa de respuesta del 100%. Cabe destacar que la tasa de alucinación de este modelo es de solo el 1.3%, un logro significativo.

NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes

Con la proliferación de los modelos de lenguaje grandes (LLM) en las aplicaciones modernas de inteligencia artificial, herramientas como los chatbots y los generadores de código dependen de las capacidades de estos modelos. Sin embargo, los problemas de eficiencia en el proceso de inferencia se están volviendo cada vez más pronunciados. Especialmente en el manejo de mecanismos de atención, como FlashAttention y SparseAttention, a menudo se enfrentan a desafíos con cargas de trabajo diversas, patrones de entrada dinámicos y limitaciones de recursos de GPU. Estos desafíos, junto con la alta latencia y los cuellos de botella de memoria

Noticias de IA

Arthur, empresa emergente de IA, lanza Bench, una herramienta de evaluación de modelos de IA de código abierto

站长之家

Noticias de IA relacionadas recomendadas

¿Navegador con IA integrada? La herramienta de código abierto Browser Use revoluciona el mundo de la tecnología ¡Los desarrolladores la llaman la mejor!

ByteDance lanza AIBrix: un nuevo sistema de inferencia de código abierto diseñado para modelos de lenguaje grandes

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes