La startup new-yorkaise spécialisée en intelligence artificielle, Arthur, a lancé ArthurBench, un outil open-source permettant d'évaluer et de comparer les performances des grands modèles de langage. ArthurBench aide les entreprises à tester les performances de différents modèles linguistiques sur des cas d'utilisation spécifiques, en fournissant des indicateurs de comparaison tels que la précision, la lisibilité et la gestion des risques.
Des entreprises du secteur des services financiers, de la fabrication automobile et des médias utilisent déjà ArthurBench pour accélérer leurs analyses et fournir des réponses plus précises.