A startup de inteligência artificial de Nova York, Arthur, lançou a ferramenta de código aberto ArthurBench, usada para avaliar e comparar o desempenho de grandes modelos de linguagem. O ArthurBench pode ajudar empresas a testarem o desempenho de diferentes modelos de linguagem em casos de uso específicos, fornecendo métricas de precisão, legibilidade e mitigação de riscos para comparação. Empresas de serviços financeiros, fabricantes de veículos e plataformas de mídia já estão usando o ArthurBench para acelerar a análise e fornecer respostas mais precisas.