Das New Yorker KI-Startup Arthur hat ArthurBench veröffentlicht, ein Open-Source-Tool zur Bewertung und zum Vergleich der Leistung großer Sprachmodelle. ArthurBench hilft Unternehmen, die Leistung verschiedener Sprachmodelle in spezifischen Anwendungsfällen zu testen und bietet Kennzahlen wie Genauigkeit, Lesbarkeit und Risikominimierung für einen Vergleich. Finanzdienstleister, Automobilhersteller und Medienplattformen nutzen ArthurBench bereits, um Analysen zu beschleunigen und präzisere Antworten zu liefern.