Eine kürzlich von OpenAI durchgeführte Studie zeigt, dass selbst die fortschrittlichsten Sprachmodelle trotz des rasanten Fortschritts in der KI-Technologie bei der Beantwortung von Faktenfragen weit hinter den Erwartungen zurückbleiben.

Die Studie verwendete OpenAIs eigenen SimpleQA-Benchmark, der 4.326 Fragen aus verschiedenen Bereichen wie Wissenschaft, Politik und Kunst umfasst, wobei jede Frage eine eindeutige richtige Antwort hat.

image.png

Nach Überprüfung durch zwei unabhängige Gutachter erreichte das beste Modell von OpenAI, o1-preview, eine Genauigkeit von nur 42,7 %, während GPT-4o etwas niedriger bei 38,2 % lag. Das kleinere GPT-4o-mini erzielte sogar nur eine Genauigkeit von 8,6 %. Das Modell Claude von Anthropic schnitt noch schlechter ab; Claude-3.5-sonnet erreichte lediglich 28,9 %.

image.png

Der Schlüssel dieser Studie liegt im Design des Tests, der nicht nur die Leistung der KI bewertet, sondern auch die Grenzen der KI-Modelle beim Wissenszugriff aufzeigt. Die Forscher betonen, dass Benutzer diese Modelle als Informationsverarbeitungswerkzeuge betrachten und nicht als alleinige Wissensquelle. Für genauere Antworten sollten Benutzer die KI mit zuverlässigen Daten versorgen, anstatt sich allein auf ihr eingebautes Wissen zu verlassen.

image.png

Bemerkenswert ist, dass KI-Modelle ihre eigenen Fähigkeiten oft überschätzen. Die Forscher stellten fest, dass die Modelle bei der Aufforderung, ihre Antworten zu bewerten, in der Regel überhöhte Genauigkeitsbewertungen abgaben. Selbst bei wiederholter Beantwortung derselben Frage blieb die tatsächliche Erfolgsrate der Modelle unter ihrer selbst eingeschätzten Genauigkeit, obwohl sie immer wieder dieselbe Antwort lieferten. Dies deckt sich mit der Kritik an Sprachmodellen, die oft absurde Antworten mit großer Überzeugung liefern.

Die Forscher sehen einen klaren Mangel an Faktengenauigkeit in aktuellen KI-Systemen und fordern Verbesserungen. Sie stellen auch eine offene Frage: Kann die Leistung bei der Beantwortung kurzer Faktenfragen die Leistung bei der Bearbeitung längerer, komplexerer Antworten vorhersagen? Um die Entwicklung zuverlässigerer Sprachmodelle zu unterstützen, hat OpenAI den SimpleQA-Benchmark auf Github veröffentlicht.

Wichtigste Punkte:

📊 OpenAIs Studie zeigt, dass die Erfolgsrate der fortschrittlichsten Sprachmodelle bei der Beantwortung von Faktenfragen niedrig ist und maximal 42,7 % beträgt.

🤖 Diese KI-Modelle überschätzen oft ihre Fähigkeiten und geben in der Regel überhöhte Vertrauensbewertungen ab.

🔍 OpenAI hat den SimpleQA-Benchmark öffentlich zugänglich gemacht, um die Forschung an zuverlässigeren Sprachmodellen zu unterstützen.