Die rasante Entwicklung von künstlichen Intelligenz (KI)-Modellen lässt einen schier verblüffen. Während Entwickler kontinuierlich an der Leistungsfähigkeit arbeiten, wächst bei Nutzern die Skepsis bezüglich der Zuverlässigkeit der Ergebnisse. Um diesem entgegenzuwirken, hat das von Geoffrey Hinton gegründete Vector Institute eine Studie zur Bewertung des aktuellen Stands der KI-Forschung veröffentlicht. Diese Studie bewertet anhand eines interaktiven Rankings 11 führende Open-Source- und proprietäre Modelle anhand von 16 Benchmarks, die Mathematik, Allgemeinwissen, Programmierung und Sicherheit umfassen.
John Willes, AI Infrastructure & Research Engineering Manager am Vector Institute, erklärt: „Forscher, Entwickler, Aufsichtsbehörden und Endnutzer können die Ergebnisse unabhängig verifizieren, die Leistung der Modelle vergleichen und eigene Benchmarks und Bewertungen erstellen, um Verbesserungen und Verantwortlichkeit zu fördern.“
Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.
Zu den bestplatzierten Modellen gehören DeepSeek und OpenAIs o1, während Command R+ mit der niedrigsten Punktzahl abschnitt. Dies liegt hauptsächlich an seiner geringen Größe und seinem Alter im Vergleich zu den anderen getesteten Modellen.
Die Studie zeigt, dass proprietäre Modelle in komplexen Wissens- und Denkaufgaben in der Regel besser abschneiden als Open-Source-Modelle. Die hervorragende Leistung von DeepSeek beweist jedoch, dass auch Open-Source-Modelle wettbewerbsfähig bleiben können. Willes merkt an: „Bei einfachen Aufgaben sind diese Modelle recht leistungsfähig, aber mit zunehmender Komplexität der Aufgaben nimmt die Fähigkeit zum logischen Denken und Verstehen deutlich ab.“
Darüber hinaus zeigten alle 11 Modelle bei den „vertretenden Benchmarks“ zur Bewertung der Fähigkeit zur Lösung realer Probleme Schwierigkeiten, insbesondere bei Softwareentwicklung und anderen Aufgaben, die offenes Denken und Planung erfordern. Um dies zu beheben, hat das Vector Institute den multimodalen, massiven Multi-Task-Understanding (MMMU)-Benchmark entwickelt, der die Fähigkeit der Modelle zur Verarbeitung von Bildern und Texten bewertet.
Bei der Bewertung des multimodalen Verständnisses zeigte o1 „hervorragende“ Fähigkeiten, insbesondere bei unterschiedlichen Formaten und Schwierigkeitsgraden. Willes betont jedoch, dass noch mehr Anstrengungen unternommen werden müssen, um wirklich multimodale Systeme zu schaffen, die Text-, Bild- und Audioeingaben einheitlich verarbeiten können.
Als eine der Herausforderungen in der Bewertung nennt Willes das Problem des „Data Leakage“, bei dem Modelle zwar auf bekannten Bewertungsdatensätzen gut abschneiden, bei neuen Daten jedoch versagen. Er sieht die Entwicklung innovativerer Benchmarks und dynamischer Bewertungen als Schlüssel zur Lösung dieses Problems.