Kürzlich stürzte das von Meta veröffentlichte Open-Source-Sprachmodell Llama-4-Maverick in der Rangliste von LMArena vom zweiten auf den 32. Platz ab. Diese dramatische Veränderung führte zu zahlreichen Zweifeln bei Entwicklern, die vermuten, dass Meta eine spezielle Version eingereicht hat, um die Rangliste zu manipulieren.

Der Vorfall begann am 6. April, als Meta sein neuestes großes Sprachmodell Llama4 vorstellte, das die Versionen Scout, Maverick und Behemoth umfasst. Llama-4-Maverick erzielte in der ersten Bewertung beeindruckende Ergebnisse und belegte den zweiten Platz in der LMArena-Rangliste, nur hinter Gemini2.5Pro.

Doch mit dem zunehmenden Feedback von Entwicklern zum tatsächlich veröffentlichten Open-Source-Modell sank der Ruf des Modells rapide. Einige Entwickler stellten fest, dass die von Meta an LMArena übermittelte Version erheblich von der öffentlich zugänglichen Open-Source-Version abwich, was zu Verdächtigungen bezüglich eines möglichen Rankingschwindels führte. Chatbot Arena bestätigte am 8. April, dass Meta tatsächlich eine „Spezialversion“ eingereicht hatte und kündigte an, die Rangliste zu überprüfen.

LLM Lama Mathematik-Sprachmodell

Bildquelle: Das Bild wurde mit KI generiert und stammt von Midjourney.

Laut Chatbot Arena handelte es sich bei der ersten Einreichung von Meta, Llama-4-Maverick-03-26-Experimental, um eine experimentell optimierte Version, die damals den zweiten Platz belegte. Die korrigierte Open-Source-Version, Llama-4-Maverick-17B-128E-Instruct, mit 17 Milliarden Aktivierungsparametern und 128 MoE-Experten, belegt hingegen nur den 32. Platz und liegt damit weit hinter Top-Modellen wie Gemini2.5Pro und GPT4o, sogar hinter dem auf dem Vorgängermodell basierenden Llama-3.3-Nemotron-Super-49B-v1.

Meta erklärte auf einer kürzlich abgehaltenen Konferenz, dass die unerwartet schlechte Leistung von Llama-4-Maverick-03-26-Experimental darauf zurückzuführen sei, dass das Modell „speziell für Dialoge optimiert“ wurde, was zu besseren Ergebnissen in der LM Arena führte. Diese Optimierung führte zwar zu hohen Punktzahlen in der Rangliste, erschwert aber Entwicklern die genaue Vorhersage der tatsächlichen Leistung des Modells in verschiedenen Szenarien.

Ein Meta-Sprecher erklärte gegenüber TechCrunch, dass Meta weiterhin verschiedene kundenspezifische Versionen erforschen und es begrüßt, wenn Entwickler Llama4 an ihre Bedürfnisse anpassen und verbessern. Das Unternehmen hofft auf kreative Ergebnisse der Entwickler und schätzt deren Feedback.