Eine neue unabhängige Bewertung zeigt, dass Metas neueste Llama4-Modelle – Maverick und Scout – in Standardtests gut abschneiden, bei komplexen Aufgaben mit langem Kontext jedoch schwächer sind. Laut dem „Intelligenzindex“ der KI-Analyse erreicht Maverick 49 Punkte und liegt damit vor Claude3.7 Sonnet (genaue Punktzahl nicht angegeben), aber hinter Deepseek V30324 (53 Punkte). Scout erreicht 36 Punkte, vergleichbar mit GPT-4o-mini und besser als Claude3.5 Sonnet und Mistral Small 3.1. Beide Modelle zeigen eine stabile Leistung bei Aufgaben in den Bereichen Schlussfolgern, Codieren und Mathematik und weisen keine offensichtlichen Schwächen auf.
Die Architektur-Effizienz von Maverick ist bemerkenswert. Die aktiven Parameter betragen nur 17 Milliarden (im Vergleich zu 37 Milliarden bei Deepseek V3), die Gesamtparameter 60% (402 Milliarden im Vergleich zu 671 Milliarden), und es kann Bilder verarbeiten, nicht nur Text. Preislich liegt Maverick bei 0,24 USD/0,77 USD pro Million Eingabe-/Ausgabe-Token, Scout bei 0,15 USD/0,4 USD. Dies ist günstiger als Deepseek V3 und sogar zehnmal günstiger als GPT-4o, was es zu einem der günstigsten KI-Modelle macht.
Die Veröffentlichung von Llama4 hat jedoch Kontroversen ausgelöst. Der LMArena-Benchmark zeigt, dass Maverick in der von Meta empfohlenen „experimentellen Chat-Version“ auf dem zweiten Platz liegt, aber nach Aktivierung der „Stilsteuerung“ auf den fünften Platz fällt. Dies unterstreicht die Abhängigkeit von Formatoptimierung statt reiner Inhaltsqualität. Tester stellen die Zuverlässigkeit des Meta-Benchmarks in Frage und weisen auf deutliche Unterschiede zur Leistung auf anderen Plattformen hin. Meta räumt ein, das Erlebnis der menschlichen Bewertung optimiert zu haben, bestreitet aber Datenmanipulation beim Training.
Aufgaben mit langem Kontext sind die offensichtliche Schwäche von Llama4. Tests von Fiction.live zeigen, dass Maverick bei 128.000 Token eine Genauigkeit von nur 28,1 % erreicht, Scout sogar nur 15,6 %, weit hinter Gemini2.5 Pro mit 90,6 %. Obwohl Meta behauptet, Maverick unterstütze 1 Million Token und Scout 10 Millionen Token im Kontextfenster, ist die tatsächliche Leistung weit davon entfernt. Untersuchungen zeigen, dass der Nutzen sehr großer Kontextfenster begrenzt ist und Fenster unter 128K praktischer sind.
Ahmad Al-Dahle, Leiter von Meta Generative AI, antwortete, dass frühe Inkonsistenzen auf Implementierungsprobleme und nicht auf Modellfehler zurückzuführen seien. Er bestreitet Vorwürfe der Testmanipulation und sagt, dass die Optimierung der Bereitstellung im Gange sei und innerhalb weniger Tage Stabilität erwartet werde.