In einer Forschungsarbeit zum Thema Bewertung von medizinischer KI hat Microsoft scheinbar „zufällig“ die Größenordnungen der Parameter mehrerer Top-Sprachmodelle der Branche preisgegeben. Die am 26. Dezember veröffentlichte Arbeit enthüllt nicht nur Parameterdaten von Unternehmen wie OpenAI und Anthropic, sondern löst auch eine lebhafte Debatte über Modellarchitektur und technische Leistungsfähigkeit aus.

Laut der Veröffentlichung hat das o1-Preview-Modell von OpenAI etwa 300 Milliarden Parameter, GPT-4o etwa 200 Milliarden und GPT-4o-mini nur 8 Milliarden. Dies steht in starkem Kontrast zu der Aussage von Nvidia von Anfang des Jahres, dass GPT-4 eine 1,76 Billionen Parameter MoE-Architektur verwendet. Die Arbeit nennt außerdem eine geschätzte Größe von etwa 175 Milliarden Parametern für Claude3.5Sonnet.

image.png

Dies ist nicht das erste Mal, dass Microsoft in einer Veröffentlichung Modellparameter „verraten“ hat. Im Oktober letzten Jahres enthüllte Microsoft in einer Arbeit die Größe von 20 Milliarden Parametern für GPT-3.5-Turbo, um diese Information später in einer aktualisierten Version wieder zu entfernen. Diese wiederholten „Versehen“ lassen Branchenexperten über eine mögliche Absicht spekulieren.

image.png

Bemerkenswert ist, dass die Hauptintention der Arbeit die Vorstellung von MEDEC, einem Benchmark für den medizinischen Bereich, ist. Das Forschungsteam analysierte 488 klinische Notizen aus drei US-amerikanischen Krankenhäusern und bewertete die Fähigkeit verschiedener Modelle, Fehler in medizinischen Dokumenten zu erkennen und zu korrigieren. Die Testergebnisse zeigen, dass Claude3.5Sonnet mit einem Score von 70,16 bei der Fehlererkennung die anderen Modelle übertrifft.

image.png

Die Echtheit dieser Daten wird in der Branche lebhaft diskutiert. Es gibt die Meinung, dass die hervorragende Leistung von Claude3.5Sonnet mit einer geringeren Parameterzahl die technische Stärke von Anthropic unterstreicht. Andere Analysten argumentieren anhand der Modellpreise, dass einige Parameterschätzungen plausibel sind.

image.png

Besonders auffällig ist das Fehlen von Angaben zu den Parametern von Googles Gemini. Es wird spekuliert, dass dies mit der Verwendung von TPUs anstelle von Nvidia-GPUs zusammenhängen könnte, was eine genaue Schätzung anhand der Token-Generierungsgeschwindigkeit erschwert.

image.png

Da OpenAI sein Open-Source-Engagement zunehmend reduziert, dürften Kerninformationen wie Modellparameter weiterhin im Fokus der Branche stehen. Diese unbeabsichtigte Enthüllung regt erneut zu tiefgreifenden Überlegungen über die Architektur von KI-Modellen, technologische Strategien und den Wettbewerb im Wirtschaftsbereich an.

Referenzen:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/