医療AI評価に関する研究論文で、マイクロソフトが複数のトップレベルの大規模言語モデルのパラメータ規模を「うっかり」公開したようです。12月26日に発表されたこの論文は、OpenAIやAnthropicなどの複数企業のモデルパラメータデータを示しており、モデルのアーキテクチャと技術力に関する議論を巻き起こしています。

論文によると、OpenAIのo1-previewモデルは約3000億パラメータ、GPT-4oは約2000億パラメータ、GPT-4o-miniはわずか80億パラメータとのことです。これは、年初にNVIDIAが発表したGPT-4の1.76兆MoEアーキテクチャという主張とは大きく対照的です。また、Claude3.5Sonnetのパラメータ規模は約1750億パラメータとされています。

image.png

マイクロソフトが論文でモデルパラメータ情報を「漏洩」させるのは今回が初めてではありません。昨年10月、マイクロソフトは論文でGPT-3.5-Turboのパラメータ規模が200億であると公開し、その後、更新版でその情報を削除しました。このような繰り返し起こる「漏洩」は、業界関係者に特定の意図があるのではないかと推測させています。

image.png

注目すべきは、この論文の主な目的がMEDECという医療分野のベンチマークテストの紹介であることです。研究チームは、アメリカの3つの病院から収集した488件の臨床記録を分析し、主要なモデルが医療文書の誤りを識別および修正する能力を評価しました。テストの結果、Claude3.5Sonnetが誤り検出において70.16点で他のモデルをリードしました。

image.png

これらのデータの正確性については、活発な議論が展開されています。Claude3.5Sonnetがより少ないパラメータ数で優れた性能を実現したとすれば、Anthropicの技術力を示すものだとする意見があります。また、モデルの価格から逆算して、一部のパラメータ推定は妥当性があると分析する専門家もいます。

image.png

特に注目すべきは、論文では主要なモデルのパラメータしか推定しておらず、Google Geminiの具体的なパラメータについては言及していないことです。これは、GeminiがNVIDIAのGPUではなくTPUを使用しているため、トークン生成速度から正確に推定することが難しい可能性があると分析されています。

image.png

OpenAIがオープンソースへのコミットメントを弱めているため、モデルパラメータなどの重要な情報は、引き続き業界の注目を集めるでしょう。今回の意図せぬ漏洩は、AIモデルのアーキテクチャ、技術路線、そしてビジネス競争について、改めて深く考えるきっかけとなりました。

参考文献:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/