先日、アレン人工知能研究所(AI2)は、最新の大規模言語モデルOLMo232Bを発表しました。このモデルは、OLMo2シリーズの最新作であるだけでなく、「完全にオープン」であることから、閉鎖的な独自モデルへの強力な挑戦として注目を集めています。

OLMo232Bの最も注目すべき点は、その徹底的なオープンソース性です。AI2は、このモデルのデータ、コード、重み、そして詳細なトレーニングプロセスをすべて公開しました。この「透明性」は、秘密主義的なクローズドソースモデルとは対照的です。

AI2は、このオープンな協調的なアプローチを通じて、より広範な研究とイノベーションを促進し、世界中の研究者がOLMo232Bを基盤に研究を進めることを目指しています。知識共有の時代において、情報を隠すことは長続きしません。

320億パラメーター:GPT-3.5 Turboに匹敵、あるいは凌駕する能力

もちろん、オープンな精神だけでは不十分で、実力が重要です。OLMo232Bは320億パラメーターを誇り、これは相当な数値であり、前世代モデルからの顕著な規模拡大を示しています。

さらに驚くべきことに、広く認められている複数の学術ベンチマークテストにおいて、このオープンソースモデルはGPT-3.5 TurboとGPT-4 miniを上回ったのです!これは、オープンソースAIコミュニティに大きな自信を与え、大規模な資金力を持つ機関だけが最先端のAIモデルを作成できるわけではないことを証明しました。丹念な研磨と巧妙なトレーニングによって、「小さな馬が大きな荷車を引く」ような成果が得られることを示しています。

QQ_1742280716141.png

OLMo232Bがこれほど素晴らしい成果を収められたのは、精緻なトレーニングプロセスによるところが大きいです。トレーニングプロセスは、事前トレーニングと中間トレーニングの2つの主要な段階に分かれています。事前トレーニング段階では、モデルはDCLM、Dolma、Starcoder、Proof Pile IIなど、幅広いソースから得られた約3.9兆トークンの膨大なデータセットを学習しました。これは、モデルが様々な言語パターンを広く学習するようなものです。

一方、中間トレーニングではDolminoデータセットに焦点を当てています。このデータセットは8430億トークンを含む高品質なデータセットで、教育、数学、学術的な内容が含まれており、特定分野におけるモデルの理解能力をさらに向上させました。この段階的かつ重点的なトレーニング方法により、OLMo232Bは堅実で洗練された言語能力を備えることができました。

「省エネの達人」:少ない計算リソースで高い性能を実現

優れた性能に加え、OLMo232Bはトレーニング効率においても驚くべき能力を示しています。最先端のオープンウェイトモデルと同等の性能レベルに達しながら、計算リソースは約3分の1しか使用していません。一方、Qwen2.532Bなどのモデルは、より多くの計算能力を必要とします。

これは、少ない道具と時間で、同じかそれ以上の優れた作品を完成させる効率的な職人技のようです。AI2がリソース効率の高いAI開発に注力していることを示しています。これは、将来、少数の巨大企業だけの専売特許ではなく、より多くの「一般向け」の強力なAIモデルが登場する可能性を示唆しています。

OLMo232Bの発表は、単なる新しいAIモデルではなく、オープンでアクセス可能なAI開発における重要なマイルストーンです。完全にオープンで、一部の独自モデルに匹敵するか、あるいは凌駕する性能を持つソリューションを提供することで、AI2は、綿密なモデル設計と効率的なトレーニング方法が大きなブレイクスルーをもたらすことを明確に示しました。このオープン性は、世界中の研究者や開発者の積極的な参加を促し、人工知能分野の発展を促進し、最終的には人類社会全体に恩恵をもたらすでしょう。

OLMo232Bの登場は、AI研究分野に新鮮な風を吹き込むでしょう。研究のハードルを下げ、より広範な協調を促進するだけでなく、より活力があり革新的なAI開発への道を示しています。「独自の秘訣」にしがみつくAI大手企業も、オープン性を重視することで、より広大な未来を獲得できることを検討すべきでしょう。

github:https://github.com/allenai/OLMo-core

huggingface:https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct