カリフォルニア大学バークレー校の天空計算研究所NovaSkyチームは、金曜日にSky-T1-32B-Preview推論モデルを発表しました。このモデルは複数の主要なベンチマークテストで優れた性能を示し、OpenAIのo1初期バージョンに匹敵するだけでなく、驚くほど低いトレーニングコストも特徴です。

Sky-T1-32B-Previewは、真にオープンソースの推論モデルとして初めて登場しました。NovaSkyチームはモデルだけでなく、トレーニングに使用したデータセットと必要なトレーニングコードも公開しており、このモデルはゼロから再現可能です。チームのブログ記事によると、「Sky-T1-32B-Previewのトレーニングコストは450ドル未満であり、高度な推論能力を経済的に効率的に再現できることを示しています。」以前は、同等の性能を持つモデルのトレーニングには数百万ドルもの費用がかかることがありましたが、合成トレーニングデータや他のモデルによって生成されたトレーニングデータの活用により、コストが大幅に削減されました。例えば、AI企業のWriterが最近発表したモデルPalmyra X004は、ほぼ完全に合成データに基づいてトレーニングされており、開発コストはわずか70万ドルでした。

1_1693449769614_ai2023_Facial_AI_robots_a_lot_of_cash_on_the_conference_table_i_d531bb02-0ec5-4e0a-9f1c-a65fa11a4c51

画像出典:AI生成画像、Midjourney提供

推論モデルは一般的なAIモデルとは異なり、自己ファクトチェックを効果的に行うことで、一般的な落とし穴を回避できます。ただし、推論モデルが解決策を導き出すには、数秒から数分と、通常は時間がかかります。しかし、物理学、科学、数学などの分野における信頼性の高さが大きな利点です。

NovaSkyチームは、アリババのQwQ-32B-Preview推論モデルを使用してSky-T1の初期トレーニングデータを作成し、その後データを「整理」し、OpenAIのGPT-4o-miniを使用してデータをより使いやすい形式に再構成したことを明らかにしました。8台のNvidia H100 GPUラックを使用して、320億パラメーターのSky-T1をトレーニングするのに約19時間かかりました。パラメーター数は、モデルの問題解決能力にほぼ対応しています。

性能テストでは、Sky-T1はMATH500(一連の「競技レベル」の数学的課題)でo1の初期プレビューバージョンを上回り、LiveCodeBench(コーディング評価)の一連の難問でもo1のプレビューバージョンを上回りました。しかし、Sky-T1はGPQA-Diamondではo1プレビューバージョンを下回りました。GPQA-Diamondには、博士号取得者が習得すべき物理学、生物学、化学に関する問題が含まれています。さらに、OpenAIのo1GAバージョンはプレビューバージョンよりも強力であり、OpenAIは今後数週間でさらに高性能な推論モデルo3を発表する予定です。

それにもかかわらず、NovaSkyチームは、Sky-T1は高度な推論能力を持つオープンソースモデルを開発するための出発点に過ぎないと述べています。「今後、私たちはより効率的なモデルの開発に注力し、強力な推論性能を維持し、高度な技術を探求することで、テストにおけるモデルの効率性と精度をさらに向上させていきます」とチームは投稿で書いています。「これらのエキサイティングな計画における私たちの進捗にご期待ください。」このオープンソース推論モデルの登場は、間違いなくAI分野に新たな機会と課題をもたらしており、その将来の発展は継続的に注目に値します。