NASAの機関横断的実施と先進概念チーム(IMPACT)は、民間および非連邦のパートナーと宇宙法案協定を締結することで協力し、INDUSを共同開発しました。INDUSは、地球科学、生物科学、物理科学、太陽物理学、惑星科学、天体物理学などの分野を対象とした大規模言語モデル(LLM)であり、多様なデータソースからの厳選された科学文献を用いてトレーニングされています。

image.png

INDUSには、エンコーダーとセンテンストランスフォーマーの2種類のモデルが含まれています。エンコーダーは自然言語テキストをLLMが処理できる数値コードに変換します。INDUSエンコーダーは、天体物理学、惑星科学、地球科学、太陽物理学、生物科学、物理科学のデータを含む60億トークンのコーパスでトレーニングされました。IMPACT-IBM共同チームが開発したカスタムトークナイザーは、バイオマーカーやリン酸化などの科学用語を認識することで、一般的なトークナイザーを改良しています。INDUSの5万語以上の語彙の半分以上は、トレーニングに使用された特定の科学分野に固有のものです。INDUSエンコーダーモデルは約2億6800万個のテキストペア(タイトル/要約、質問/回答を含む)を使用してファインチューニングされました。

INDUSに分野固有の語彙を提供することで、IMPACT-IBMチームは、生物医学タスクベンチマーク、科学的質問応答ベンチマーク、地球科学エンティティ認識テストにおいて、オープンで分野非特異的なLLMよりも優れた性能を実現しました。多様な言語タスクと検索強化生成を設計することにより、INDUSは研究者の質問を処理し、関連文書を検索し、回答を生成することができます。遅延に敏感なアプリケーションのために、より小さく高速なエンコーダーとセンテンストランスフォーマーモデルのバージョンも開発されました。

検証テストでは、INDUSは、約400個のNASAの質問のテストセットにおいて、科学文献から関連する段落を検索することができました。IBMの研究者であるBishwaranjan Bhattacharjee氏は、全体的なアプローチについて次のようにコメントしています。「カスタム語彙だけでなく、大規模な専門トレーニングエンコーダーモデルと優れたトレーニング戦略を持つことで、優れたパフォーマンスを実現しました。より小さく高速なバージョンについては、ニューラルアーキテクチャ検索を使用してモデルアーキテクチャを取得し、より大きなモデルの教師あり学習を使用して知識蒸留によるトレーニングを行いました。」

要点:

- 🚀NASAとIBMが協力して、地球科学、生物科学、物理科学、太陽物理学、惑星科学、天体物理学などの分野に適用可能な大規模言語モデルINDUSを開発。

- 🎓INDUSは、エンコーダーとセンテンストランスフォーマーの2種類のモデルを含み、カスタムトークナイザーと60億トークンのコーパスを使用してトレーニングされ、約2億6800万個のテキストペアでファインチューニング。

- 💡INDUSは、分野固有の語彙と多様な言語タスクおよび検索強化生成の設計により、オープンで分野非特異的なLLMよりも優れた性能を実現し、研究者の質問を処理し、関連文書を検索し、回答を生成可能。