最近、アップル社の人工知能チームとワシントン大学などの複数の機関が共同で、DCLMという名前のオープンソース言語モデルを発表しました。このモデルは7億のパラメータを持ち、トレーニングには2.5兆個ものデータトークンが使用され、言語の理解と生成を向上させるのに役立ちます。
では、言語モデルとは何でしょうか?簡単に言うと、言語を分析および生成できるプログラムで、翻訳、テキスト生成、感情分析など、さまざまなタスクを支援します。これらのモデルをより効果的に機能させるためには、高品質なデータセットが必要です。しかし、関連のない有害なコンテンツを除去し、重複情報を削除する必要があるため、これらのデータの取得と整理は容易ではありません。
この課題に対処するため、アップルの研究チームは、言語モデルのデータセット最適化ツールである「DataComp for Language Models(DCLM)」を発表しました。彼らは最近、Hugging FaceプラットフォームでDCIMモデルとデータセットをオープンソース化しました。オープンソース版には、DCLM-7B、DCLM-1B、dclm-7b-it、DCLM-7B-8k、dclm-baseline-1.0、dclm-baseline-1.0-parquetが含まれており、研究者はこのプラットフォームを通じて多くの実験を行い、最も効果的なデータ整理戦略を見つけることができます。
https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b
DCLMの中核となる強みは、その構造化されたワークフローです。研究者は必要に応じて、4.12億から7億パラメータまでのさまざまな規模のモデルを選択し、重複削除やフィルタリングなどのさまざまなデータ整理方法を試すことができます。これらの体系的な実験を通じて、研究者はさまざまなデータセットの品質を明確に評価できます。これは将来の研究の基礎となるだけでなく、データセットの改善によってモデルのパフォーマンスを向上させる方法の理解にも役立ちます。
例えば、DCLMを使用して構築されたベンチマークデータセットを用いて、研究チームは7億パラメータの言語モデルをトレーニングし、MMLUベンチマークテストで64%の5-shot精度を達成しました!これは以前の最高レベルよりも6.6ポイント向上しており、使用計算リソースも40%削減されています。DCLMベースラインモデルのパフォーマンスは、Mistral-7B-v0.3とLlama-38Bにも匹敵しますが、後者の方がはるかに多くの計算リソースを必要とします。
DCLMの発表は、言語モデルの研究に新たな基準を提供し、科学者たちがモデルのパフォーマンスを体系的に向上させ、必要な計算リソースを削減するのに役立ちます。
要点:
1️⃣ アップルAIと複数の機関が共同でDCLMを発表し、強力なオープンソース言語モデルを作成しました。
2️⃣ DCLMは標準化されたデータセット最適化ツールを提供し、研究者が効果的な実験を行うのに役立ちます。
3️⃣ 新しいモデルは重要なテストで顕著な進歩を遂げ、同時に計算リソースの必要性を削減しました。