IBMが6.48TBのLLMトレーニングデータセットを公開

IBMは5月に、企業向けアプリケーションに適したGranite13B LLMモデルをオープンソース化しました。そして今、IBMのAIプラットフォーム製品担当副社長であるアルマンド・ルイーズ（Armand Ruiz）氏が、Granite13Bのトレーニングに使用された6.48TBの膨大なデータセットの全容を公開しました。

このデータセットは厳格な前処理を経て、2.07TBに圧縮され、68％の削減を実現しました。ルイーズ氏は、このステップが、企業向けアプリケーションのニーズを満たすために、高品質で、バイアスがなく、倫理的で法的にも問題のないデータセットを確保する上で極めて重要であると強調しています。

データセットは、複数のソースから慎重に選定されたもので構成されています。

- arXiv：240万件以上の科学論文のプレプリント。

- Common Crawl：公開されているウェブクロールデータベース。

- DeepMind Mathematics：数学に関する質疑応答ペア。

- Free Law：米国裁判所からのパブリックドメインの法的意見。

- GitHub Clean：CodeParrotからのコードデータ。

- Hacker News：2007年から2018年までのコンピューターサイエンスと起業家に関するニュース。

- OpenWeb Text：OpenAIのWeb Textコーパスのオープンソース版。

- Project Gutenberg（PG-19）：初期の作品に焦点を当てた無料電子書籍。

- Pubmed Central：生物医学および生命科学に関する論文。

- SEC Filings：米国証券取引委員会（SEC）の10-K/Q提出書類（1934～2022年）。

- Stack Exchange：Stack Exchangeネットワーク上のユーザー投稿コンテンツ。

- USPTO：1975年から2023年5月までに付与された米国特許。

- Webhose：非構造化ウェブコンテンツを機械可読データに変換したもの。

- Wikimedia：8つの英語版ウィキメディアプロジェクト。

前処理プロセスには、テキスト抽出、重複排除、言語識別、文分割、ヘイトスピーチ、悪用、卑猥な言葉の注釈、文書品質の注釈、URLマスクの注釈、フィルタリング、トークン化が含まれます。

これらのステップでは、設定された閾値に基づいた注釈とフィルタリングが行われ、最終的なデータセットがモデルのトレーニングに最適な品質であることが保証されています。

IBMは、Graniteコードモデルの4つのバージョンを公開しており、パラメータ数は30億から340億の範囲です。これらのモデルは、一連のベンチマークテストでテストされており、Code LlamaやLlama3などの他の同等のモデルを多くのタスクで上回っています。

要点：

⭐ IBMは、Granite13B LLMモデルのトレーニングに使用された6.48TBのデータセット全体を公開しました。

⭐ データセットは厳格な前処理を経て、2.07TBに圧縮され、68％削減されました。

⭐ IBMは、パラメータ数が30億から340億の範囲の4つのGraniteコードモデルのバージョンを公開しました。

AIニュース

IBMが6.48TBのLLMトレーニングデータセットを公開

AIbase

関連AIニュースの推奨

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上

わずか4週間で！富士康、中国語大規模言語モデルFoxBrainを発表

国家スパコンインターネットプラットフォームが阿里巴巴の千問大規模言語モデルに接続、QwQ-32B APIを提供開始

AIニュース

IBMが6.48TBのLLMトレーニングデータセットを公開

AIbase

関連AIニュースの推奨

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表 成功率が大幅に向上

わずか4週間で！富士康、中国語大規模言語モデルFoxBrainを発表

国家スパコンインターネットプラットフォームが阿里巴巴の千問大規模言語モデルに接続、QwQ-32B APIを提供開始

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上