RedPajama v2データセット公開

Together AIは、大規模言語モデルのトレーニングに使用できる30兆トークンを含むRedPajama v2データセットを公開しました。

このデータセットは、大規模言語モデルの開発を支援し、高品質なデータリソースを提供することを目的としています。Common Crawlやその他の公開ウェブデータから収集されており、40以上の品質注釈と重複除去クラスタが含まれています。

RedPajama v2データセットは最小限の処理しか行われておらず、元のデータが保持されているため、モデル開発者は後処理を行うことができます。

この取り組みは、言語モデルの開発と研究に多くのリソースを提供し、AI分野の更なる発展に貢献すると期待されています。