Dolma データセット:3兆トークン超の大規模オープンソースデータ

アメリカのAI研究機関であるアレン人工知能研究所(AI2)は、3兆トークンという膨大なデータを含むオープンソースのデータセット「Dolma」を公開しました。

このデータセットは、AI2が開発中のオープン言語モデル「OLMo」の基盤となり、2024年初頭のリリースを目指しています。Dolmaのデータは、ウェブコンテンツ、学術論文、コード、書籍など、幅広いソースから収集されています。

現在公開されている同種のデータセットの中で、Dolmaは最大規模を誇ります。