Dolma: AI2が公開した大規模オープンソーステキストデータセット

アレン人工知能研究所(AI2)は、AI言語モデルの透明性とイノベーションを促進することを目的とした、Dolmaというオープンソースのテキストデータセットを発表しました。

AI2のオープン言語モデル(OLMo)計画の中核をなすDolmaは、より広範なAI研究を支援するため、研究者や開発者に無料のデータリソースを提供します。

Dolmaは30億トークンという大規模なオープンデータセットであるだけでなく、利用とライセンスも非常に簡単です。AI2は「中リスク成果のImpACTライセンス」を採用しており、ユーザーは連絡先情報と利用状況の提供を推奨されています。

このデータセットの公開により、研究者や開発者はより多くのリソースを利用できるようになり、AI分野がより透明性が高く、協力的な未来に向かう原動力となるでしょう。