ハーバード大学、AIモデル向けの高品質トレーニング素材となる数千万冊の書籍データセットを公開

ハーバード大学は先日、約100万冊の著作権フリー書籍で構成されるデータセットを公開する計画を発表しました。このデータセットは、誰でも大規模言語モデルやその他の人工知能ツールをトレーニングするために使用できます。

このプロジェクトは、ハーバード大学が新たに設立した機関データイニシアチブ（Institutional Data Initiative）が主導し、マイクロソフトとOpenAIの支援を受けて実現しました。データセットには、Google Booksプロジェクトからスキャンされた書籍が含まれており、シェイクスピア、ディケンズ、ダンテなどの古典作品から、マイナーなチェコ語の数学教科書やウェールズの辞書など、多様な内容が含まれています。

AIアシスタントロボット

画像出典：AI生成画像、画像ライセンス提供元Midjourney

「Books3データセット」の5倍の規模を誇るこのデータセットは、人工知能分野における公平な競争環境を作ることを目的としています。特に中小規模のAI企業や個人研究者が、通常は巨大テクノロジー企業しかアクセスできない高品質なデータにアクセスできるようにすることを目指しています。グレッグ・レパート（Greg Leppert）氏は、このプロジェクトは厳格な選別と綿密なキュレーションを経て行われたと述べています。

マイクロソフトのバートン・デイビス副社長は、マイクロソフトが本プロジェクトを支援する目的は、スタートアップ企業のために「アクセス可能なデータプール」を作り、これらのデータが「公益を基盤」として管理されることを確実にするためだと強調しました。OpenAIの知的財産担当責任者であるトム・ルービン氏も、このプロジェクトを支援できることを嬉しく思っていると述べています。

AIによる著作権データの使用に関する訴訟がますます増加する中、ハーバード大学のような著作権フリーデータセットのプロジェクトは、AIトレーニングデータの重要な供給源になりつつあります。現時点では、このデータセットの具体的な公開方法については不明ですが、企業に大量の高品質なデータを提供し、同時に著作権問題を回避すると予想されています。

ハーバード大学の「機関データイニシアチブ」計画は書籍に限らず、ボストン公共図書館と協力して数百万件の著作権フリーの新聞記事をスキャンしており、今後さらに多くのパートナーと同様の協力を進める計画です。さらに、ハーバード大学はGoogleと協力して、データセットの公開配布方法について協議しています。

このプロジェクトは、高品質なAIトレーニング素材を提供し、著作権リスクを回避することを約束する同様の取り組みの数々に加わるものです。今後、著作権フリーのデータセットが増えるにつれて、AI企業はモデルのトレーニングに選択肢が増え、著作権関連の法的リスクを軽減できるようになります。