OSI、オープンソースAIの新基準を発表：トレーニングデータの開示が必要、Meta Llamaは偽のオープンソース？

最近、オープンソースイニシアティブ（OSI）は、真の「オープンソース」AIとは何かを明確に定義する新たな基準を発表しました。この新たな基準は、特にメタのLlamaモデルがこれらの規則に適合していないため、テクノロジー大手たちの注目を集めています。OSIは長年、オープンソースソフトウェアの業界標準策定者として活躍してきましたが、AIシステムにおいては、モデルのトレーニングデータなど、従来のライセンスではカバーできない要素が存在します。

OSIの新たな定義によると、真のオープンソースAIとみなされるためには、3つの要素を提供する必要があります。第一に、AIのトレーニングに使用されたデータに関する詳細情報で、他者が結果を理解し再現できるようにする必要があります。第二に、AIの構築と実行に使用された完全なコードです。そして最後に、AIの結果に影響を与えるトレーニングの設定と重みを提供する必要があります。

大規模モデルコードインターネット

画像出典：AI生成画像、画像ライセンスプロバイダーMidjourney

この規定は、メタのLlamaモデルを直接的に批判するものです。Llamaは公開してダウンロードおよび使用できますが、商用利用には制限があり、トレーニングデータを提供していないため、OSIのオープンソース基準を満たしていません。メタの広報担当者、Faith Eischen氏は、多くの点でOSIと合意しているものの、この定義については異論があると述べています。彼女は、「オープンソースAI」を定義することは容易ではなく、従来の定義では今日の急速に発展するAIモデルの複雑性を網羅できないと指摘しています。

OSIのエグゼクティブディレクター、Stefano Maffulli氏は、この基準策定に2年間を費やし、世界の専門家と協力してきたと述べています。彼らは学界、機械学習、自然言語処理分野の専門家と深く議論し、コンテンツクリエーターとも協力して、包括的な基準を目指しました。

メタがトレーニングデータへのアクセスを制限する理由は主にセキュリティ上の懸念によるものですが、批判者たちは、法的責任の軽減と競争優位性の保護が背景にあると考えています。多くのAIモデルのトレーニングデータには、ほぼ確実に著作権のある素材が含まれています。現在、メタやOpenAIなどの企業に対する訴訟が相次いでおり、原告は間接的な証拠に頼って、自分の作品が不正に使用されたことを証明するしかありません。

同時に、Maffulli氏は、現在の状況は過去と似ていると考えています。彼は1990年代のマイクロソフトのオープンソースに対する姿勢を振り返り、メタが同様の理由で自社技術を閉鎖していると主張しています。彼らにとって、トレーニングデータは「秘密兵器」なのです。

要点：
🌐 OSIが発表した新たな定義は、AIシステムにトレーニングデータ、コード、設定を提供することを要求し、「オープンAI」の標準化を推進しています。
🦙 メタのLlamaモデルは、トレーニングデータを提供していないため、オープンソース標準に適合しないとされ、業界からの疑問に直面しています。
⚖️ 法的紛争が激化しており、メタおよびその他のAI企業は著作権のある素材の使用を理由に複数の訴訟を受けており、法的責任が懸念されています。