最近、OpenAIシステムがデータ漏洩事件に遭ったという報道がありましたが、ご自身のChatGPTの会話内容が取得されたかどうかを心配する必要はありません。今回のハッキング攻撃自体は表面的だったようですが、AI企業が急速にハッカーにとって最も魅力的な標的の一つになっていることを改めて示しています。

ニューヨーク・タイムズ紙によると、元OpenAI従業員のレオポルド・アッシェンブレンナー氏がポッドキャストでこのハッキング事件に触れ、「重大なセキュリティインシデント」と表現しました。しかし、匿名の情報筋はニューヨーク・タイムズ紙に対し、ハッカーは従業員向け掲示板へのアクセス権しか得ていなかったと語っています。

OpenAI、人工知能、AI

セキュリティの脆弱性は決して軽視すべきではありません。OpenAI内部の開発に関する議論を盗聴することにも価値があるのは確かです。しかし、これは内部システム、開発中のモデル、秘密のロードマップなどにハッカーがアクセスした状況とは程遠いものです。

それでも、これは私たちに警戒を促すべき事柄です。しかし、それは必ずしも中国や他のライバルがAI開発競争で私たちを凌駕する脅威があるからではありません。単純な事実は、これらのAI企業が非常に価値のあるデータの守護者になっているということです。

OpenAI、そしてある程度他のAI企業が作成またはアクセスする3種類のデータについて考えてみましょう。それは、高品質なトレーニングデータ、大量のユーザーインタラクション、そして顧客データです。

これらの企業は、その貴重なデータを厳重に守っているので、具体的にどのようなトレーニングデータを持っているのかは不明です。しかし、それらが単なる大量のウェブスクレイピングデータだと考えるのは誤りです。「Pile」のようなデータセットやウェブクローラーも使用していますが、GPT-4のようなモデルのトレーニングに使用できるよう生データを整形するには膨大な作業が必要であり、これは人的作業を大量に必要とするため、部分的にしか自動化できません。

一部の機械学習エンジニアは、大規模言語モデル(あるいは、おそらくトランスフォーマーベースのシステムであれば何でも)を作成する際に、最も大きな影響を与える要因の一つはデータセットの質であると推測しています。これが、TwitterやRedditでトレーニングされたモデルが、過去1世紀に出版されたすべての作品でトレーニングされたモデルほど雄弁ではない理由です。(また、OpenAIがトレーニングデータに著作権のある書籍など、疑わしい法的出所を使用していたとされ、現在はそれを放棄したと主張している理由かもしれません。)

したがって、OpenAIが構築したトレーニングデータセットは、競合他社、他の企業、敵対国、そしてアメリカの規制当局にとって非常に価値があります。FTCや裁判所が、具体的にどのようなデータが使用され、OpenAIがその点について実際に真実を述べているかどうかを知りたいと思うのは当然でしょう。

しかし、おそらくもっと価値があるのは、OpenAIの膨大なユーザーデータベースでしょう。そこには、ChatGPTとの何百万もの会話、おそらく数十億ものやり取りが含まれている可能性があります。検索データがかつてインターネット上の集団心理を知るための鍵であったように、ChatGPTは、Googleのユーザー層ほど広範囲ではないかもしれませんが、より深い洞察を提供する集団を掌握しています。(ご存知ないかもしれませんが、オプトアウトしない限り、あなたの会話はトレーニングデータとして使用されています。)

数百の大企業と無数の小企業が、OpenAIやAnthropicのようなAPIツールを様々なタスクに使用しています。言語モデルを役立てるためには、通常、微調整したり、内部データベースにアクセスさせたりする必要があります。

それは、退屈な古い予算表や人事記録(例えば、検索しやすくするため)かもしれませんし、まだ公開されていないソフトウェアコードかもしれません。彼らがどのようにAIの能力を使用するかは(そしてそれが実際に役立つのかどうかは)彼ら次第ですが、単純な事実は、AIプロバイダーは他のSaaS製品と同様に特権的なアクセス権を持っているということです。

これらはすべて企業秘密であり、AI企業は突然これらの秘密の中心に位置することになりました。この業界の斬新さによって、AIプロセスはまだ標準化されておらず、完全に理解されていないため、特別なリスクが生じています。

要点:

- AI企業が保有するデータには、高品質なトレーニングデータ、ユーザーインタラクションデータ、顧客データが含まれ、競合他社、規制当局、市場アナリストなどにとって非常に価値があります。

- ユーザーとAIモデル間の会話記録は貴重な情報であり、AI開発、マーケティングチーム、コンサルティングアナリストにとって宝の山です。

- AI企業がハッキングの標的になるという新たな傾向が注目されており、深刻なデータ漏洩がなくても、セキュリティ対策の重要性が強調されています。