スイス連邦工科大学チューリッヒ校の研究者らは論文の中で、GPT-4などの大規模言語モデルが、公共フォーラムの投稿からユーザーの年齢、性別、位置情報などの個人情報を自動的に推論できる能力を既に備えていると指摘しています。
Redditのデータセットを用いた実験では、GPT-4の予測精度は複数の指標で60%を超えました。モデルの規模が拡大するにつれて、その推論能力も向上しています。著者らは、チャットボット実験を通して、プライバシー情報の抽出可能性を実証しました。
専門家は、膨大なトレーニングデータから個人情報を識別して削除することはほぼ不可能であり、多角的なプライバシー保護策は、モデルの急速な発展に追いついていないと警告しています。