有害なコンテンツ生成を誘導する新たな手法

パーデュー大学の研究者らが、大規模言語モデルに有害なコンテンツを生成させる新たな手法を開発しました。彼らは、AIコミュニティに対し、言語モデルのオープンソース化には慎重を期すべきだと警告し、有害なコンテンツを除去することがより良い解決策だと主張しています。

この研究結果は、コンプライアンスに沿った回答の中に潜む潜在的な危険性を明らかにしました。この手法の成功率はなんと98%に達します。