本稿では、GPT-4とDALL-E 3を用いた画像テキスト生成の対抗実験を通して、両者が曖昧な画像を処理する際の限界を検証しました。著者はぼやけた「牛ザメ」の画像を入力し、GPT-4に記述させた後、DALL-E 3に描画させました。描画された画像を再びGPT-4に入力して記述させる、というサイクルを繰り返しました。その結果、GPT-4はぼやけた画像が牛なのかサメなのかを判断できず、DALL-E 3が描いた画像にも矛盾が見られました。この実験は、反復テストを用いて大規模言語モデルの画像テキスト理解と生成能力の限界を深く検証する方法を探っています。