AI大規模モデルの数字比較エラーが議論を呼ぶ月の暗面が「9.11＞9.9」と回答：能力の限界を理解する上で役立つ

最近、いくつかのAI大規模言語モデルが簡単な数字の比較で誤答を出したことが大きな注目を集めています。バイトダンスの豆包、GPT4o、月之暗面Kimi、階躍星辰躍問、百川智能百小應など、多くの著名なAIモデルが「9.11と9.9のどちらが大きいか」といった基本的な質問に誤答しました。さらに以前には、複数のモデルが「strawberry」という単語に含まれる「r」の数を間違える事例も報告されています。

ロボット AIライティング AI教育

画像出典：AI生成画像、画像ライセンス提供元Midjourney

この現象について、月之暗面社が声明を発表しました。同社は、人間による大規模言語モデルの能力探求はまだ初期段階であり、モデルの能力や限界を理解するためには、さらなる研究とテストが必要だと述べています。

月之暗面社は、ユーザーが使用中に限界ケース（Corner Case）を発見し、報告することを歓迎していると強調しています。最近の数字比較の問題や以前の単語のスペルミスなど、これらのケースは、大規模言語モデルの能力限界を理解する上で役立ちます。

しかし、月之暗面社は、これらの問題を完全に解決するには、個々のケースを一つずつ修正するだけでは不十分だと指摘しています。自動運転が遭遇する状況と同様に、これらのケースは網羅することが非常に困難だと考えています。そのため、より重要なのは、基盤となる基礎モデルの知能レベルを継続的に向上させ、大規模言語モデルをより強力で包括的なものにし、複雑で極端な状況下でも優れた性能を発揮できるようにすることだと述べています。

この出来事は、AI大規模言語モデルの基礎能力に関する議論を引き起こし、現在のAI技術が、一見単純なタスクの処理においても依然として課題に直面していることを浮き彫りにしました。研究の進展と技術の向上に伴い、これらの問題は徐々に改善されていくと期待されます。