最近、ケンブリッジ大学などの研究チームが発表した論文は、大規模言語モデル(LLM)の実態を明らかにし、衝撃的な結果をもたらしました。期待されていたAIモデルは、多くの基本的なタスクにおいて、想像以上に低い性能を示したのです。
o1-previewを含む複数の最先端モデルを対象としたこの研究では、AIモデルと人間の理解力に大きな違いがあることが示されました。驚くべきことに、モデルは人間が複雑だと考えるタスクでは優れた成績を示す一方、簡単な問題では頻繁にミスを犯しました。この落差から、AIは本当にタスクの本質を理解しているのか、それとも単に「賢く振る舞っている」だけなのかという疑問が生じます。
さらに驚くべきことに、AIの性能向上に繋がると思われていたプロンプトエンジニアリング(Prompt Engineering)も、モデルの根本的な問題を解決する有効な手段とはなりませんでした。研究では、簡単なつづり合わせゲームにおいてさえ、モデルが滑稽なミスを犯すことが判明しました。「electroluminescence」のような複雑な単語は正しく綴れるのに、「my」のような簡単ななぞなぞでは「mummy」という誤答を出すなどです。
32個もの異なる大規模言語モデルを評価した結果、これらのモデルは難易度が異なるタスクに対する反応が極めて不安定であることが分かりました。複雑なタスクでは、正確性は人間の期待をはるかに下回っていました。さらに悪いことに、これらのモデルは簡単なタスクを完全に習得する前に、より高度なタスクに挑戦しようとするため、頻繁にエラーが発生していました。
もう一つ注目すべき点は、モデルがプロンプト(指示)に非常に敏感であるということです。研究によると、多くのモデルは、注意深く設計されたプロンプトがない限り、簡単なタスクでさえ正しく実行することができません。同じタスクでも、プロンプトを変えるだけでモデルの性能が大きく変わるため、実用化には大きな課題があります。
さらに懸念されるのは、人間のフィードバックによる強化学習(RLHF)を施されたモデルでさえ、信頼性の問題が根本的に解決されていないことです。複雑な応用場面では、これらのモデルは過剰に自信を持つ一方、エラー率が大幅に増加します。このため、ユーザーは気づかないうちに誤った結果を受け入れてしまい、重大な誤判断につながる可能性があります。
この研究は、特に2年前のAI界の「ノーベル賞」とも言えるIlya Sutskever氏の楽観的な予測と比較すると、AI分野に冷水を浴びせる結果となりました。Sutskever氏は、時間とともにAIの性能は人間の期待に近づくと確信していましたが、現実は全く異なる答えを示しました。
この研究は、現在のLLMの多くの欠点を浮き彫りにする鏡のようなものです。AIの未来に期待を抱きつつも、これらの「賢い」モデルには警戒する必要があることを示唆しています。AIの信頼性問題は早急に解決する必要があり、今後の発展には長い道のりが残されています。
この研究は、AI技術開発の現状を示すだけでなく、将来の研究の方向性についても重要な示唆を与えてくれます。AIの能力向上を目指す一方で、その安定性と信頼性を重視する必要があることを改めて認識させられました。将来のAI研究では、モデルの一貫性を高める方法や、簡単なタスクと複雑なタスクのバランスを見つけることに、より多くの焦点を当てる必要があるでしょう。
参考文献:
https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1