Google DeepMindが最新リリースしたGemini実験版(Exp1114)が、Chatbot Arenaプラットフォームで注目すべき成果を収めました。1週間以上のコミュニティテストを経て、6000票を超えるデータが集計され、この新しいモデルが競合製品を大きく上回り、複数の重要な分野で驚異的な能力を示していることが明らかになりました。

QQ20241115-094934.jpg

総合スコアでは、Gemini-Exp-1114は40点以上の高得点でGPT-4-latestと並んで首位を獲得し、以前はトップだったGPT-4-preview版を凌駕しました。さらに驚くべきことに、数学、複雑な指示、創造的なライティングなどの中核分野で全てトップの座を獲得し、極めて高い総合力を示しました。

具体的に見てみると、Gemini-Exp-1114の進歩は目覚ましいものがあります。

総合ランキングで3位から1位に躍進

数学能力テストで3位から1位に上昇

複雑な指示処理で4位から1位に上昇

創造的なライティングで2位から1位に上昇

画像処理能力もトップ

プログラミング能力も5位から3位に上昇

Google AI Studioではこの新バージョンが正式に公開され、ユーザーは実際に体験できます。ただし、コミュニティでは、1000トークンの制限が依然として存在するかどうか、超長文の出力処理方法など、実用的な問題についても懸念が示されています。

QQ20241115-094642.jpg

業界アナリストは、この画期的な進歩は、GoogleのAI分野への長年の投資が実を結び始めたことを示していると分析しています。興味深いことに、スタイル制御に関しては4位のままであり、これは開発チームが主に新しい事後トレーニング手法を採用し、事前トレーニングモデルを変更しなかったことを示唆している可能性があります。

この大きな飛躍は、業界の情勢に関する議論も引き起こしました。OpenAIはこれまで、競合他社が重要なアップデートを発表するたびに新製品をリリースしていましたが、今回のGoogleの進歩の規模は業界に衝撃を与えました。これはGemini2の到来を予感させるものであり、Googleの大規模言語モデルにおける競争力が著しく向上していることを示唆しているという見方もあります。