Googleの生成AI分野における最新の試みは、大きな注目を集めています。数ヶ月間の静かな経過の後、Google Geminiは急速に発展し、新しい実験的な言語モデルであるGemini-Exp-1206を発表しました。最新のChatArenaランキングによると、このモデルは多くの競合他社の中で頭角を現し、生成AIのリーダーとなりました。

image.png

Gemini-Exp-1206はLMArenaで最高のArena Scoreである1379点を獲得し、ChatGPT-4.0の1366点をわずかに上回りました。このスコアは、Gemini-Exp-1206が複数の評価項目で優れたパフォーマンスを示し、卓越した総合能力を備えていることを示しています。さらに、以前のGemini-Exp-1114と比較して、新モデルはより高い性能を示しています。

image.png

では、LMArenaとは何でしょうか?LMArenaは、Chatbot Arenaとも呼ばれ、大規模言語モデルを評価するためのオープンソースプラットフォームです。このプラットフォームはLMSYSとカリフォルニア大学バークレー校SkyLabによって共同開発され、リアルタイムテストと直接比較を通じて、LLMのパフォーマンス評価をコミュニティで支援することを目的としています。

ランキングでは、Arena Scoreは複数のタスクにおけるモデルの平均パフォーマンスを表し、スコアが高いほど能力が高いことを示します。GeminiExp-1206のスコアはChatGPT-4.0よりも高いものの、投票数ではChatGPT-4.0が21,929票と、Gemini-Exp-1206の5052票を大きく上回っており、その信頼性を示しています。高い投票数は、より広範なテストが行われたことを意味し、通常は信頼性の高さを示します。

また、95%信頼区間データによると、GeminiのCIは±10/-5、ChatGPTのCIは±4/-5です。これは、Geminiの平均スコアは高いものの、ChatGPT-4.0の方が性能の安定性が高いことを示しています。

特筆すべきは、Gemini実験モデルは最先端のプロトタイプ設計であり、テストとフィードバックを目的としていることです。これらのモデルは、開発者にGoogleの最新のAIの進歩をいち早く体験する機会を提供すると同時に、継続的なイノベーションを示しています。ただし、これらの実験モデルは一時的なものであり、いつでも変更される可能性があり、本番環境での使用には適していません。

Gemini-Exp-1206を無料で使用するには、Google AI Studioにアクセスし、ログインしてプロンプトの作成を選択し、設定でモデルをGemini Experimental1206に変更するだけで、チャットを開始できます。

image.png

Gemini-Exp-1206の結果は非常に注目に値するものの、その実験的な性質を忘れてはなりません。将来の可能性はまだ時間をかけて明らかになる必要があり、業界はこの強力な競争相手の安定したリリースを期待しています。

プロジェクト入口:https://ai.google.dev/gemini-api/docs/models/experimental-models?hl=ja

要点:

🌟 Gemini-Exp-1206はLMArenaランキングで1379点の高得点を獲得し、ChatGPT-4.0の1366点を上回りました。

🗳️ ChatGPT-4.0は21,929票を獲得し、Gemini-Exp-1206の5052票を大きく上回り、その信頼性を示しています。

🔍 Gemini実験モデルは開発者に前例のないAI体験の機会を提供しますが、まだテスト段階であり、本番環境での使用には適していません。