最近、GoogleとOpenAIの競争が再び激化しています。新型GPT-4oがAI競技ランキングのトップに立った翌日、Googleは最新の試験版モデルGemini-Exp-1121を発表し、すぐに首位を奪還しました。わずか1週間前にはGemini-Exp-1114を発表したばかりで、GoogleがOpenAIの動向に非常に迅速に対応していることが分かります。

image.png

Google DeepMindの主席科学者Jack Raeは、これを「電光石火」の戦いだと述べ、後期のトレーニングの反復速度が事前トレーニングよりも速いことを示唆しています。

公式情報によると、Gemini-Exp-1121はコード能力、推論能力、視覚理解能力において著しい向上を見せています。さらに、複雑なプロンプトのスタイル制御において、現在のトップレベルのo1-previewとNew Sonnet3.5と同等のレベルに達しています。

実際のテストでは、Gemini-Exp-1121は漫画の理解においても新型GPT-4oを上回り、より包括的な回答を返し、小見出しや太字などを用いて情報を明確に提示することができました。また、古典的な動物の川渡り論理推理問題では、Gemini-Exp-1121は完全に正解し、より強い論理推論能力を示しました。一方、新型GPT-4oはいくつかのミスがありました。

一方、OpenAIも新機能の開発に積極的に取り組んでおり、最新のChatGPTで「ライブカメラ」(Live Camera)ビデオ機能のコードが発見されました。これは、音声と視覚認識における進歩を示しています。OpenAIユーザーは、高度な音声モードを使用する際に初めてこの機能を体験し、今後この機能の適用範囲を拡大する意向を示しています。

来年、Chatbotとの主なコミュニケーション方法は、従来のテキストチャットから音声やよりスマートなエージェントサービスへと徐々に移行すると予想されます。この変化は、「ライブカメラ」機能の導入によって牽引される可能性があります。

重要なポイント:

📈 Googleの新モデルGemini-Exp-1121がGPT-4oの首位獲得後、すぐに逆転し、AI競技ランキングのトップに返り咲きました。

🔍 Gemini-Exp-1121はコード、推論、視覚理解能力において向上し、優れた性能を示しました。

🎥 OpenAIは「ライブカメラ」機能を開発中で、将来的にはAIとのコミュニケーション方法を変える可能性があります。