イーロン・マスクの人工知能企業xAIは、月曜日に最新の言語モデルGrok3を発表し、同社の人工知能分野における重要な進歩を示しました。マスク氏によると、新しいモデルに必要な計算能力は以前の10倍で、メンフィスのデータセンター(約20万個のGPUを搭載)を使用しています。

QQ_1739931524842.png

Grok3シリーズのモデルには、速度を向上させるために精度をある程度犠牲にした軽量版など、いくつかのバリエーションがあります。さらに、新しい「推論」モデルは、数学や科学の問題を解決するために特別に設計されています。ユーザーは、Grokインターフェースの「思考」と「脳」の設定でこれらの機能を調整できます。xAIは、このバージョンはまだ最終版ではなく、モデルは継続的にトレーニングされており、今後数週間で改善を予定していると述べています。

AIベンチマークプラットフォームlmarena.aiのデータによると、Grok3はチャットボット分野で1400を超えるスコアを獲得し、プログラミングなどあらゆるカテゴリーでOpenAI、Anthropic、Googleのモデルを上回りトップとなりました。ただし、実際の性能はベンチマークの結果と異なる場合があります。例えば、Claude3.5Sonnetはコーディングベンチマークテストでのスコアが一部のモデルを下回っていますが、多くのユーザーはプログラミングタスクにはより優れた選択肢だと考えています。

OpenAIの創設者アンドレイ・カルパチ(Andrej Karpathy)はGrok3の早期アクセス権を取得し、その論理推論能力を高く評価しました。「思考」機能は、GPT-2のトレーニングFLOPSの計算やボードゲーム用の六角形グリッドの作成など、複雑なタスクを成功させることができ、これらは以前はOpenAIのハイエンドモデルo1-proのみに限定されていました。さらに、この機能は、文字の計数や小数の比較など、基本的な数学演算の精度も向上させています。

新しい検索機能に関して、カルパチ氏は、DeepSearchの品質がPerplexityの研究ツールと同等であり、発売予定のApple製品やPalantirの株価動向などのトピックに関する関連する回答を提供できると指摘しました。しかし、彼はいくつかの明らかな問題も見つけました。モデルは、虚偽のURLを生成したり、裏付けのない主張をしたり、特定のプロンプトでのみXの投稿を参照したりすることがあります。

また、自身の存在に対する意識が不足しているようで、主要なAI研究所におけるxAIの位置を省略しています。これらの制限により、DeepSearchはまだOpenAIの「深層研究」レベルには達しておらず、ユーモアや倫理的な問題においてもパフォーマンスが劣っています。