xAIの新モデルGrok 3、論理推論能力でOpenAI創設者から称賛

イーロン・マスクの人工知能企業xAIは、月曜日に最新の言語モデルGrok3を発表し、同社の人工知能分野における重要な進歩を示しました。マスク氏によると、新しいモデルに必要な計算能力は以前の10倍で、メンフィスのデータセンター（約20万個のGPUを搭載）を使用しています。

Grok3シリーズのモデルには、速度を向上させるために精度をある程度犠牲にした軽量版など、いくつかのバリエーションがあります。さらに、新しい「推論」モデルは、数学や科学の問題を解決するために特別に設計されています。ユーザーは、Grokインターフェースの「思考」と「脳」の設定でこれらの機能を調整できます。xAIは、このバージョンはまだ最終版ではなく、モデルは継続的にトレーニングされており、今後数週間で改善を予定していると述べています。

AIベンチマークプラットフォームlmarena.aiのデータによると、Grok3はチャットボット分野で1400を超えるスコアを獲得し、プログラミングなどあらゆるカテゴリーでOpenAI、Anthropic、Googleのモデルを上回りトップとなりました。ただし、実際の性能はベンチマークの結果と異なる場合があります。例えば、Claude3.5Sonnetはコーディングベンチマークテストでのスコアが一部のモデルを下回っていますが、多くのユーザーはプログラミングタスクにはより優れた選択肢だと考えています。

OpenAIの創設者アンドレイ・カルパチ（Andrej Karpathy）はGrok3の早期アクセス権を取得し、その論理推論能力を高く評価しました。「思考」機能は、GPT-2のトレーニングFLOPSの計算やボードゲーム用の六角形グリッドの作成など、複雑なタスクを成功させることができ、これらは以前はOpenAIのハイエンドモデルo1-proのみに限定されていました。さらに、この機能は、文字の計数や小数の比較など、基本的な数学演算の精度も向上させています。

新しい検索機能に関して、カルパチ氏は、DeepSearchの品質がPerplexityの研究ツールと同等であり、発売予定のApple製品やPalantirの株価動向などのトピックに関する関連する回答を提供できると指摘しました。しかし、彼はいくつかの明らかな問題も見つけました。モデルは、虚偽のURLを生成したり、裏付けのない主張をしたり、特定のプロンプトでのみXの投稿を参照したりすることがあります。

また、自身の存在に対する意識が不足しているようで、主要なAI研究所におけるxAIの位置を省略しています。これらの制限により、DeepSearchはまだOpenAIの「深層研究」レベルには達しておらず、ユーモアや倫理的な問題においてもパフォーマンスが劣っています。

AIニュース

xAIの新モデルGrok 3、論理推論能力でOpenAI創設者から称賛

AIbase基地

関連AIニュースの推奨

Grok音声モード全面開放：11種類のモードが登場、字幕付きで英語学習に最適

GPT-4.5、わずか6時間で人気を失い、xAI Grok-3が逆転勝利

超強力ビデオ生成モデル Wan2.1 GP：低スペックGPUでも大作が作成可能！

xAI Grok-3、大規模言語モデル競技場でGPT4.5を破り首位に