xAI Grok-3、大規模言語モデル競技場でGPT4.5を破り首位に

xAIは先日、最新のAIモデルGrok-3がChatbot Arenaランキングで目覚ましい成果を上げたという、興奮すべきニュースを発表しました。この「grok-3preview-02-24」と名付けられたモデルは、複数の重要な分野で卓越した性能を示しました。

xAIのGrok-3-Preview-02-24は、わずか1点差でGPT4.5-Previewを上回りました。Grok-3は3,000票以上を獲得し、全体としてトップと並んでランクインしました。特に、難しいプロンプト、コーディングタスク、数学問題、創造的なライティング、指示への従順性、そして長いクエリへの対応において優れた性能を発揮しました。Chatbot Arenaは、人間の好みを用いて大規模言語モデル（LLM）を大規模に評価するクラウドソーシングプラットフォームであり、Eloレーティングシステムを使用してモデルをランク付けし、包括的な性能測定を提供します。

この成果は、xAIとその創設者であるイーロン・マスクによるAI開発における顕著な進歩を示しています。マスク氏は、強力で人間の価値観に沿ったAIの開発を常に提唱してきました。Grok-3がこのベンチマークテストで成功したことは、モデルの能力と、競争の激しいAI分野におけるxAIの進歩を浮き彫りにしています。

注目すべきは、「grok-3preview-02-24」は最新の製品版モデルとして記述されているものの、名称に「preview」が含まれている点です。これは、まだテスト段階にある可能性を示唆しており、完全な製品としての準備状況に関する議論を呼ぶ可能性があります。

AIニュース

xAI Grok-3、大規模言語モデル競技場でGPT4.5を破り首位に

AIbase基地

関連AIニュースの推奨

FirecrawlがLLM.txt APIをリリース：URLを入力するだけで、任意のウェブサイトのLLM.txtを生成

トレーニング不要！Q-FiltersによるKVキャッシュの高効率圧縮と推論性能向上

Portkey AI Gateway：様々な大規模言語モデルを簡単に統合できるオープンソースAIソリューション

阿里巴巴の新規オープンソース推論大規模言語モデルQwQ-32B、DeepSeek-R1に匹敵する性能と少ないメモリ消費を実現