Redditユーザー実証：GTP-4oがチェスでGemini 1.5 proを破る

AIbase基地

公開日AIニュース · 1 分で読めます · Aug 8, 2024

119

最近、Redditユーザーの@zefmanさんが興味深い実験を行いました。様々な大規模言語モデル（LLM）をチェスで対戦させ、楽しく簡単にモデルの性能を評価するプラットフォームを構築したのです。

これらのモデルはチェスが得意ではないことは周知の事実ですが、それでもこの実験から注目すべき点がいくつか見つかったとのことです。

この実験では、@zefmanさんは最新のいくつかのモデルに注目し、その中でもGPT-4oが最も優れた性能を示し、最強のプレイヤーとなったことは間違いありません。同時に、Claude、Geminiなどの他のモデルと比較し、パフォーマンスの違いを観察しました。各モデルの思考や推論プロセスは非常に興味深いものでした。このプラットフォームを通して、各手番の決定の裏にある、モデルによる棋譜の分析を見ることができます。

@zefmanさんが設計したチェスの表示方法は非常にシンプルです。各モデルは同じ盤面の状態に対して同じプロンプトを与えられ、現在の盤面の状態、FEN（棋譜表記法）、そしてそれ以前の2手の動きが含まれます。この方法により、各モデルの決定は同じ情報に基づいて行われ、より公平な比較が可能になります。

各モデルは全く同じプロンプトを使用します。このプロンプトは、ASCI、FENでの盤面の状態、そしてそれ以前の2回の移動と思考と共に更新されます。以下に例を示します。

さらに、@zefmanさんは、特に性能の低いモデルでは、誤った手を何度も選択することがあることに気づきました。この問題を解決するために、これらのモデルには5回の再選択の機会が与えられ、それでも有効な手を選択できない場合は、ランダムに有効な手を選択することでゲームを継続できるようにしました。

彼の結論は、GPT-4oが依然として最強であり、チェスでGemini1.5proを破ったということです。

要点：
🌟 GPT-4oが優れた性能を示し、実験で最強の言語モデルとなりました。
♟️ この実験では、異なるモデルがリアルタイムで対戦し、その思考プロセスを分析しました。
🔄 性能の低いモデルは誤った手を選択することがあり、興味深いインタラクティブな体験を提供しました。

Manus AIシステムのプロンプト漏洩、公式の対応は？

汎用AIインテリジェンス製品Manusは、リリース直後から多くのユーザーが招待コードを求めて殺到しました。製品のパフォーマンスが注目を集める一方で、Manusの裏にある技術に関しても強い関心が寄せられています。Manusを複製しようとする多くのチームが現れたことに加え、先日jianというユーザーがManusシステムをクラッキングし、単純にManusに「/opt/.manus/」ディレクトリ下のファイルを出力するよう要求したところ、重要な情報や実行コードの一部を取得することに成功しました。

ハードウェア開発せず！Anthropic CPO、企業向け汎用基盤モデル開発に注力と発表

先日開催されたHuman[X]カンファレンスにおいて、AIスタートアップAnthropicの最高製品責任者マイク・クリーガー(Mike Krieger)氏は、同社がハードウェアやコンシューマーエンターテイメント分野に進出する計画はないと明かし、企業向けの汎用基盤モデル開発に注力していくと発表しました。Claude AIの開発者であるAnthropicは、アマゾンとグーグルから支援を受けており、様々な業界に実用的なAIソリューションを提供することを目指しています。クリーガー氏によると、Ant…

DeepSeek R2、3月17日リリースか Claude Sonnet 3.7の地位を揺るがす

Xプラットフォームの最新情報によると、DeepSeekの次世代AIモデルDeepSeek R2が3月17日に正式リリースされる可能性があります。このニュースは業界で大きな注目を集めており、AnthropicのClaude Sonnet 3.7などの既存のAI大手にとって強力な挑戦となる可能性があると多くの人が考えています。Xユーザーのtanvitabs氏が本日未明に投稿した投稿によると、DeepSeek R2は、より優れた…を含む複数の重要な分野でブレークスルーを実現したと主張しています。

AIニュース

Redditユーザー実証：GTP-4oがチェスでGemini 1.5 proを破る

AIbase基地

関連AIニュースの推奨

Manus AIシステムのプロンプト漏洩、公式の対応は？

ハードウェア開発せず！Anthropic CPO、企業向け汎用基盤モデル開発に注力と発表

DeepSeek R2、3月17日リリースか Claude Sonnet 3.7の地位を揺るがす

グーグル Gemini Embedding：テキスト埋め込み分野の新たな王者