llm-colosseum
ストリートファイター3対戦による大規模言語モデルの評価
一般製品プログラミング人工知能ベンチマーク
llm-colosseumは、ストリートファイター3を用いて大規模言語モデル(LLM)のリアルタイム意思決定能力を評価する革新的なベンチマークツールです。従来のベンチマークとは異なり、実際のゲームシナリオをシミュレートすることで、モデルの迅速な反応、賢い戦略、革新的な思考、適応性、回復力をテストします。
llm-colosseum 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34