llm-colosseum

ストリートファイター3対戦による大規模言語モデルの評価

一般製品プログラミング人工知能ベンチマーク

llm-colosseumは、ストリートファイター3を用いて大規模言語モデル（LLM）のリアルタイム意思決定能力を評価する革新的なベンチマークツールです。従来のベンチマークとは異なり、実際のゲームシナリオをシミュレートすることで、モデルの迅速な反応、賢い戦略、革新的な思考、適応性、回復力をテストします。

Best AI Websites & Tools

llm-colosseum

llm-colosseum 最新のトラフィック状況

llm-colosseum 訪問数の傾向

llm-colosseum 訪問地理的分布

llm-colosseum トラフィックソース

llm-colosseum 代替品

llm-colosseum — ストリートファイター3対戦による大規模言語モデルの評価

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

Instella — Instellaは、AMDが開発した高性能なオープンソース言語モデルであり、オープンソース言語モデルの発展を加速するために設計されています。

GPT-4.5 — OpenAIが発表した最新の言語モデルGPT-4.5は、教師なし学習能力の向上に重点を置き、より自然なインタラクション体験を提供します。

AlphaMaze-v0.2-1.5B — 大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法

ZeroBench — ZeroBenchは、現代の大規模マルチモーダルモデルを対象とした、高難易度のビジュアルベンチマークです。

OLMoEアプリ — Ai2 OLMoEは、iOSデバイスで動作するオープンソースの言語モデルアプリです。

Xwen-Chat — Xwen-Chatは、日本語対話に特化した大規模言語モデルの集合体であり、複数バージョンのモデルと自然言語生成サービスを提供します。

MiniMax-01 — 4,560億パラメーターを持つ強力な言語モデルで、最大400万トークンのコンテキストを処理可能です。

rStar-Math — 小型言語モデルが自己進化と深層思考を通じて数学的推論能力を習得する研究成果を示します。

Eurus-2-7B-SFT — Eurus-2-7B-SFTは、数学的能力を最適化された大規模言語モデルであり、推論と問題解決に特化しています。

Sonus AI — 未来型大規模言語モデルの開拓者

FACTS Grounding — 大規模言語モデルの事実性の評価のための最新のベンチマーク

P-MMEval — 大規模言語モデル（LLM）の評価のための多言語多タスクベンチマーク

INTELLECT-1 Chat — グローバル協力でトレーニングされた100億パラメーターの言語モデルチャットツール

OLMo-2-1124-13B-DPO — 多様なタスクに対応可能な高性能英語言語モデル

OLMo 2 — 最先端、完全にオープンな言語モデル

Lingma SWE-GPT — ソフトウェア改良向けに設計されたオープンソースの大規模言語モデル。

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

医療におけるo1 — 医療分野におけるAIの初期研究

SFR-Judge — 大規模言語モデル（LLM）の評価とファインチューニングを加速するインテリジェントな評価ツール

タートルベンチマーク — 大規模言語モデルの論理的推論能力とコンテキスト理解能力を評価します。

Gemma-2-9B-中文聊天模型 — 多機能日本語・英語対応会話モデル

LLMコンパレーター — 様々な大規模言語モデルの出力結果を比較します。

Refuel LLM-2 — データの注釈、クレンジング、およびエンリッチメント向けに設計された高度な言語モデル

MAP-NEO — 完全オープンソースの大規模言語モデルで、高度な自然言語処理能力を提供します。

gpt2-chatbot — GPT-4アーキテクチャに基づく高度なチャットモデルで、高品質な会話体験を提供します。

anime.gf — 次世代、ローカル優先の大規模言語モデル（LLM）

LMSYS チャットボットアリーナ — 様々な言語モデルのパフォーマンスを比較するオンラインチャットボット競技場です。