llm-colosseum
Avalia modelos de linguagem grandes (LLMs) através de combates em Street Fighter 3
Produto ComumProgramaçãoInteligência ArtificialBenchmark
O llm-colosseum é uma ferramenta inovadora de benchmark que utiliza o jogo Street Fighter 3 para avaliar a capacidade de tomada de decisão em tempo real de modelos de linguagem grandes (LLMs). Diferentemente dos benchmarks tradicionais, esta ferramenta testa a rapidez de resposta, estratégias inteligentes, pensamento inovador, adaptabilidade e resiliência dos modelos, simulando cenários de jogo reais.
llm-colosseum Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34