2025-02-24 11:26:35.AIbase.
Funcionário da OpenAI questiona publicamente a xAI: Resultados de benchmark do Grok 3 são enganosos
2025-02-18 16:55:26.AIbase.
OpenAI lança o benchmark SWE-Lancer: avaliando o desempenho do modelo em trabalhos de engenharia de software freelance do mundo real
2025-01-20 10:04:01.AIbase.
Organização sem fins lucrativos de benchmark de IA criticada por não divulgar financiamento da OpenAI
2024-12-25 09:22:05.AIbase.
Impressionante! O novo modelo o3 da OpenAI bate recorde em teste de benchmark ARC-AGI
2024-12-15 10:23:35.AIbase.
Alibaba lança novo benchmark de IA, "PROCESSBENCH", para avaliar a capacidade de identificar erros em raciocínio matemático
2024-12-05 14:45:53.AIbase.
ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"
2024-11-29 09:47:51.AIbase.
Chorei! Epoch AI lança FrontierMath, novo benchmark de matemática, onde modelos de IA de ponta resolvem menos de 2% dos problemas
2024-11-25 15:09:04.AIbase.
Meta lança novo benchmark Multi-IF, desafiando a capacidade de seguir instruções multilíngues e de várias rodadas
2024-11-18 14:29:39.AIbase.
Modelos de difusão também podem jogar? DIAMOND atinge novo SOTA no benchmark Atari 100k
2024-11-01 10:48:10.AIbase.
Novo queridinho dos modelos de geração de imagens de IA! Recraft v3 supera benchmarks, derrotando Flux e Ideogram e ficando em primeiro lugar
2024-10-31 14:28:43.AIbase.
OpenAI lança novo benchmark de IA, SimpleQA: avaliando a precisão factual de modelos de linguagem
2024-10-14 14:51:30.AIbase.
Equipe de pesquisa da Apple lança novo benchmark GSM-Symbolic: revelando as deficiências no raciocínio matemático de grandes modelos de linguagem!
2024-10-11 09:35:13.AIbase.
DeepMind lança novo benchmark Michelangelo: Revelando falhas de raciocínio em LLMs de contexto longo
2024-09-03 11:32:53.AIbase.
Google AI lança CardBench, um benchmark abrangente: com mais de 20 bancos de dados reais e milhares de consultas
2024-08-16 14:03:40.AIbase.
Geekbench lança novo benchmark de IA para avaliar o desempenho de dispositivos em tarefas de IA
2024-08-16 09:49:46.AIbase.
Novo benchmark de IA Geekbench testa o desempenho da CPU, GPU e NPU
2024-08-07 16:35:17.AIbase.
Universidade de Pequim/Instituto de Pesquisa de Comunicação lança LooGLE, teste de benchmark superdifícil para compreensão de textos longos; modelos de linguagem amplos falham!
2024-07-02 10:38:02.AIbase.
Anthropic lança novo programa para financiar o desenvolvimento de benchmarks de IA de próxima geração
2024-07-02 09:07:20.AIbase.
Anthropic lança iniciativa para financiar o desenvolvimento de benchmarks de avaliação de IA
2024-03-06 07:52:55.AIbase.