2024-12-20 16:10:44.AIbase.
智源与腾讯推出长文本理解基准测试模型LongBench v2
2024-12-15 10:23:35.AIbase.
阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力
2024-11-18 14:29:39.AIbase.
扩散模型也能玩游戏?DIAMOND实现Atari 100k基准测试新SOTA
2024-11-01 10:48:10.AIbase.
又一AI生图模型新宠!Recraft v3 横扫基准测试, 击败Flux和Ideogram位列第一
2024-10-21 10:42:51.AIbase.
高质量数据才是王道!EPFL 研究:训练数据对大模型性能至关重要!
2024-09-14 15:53:53.AIbase.
微软推Windows Agent Arena,测试AI助手在真实Windows环境中的性能
2024-09-03 11:32:53.AIbase.
谷歌AI推全面基准测试CardBench:具有20多个真实数据库和数千个查询
2024-08-16 14:03:40.AIbase.
Geekbench 推出新AI基准测试,评估设备处理AI任务的性能
2024-08-16 09:49:46.AIbase.
新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能
2024-08-07 16:35:17.AIbase.
北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!
2024-07-02 10:38:02.AIbase.
Anthropic推出新计划,资助新一代AI基准测试的开发
2024-06-17 14:58:57.AIbase.
清华与北大合作发布长视频理解基准测试:LVBench
2023-12-25 10:10:48.AIbase.
谷歌推出人工智能系统Gemini,有望扩大在AI领域的影响力
2023-11-30 09:52:30.AIbase.
亚马逊AWS推出人类基准测试团队,改进人工智能模型评估
2023-08-09 14:07:10.AIbase.