搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
- ✓新闻资讯
- 产品应用
2025-04-03 09:31:03.AIbase.
OpenAI推出AI Agent评测基准PaperBench
2025-03-25 10:08:07.AIbase.
腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配
2025-03-21 11:48:03.AIbase.
高中生利用《我的世界》搭建AI模型评测网站,全民参与评判模型优劣
2025-03-21 09:45:00.AIbase.
Minecraft变身AI竞技场:高中生打造创新模型评测平台
2025-02-27 17:07:26.AIbase.
Kimi k1.6模型曝光:编程能力超越GPT-3,引领AI新风潮
2025-02-24 11:26:35.AIbase.
OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导
2025-02-20 10:37:18.AIbase.
OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性
2025-02-18 16:55:26.AIbase.
OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能
2024-12-25 09:22:05.AIbase.
果然最强!OpenAI 新模型o3在ARC-AGI基准测试得分破纪录
2024-12-20 16:10:44.AIbase.
智源与腾讯推出长文本理解基准测试模型LongBench v2
2024-12-15 10:23:35.AIbase.
阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力
2024-11-18 14:29:39.AIbase.
扩散模型也能玩游戏?DIAMOND实现Atari 100k基准测试新SOTA
2024-11-01 10:48:10.AIbase.
又一AI生图模型新宠!Recraft v3 横扫基准测试, 击败Flux和Ideogram位列第一
2024-10-21 10:42:51.AIbase.
高质量数据才是王道!EPFL 研究:训练数据对大模型性能至关重要!
2024-09-14 15:53:53.AIbase.
微软推Windows Agent Arena,测试AI助手在真实Windows环境中的性能
2024-09-03 11:32:53.AIbase.
谷歌AI推全面基准测试CardBench:具有20多个真实数据库和数千个查询
2024-08-16 14:03:40.AIbase.
Geekbench 推出新AI基准测试,评估设备处理AI任务的性能
2024-08-16 09:49:46.AIbase.
新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能
2024-08-07 16:35:17.AIbase.
北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!
2024-07-02 10:38:02.AIbase.