AIbase

搜索全球AI产品动态

  • 新闻资讯
  • 产品应用
2025-04-03 09:31:03.AIbase

OpenAI推出AI Agent评测基准PaperBench

2025-03-25 10:08:07.AIbase

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

2025-03-21 11:48:03.AIbase

高中生利用《我的世界》搭建AI模型评测网站,全民参与评判模型优劣

2025-03-21 09:45:00.AIbase

Minecraft变身AI竞技场:高中生打造创新模型评测平台

2025-02-27 17:07:26.AIbase

Kimi k1.6模型曝光:编程能力超越GPT-3,引领AI新风潮

2025-02-24 11:26:35.AIbase

OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导

2025-02-20 10:37:18.AIbase

OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性

2025-02-18 16:55:26.AIbase

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

2024-12-25 09:22:05.AIbase

果然最强!​OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

2024-12-20 16:10:44.AIbase

智源与腾讯推出长文本理解基准测试模型LongBench v2

2024-12-15 10:23:35.AIbase

阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力

2024-11-18 14:29:39.AIbase

扩散模型也能玩游戏?DIAMOND实现Atari 100k基准测试新SOTA

2024-11-01 10:48:10.AIbase

​又一AI生图模型新宠!Recraft v3 横扫基准测试, 击败Flux和Ideogram位列第一

2024-10-21 10:42:51.AIbase

高质量数据才是王道!EPFL 研究:训练数据对大模型性能至关重要!

2024-09-14 15:53:53.AIbase

​微软推Windows Agent Arena,测试AI助手在真实Windows环境中的性能

2024-09-03 11:32:53.AIbase

谷歌AI推全面基准测试CardBench:具有20多个真实数据库和数千个查询

2024-08-16 14:03:40.AIbase

​Geekbench 推出新AI基准测试,评估设备处理AI任务的性能

2024-08-16 09:49:46.AIbase

新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能

2024-08-07 16:35:17.AIbase

北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!

2024-07-02 10:38:02.AIbase

​Anthropic推出新计划,资助新一代AI基准测试的开发