AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

✓新闻资讯
产品应用

类型 :

✓新闻资讯
产品应用

2025-04-03 09:31:03.AIbase

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真

OpenAI推出AI Agent评测基准PaperBench

2025-03-25 10:08:07.AIbase

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1，并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。据腾讯介绍，混元-T1在开发过程中高度依赖强化学习，高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。在多项基准测试中，混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中，该模型取得了87.2分，仅略低于OpenAI的o1模型。在科学推理方面，浑元-T1在GPQA-diamond测试中获得了69.3分。尤其值得一提的是，腾讯强调混元-T1在数学方面的卓越

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

2025-03-21 11:48:03.AIbase

高中生利用《我的世界》搭建AI模型评测网站，全民参与评判模型优劣

在人工智能技术飞速发展的今天，如何有效地评估和比较不同生成式AI模型的实力，成为了一个备受关注的难题。传统的AI基准测试方法逐渐显露出其局限性，为此，AI开发者们正积极探索更具创新性的评估途径。近日，一款名为“Minecraft Benchmark”（简称MC-Bench）的网站横空出世，其独特之处在于，它利用微软旗下的沙盒建造游戏《我的世界》(Minecraft)作为平台，让用户通过对比AI模型根据提示所创建的游戏作品，来评估它们的表现。而令人惊讶的是，这个新颖平台的创建者，竟然是一位年仅

高中生利用《我的世界》搭建AI模型评测网站，全民参与评判模型优劣

2025-03-21 09:45:00.AIbase

Minecraft变身AI竞技场:高中生打造创新模型评测平台

一位12年级学生建立了一个创新平台，让人们能够评估不同AI模型在Minecraft创作中的表现，为人工智能评测领域带来了新的视角。新基准测试方法应对传统评估局限性随着传统AI基准测试方法的局限性日益明显，开发者们开始寻找更具创造性的评估途径。对一群开发者而言，微软旗下的沙盒建造游戏Minecraft成为了理想选择。高中生Adi Singh与团队合作开发的Minecraft Benchmark（简称MC-Bench）网站允许AI模型在面对面的挑战中相互竞争，通过Minecraft创作来回应各种提示。用户可以投票选出表现更佳的

Minecraft变身AI竞技场:高中生打造创新模型评测平台

2025-02-27 17:07:26.AIbase

Kimi k1.6模型曝光：编程能力超越GPT-3，引领AI新风潮

最近，来自全球知名动态基准测试平台 LiveCodeBench 的信息显示，Kimi 最新发布的 k1.6模型在编程能力方面表现卓越，已经超越了 OpenAI 的 GPT-3（包括 o3mini 和 o1等版本），登上了性能排行榜的第一名。这一消息无疑为科技界带来了激动与期待。据月之暗面的研究员 Flood 透露，k1.6是在 k1.5的基础上进行训练和优化的，目前其性能仍在不断提升中。月之暗面的联合创始人张予彤在社交平台上也分享了这一喜讯，他表示:“虽然 k1.6还没有正式发布，但看到 LiveCodeBench 的测试成绩，感到非常开心，期

Kimi k1.6模型曝光：编程能力超越GPT-3，引领AI新风潮

2025-02-24 11:26:35.AIbase

OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

近期，关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果，而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。事件的起因是 xAI 在其博客上发布了一张图表，展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑，但它仍然被广泛用来评估模型的数学能力。xAI 的图表显示，Grok3的两个变体 ——Grok3Rea

OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

2025-02-20 10:37:18.AIbase

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

2025-02-18 16:55:26.AIbase

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试，无法充分反映全栈性能和解决方案的实际经济影响。因此，开发更为真实的评估方法显得尤为重要。为此，OpenAI 推出了 SWE-Lancer，一个针对真实世界自由软件工程工作进行模型性能评估的基准测试。该基准测试基于来自 Upwork 和 Expen

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

2024-12-25 09:22:05.AIbase

果然最强！OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩，标准计算条件下得分高达75.7%，而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外，但仍无法证明人工智能通用性（AGI）已被破解。ARC-AGI 基准测试基于抽象推理库（Abstract Reasoning Corpus），该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题，需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题，而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最

果然最强！OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

2024-12-20 16:10:44.AIbase

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

智源与腾讯推出长文本理解基准测试模型LongBench v2

2024-12-15 10:23:35.AIbase

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。当前，针对语言模型的评估基准存在一些不足之处。一方面，一些问题集对于高级模型而言变得过于简单，另一方面，现有的评估方法往往只提供二元的正确性评估，而缺

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

2024-11-18 14:29:39.AIbase

扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

强化学习在近年来取得了许多成功，但其样本效率低下，限制了其在现实世界中的应用。世界模型作为一种环境生成模型，为解决这一问题提供了希望。它可以作为模拟环境，以更高的样本效率训练强化学习智能体。目前，大多数世界模型通过离散潜变量序列来模拟环境动态。然而，这种压缩成紧凑离散表示的方法可能会忽略对强化学习至关重要的视觉细节。与此同时，扩散模型已经成为图像生成领域的主导方法，挑战了传统的离散潜变量建模方法。受此启发，研究人员提出了一种名为DI

扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

2024-11-01 10:48:10.AIbase

又一AI生图模型新宠！Recraft v3 横扫基准测试，击败Flux和Ideogram位列第一

近日，图像 AI 初创公司 Recraft 发布了其最新的文本生成图像模型 Recraft v3，该模型在独立测试中表现出色，重新定义了图像生成的性能标准。根据 Recraft 的介绍，v3模型在生成图像中的文本、保持解剖学准确性、理解提示和制作高质量视觉内容方面都表现优异。其最大的突破在于能够在一次生成中准确呈现长段文本，而许多其他模型在处理超过几个字时常常力不从心。Recraft v3在 Hugging Face 的文本生成图像基准测试中名列第一，获得1172的 ELO 分数，超越了近期的竞争对手 Flux 和 Ideogram。用户

又一AI生图模型新宠！Recraft v3 横扫基准测试，击败Flux和Ideogram位列第一

2024-10-21 10:42:51.AIbase

高质量数据才是王道！EPFL 研究：训练数据对大模型性能至关重要！

瑞士洛桑联邦理工学院（EPFL）的一项最新研究比较了两种主流的大型语言模型 (LLM) 适应性训练方法:上下文学习 (ICL) 和指令微调 (IFT)。研究人员使用 MT-Bench 基准测试来评估模型遵循指令的能力，发现在特定情况下，两种方法的表现各有优劣。研究发现，当可用的训练样本数量较少时（例如不超过50个），ICL 和 IFT 的效果非常接近。这表明在数据有限的情况下，ICL 或许可以作为 IFT 的替代方案。然而，随着任务复杂度的增加，例如在多轮对话场景中，IFT 的优势就变得明显。研究人员认为，

高质量数据才是王道！EPFL 研究：训练数据对大模型性能至关重要！

2024-09-14 15:53:53.AIbase

微软推Windows Agent Arena，测试AI助手在真实Windows环境中的性能

最近，微软发布了一个名为 Windows Agent Arena（WAA）的新平台，专门用于测试人工智能助手在真实 Windows 操作系统环境中的表现。这个创新的基准测试工具旨在加速 AI 助手的发展，使其能够在各种应用中执行复杂的计算任务，提升人机互动的效率。研究团队在 arXiv.org 上发布了一篇论文，指出大语言模型在作为计算机助手方面展现出巨大潜力，能在需要规划和推理的多模态任务中提升人类的工作效率和软件可访问性。然而，如何在真实环境中衡量 AI 助手的表现，依然是一个难题。Windows Agent

微软推Windows Agent Arena，测试AI助手在真实Windows环境中的性能

2024-09-03 11:32:53.AIbase

谷歌AI推全面基准测试CardBench：具有20多个真实数据库和数千个查询

现代关系数据库中，基数估计（CE）技术对于优化查询执行计划至关重要，直接影响到查询效率和数据库性能。传统的基数估计方法基于简化假设，常在复杂查询预测上表现不佳，而学习型CE模型能提供更准确预测，但面临训练时间长、需大量数据和缺乏系统评估的问题。为解决这一挑战，Google研究团队推出了CardBench基准测试框架，集成了超过20个真实世界数据库和数千个查询，支持三种主要设置：基于实例的模型、零样本模型和微调模型。CardBench不仅提供数据统计计算工具、SQL查询生成和注释查询图创建功能，还包含训练数据集，用于评估不同学习型CE模型性能。通过CardBench，微调模型在性能评估中展现出色，即使在少量训练数据下也能达到与传统方法相当的准确性，这为实际应用提供了可能，推动了学习型基数估计领域的进步。

谷歌AI推全面基准测试CardBench：具有20多个真实数据库和数千个查询

2024-08-16 14:03:40.AIbase

Geekbench 推出新AI基准测试，评估设备处理AI任务的性能

Geekbench AI 是一款新发布的跨平台工具，专为评估 AI 密集型工作负载设计。它通过测量设备的 CPU、GPU 和 NPU，以及支持多种机器学习框架，来判断设备处理 AI 应用程序的能力。Geekbench AI 提供全精度、半精度和量化分数，并伴随准确性评估，帮助用户了解模型执行任务的真实程度。用户可在 Windows、macOS、Linux、Android 和 iOS 平台上下载并测试设备的 AI 处理性能。随着 AI 技术的发展，这款工具为评估设备在 AI 任务上的表现提供了重要依据。

Geekbench 推出新AI基准测试，评估设备处理AI任务的性能

2024-08-16 09:49:46.AIbase

新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能

Geekbench AI是一款全新跨平台工具，用于评估设备处理密集型工作负载的性能，特别关注机器学习任务。它通过测量CPU、GPU和NPU性能，提供全精度、半精度和量化评分，并纳入准确度评估。支持多种机器学习框架，包括ONNX、CoreML、TensorFlow Lite和OpenVINO。此工具在Windows、macOS、Linux、Android和iOS上均可使用，旨在全面评估设备在不同任务中的表现。

新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能

2024-08-07 16:35:17.AIbase

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

长语境理解是自然语言处理领域的关键挑战，尤其是在大型语言模型（LLMs）处理超出其上下文窗口大小的文本时。为解决这一问题，研究人员开发了LooGLE基准测试，旨在评估LLMs在处理超长文档（平均19.3k单词，共776篇，覆盖多领域）时的长语境理解能力。LooGLE包含7个任务，涵盖短依赖和长依赖，评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档，确保LLMs未在预训练中接触，以此更准确评估其语境学习能力。研究发现，商业模型在性能上领先于开源模型，LLMs在短依赖任务上表现良好，但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出，而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案，并在GitHub上公开了评估代码，为未来模型开发提供指导。

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

2024-07-02 10:38:02.AIbase

Anthropic推出新计划，资助新一代AI基准测试的开发

Anthropic 推出了一个计划，资助开发新类型的基准测试，以评估 AI 模型的性能和影响，包括像其自己的 Claude 这样的生成模型。

Anthropic推出新计划，资助新一代AI基准测试的开发