AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

清华团队领衔打造，首个 AI agent 系统性基准测试问世

学生头条

发布于AI新闻资讯 · 1 分钟阅读 · Aug 9, 2023

清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench，对 25 个不同语言模型进行了全面评估。研究结果显示，GPT-4 在复杂环境中表现出色，顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。

AI 智能体基准测试清华大学

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真

2025年4月3号 9:31

3.6k

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

近日，清华大学的研究团队开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。何为“测试时缩放”?在大型语言模型（LLMs）领域，研究人员已经发现，通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路，并将其应用于视频生成

2025年3月26号 14:30

4.6k

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1，并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。据腾讯介绍，混元-T1在开发过程中高度依赖强化学习，高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。在多项基准测试中，混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中，该模型取得了87.2分，仅略低于OpenAI的o1模型。在科学推理方面，浑元-T1在GPQA-diamond测试中获得了69.3分。尤其值得一提的是，腾讯强调混元-T1在数学方面的卓越

2025年3月25号 10:08

1.8k

高中生利用《我的世界》搭建AI模型评测网站，全民参与评判模型优劣

在人工智能技术飞速发展的今天，如何有效地评估和比较不同生成式AI模型的实力，成为了一个备受关注的难题。传统的AI基准测试方法逐渐显露出其局限性，为此，AI开发者们正积极探索更具创新性的评估途径。近日，一款名为“Minecraft Benchmark”（简称MC-Bench）的网站横空出世，其独特之处在于，它利用微软旗下的沙盒建造游戏《我的世界》(Minecraft)作为平台，让用户通过对比AI模型根据提示所创建的游戏作品，来评估它们的表现。而令人惊讶的是，这个新颖平台的创建者，竟然是一位年仅

2025年3月21号 11:48

3.4k

Minecraft变身AI竞技场:高中生打造创新模型评测平台

一位12年级学生建立了一个创新平台，让人们能够评估不同AI模型在Minecraft创作中的表现，为人工智能评测领域带来了新的视角。新基准测试方法应对传统评估局限性随着传统AI基准测试方法的局限性日益明显，开发者们开始寻找更具创造性的评估途径。对一群开发者而言，微软旗下的沙盒建造游戏Minecraft成为了理想选择。高中生Adi Singh与团队合作开发的Minecraft Benchmark（简称MC-Bench）网站允许AI模型在面对面的挑战中相互竞争，通过Minecraft创作来回应各种提示。用户可以投票选出表现更佳的

2025年3月21号 9:45

1.1k

Manus 与阿里通义千问达成战略合作，推出中文版 AI 智能体工具

AI 智能体工具 Manus 宣布与阿里通义千问达成战略合作，计划推出其中文版。这一合作将基于阿里通义千问的开源模型，在国产算力平台上实现 Manus 的全部功能，旨在为中文用户提供更为便捷和高效的 AI 应用体验。Manus 是由创业公司 Monica.im 孵化的项目，该公司成立于2023年7月，致力于开发面向消费者的 AI 工具和浏览器插件。创始团队包括了经验丰富的连续创业者肖弘和季逸超，以及曾在字节跳动负责产品的张涛。自推出以来，Manus 因其创新的智能体功能而引起了广泛关注。图源备注：图

2025年3月12号 10:06

3.2k

颠覆认知！AI 智能体 Manus 横空出世：不只回答问题，直接交付最终成果

受够了那些只会纸上谈兵的 AI 助手，问啥答啥，但干活还得靠自己? 准备迎接 AI 界的真·干将 —— Manus! 这款横空出世的 AI 智能体，彻底颠覆了我们对 AI 的固有印象: 它不再只是一个问答机器人，而是一个真正能帮你完成任务的超级打工人! Manus 不仅能理解你的需求，更能分析问题，自动执行任务，最终直接交付可食用的最终结果! 这简直是 AI 界的一股清流，让效率提升不再是空谈!Manus 究竟有多能打? 简单来说，它就像一个全能型选手，不仅脑力惊人，还能手脚麻利

2025年3月6号 8:53

16.4k

Kimi k1.6模型曝光：编程能力超越GPT-3，引领AI新风潮

最近，来自全球知名动态基准测试平台 LiveCodeBench 的信息显示，Kimi 最新发布的 k1.6模型在编程能力方面表现卓越，已经超越了 OpenAI 的 GPT-3（包括 o3mini 和 o1等版本），登上了性能排行榜的第一名。这一消息无疑为科技界带来了激动与期待。据月之暗面的研究员 Flood 透露，k1.6是在 k1.5的基础上进行训练和优化的，目前其性能仍在不断提升中。月之暗面的联合创始人张予彤在社交平台上也分享了这一喜讯，他表示:“虽然 k1.6还没有正式发布，但看到 LiveCodeBench 的测试成绩，感到非常开心，期

2025年2月27号 17:07

6.2k

OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

近期，关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果，而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。事件的起因是 xAI 在其博客上发布了一张图表，展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑，但它仍然被广泛用来评估模型的数学能力。xAI 的图表显示，Grok3的两个变体 ——Grok3Rea

2025年2月24号 11:26

2.5k

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

2025年2月20号 10:37

2.0k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图