zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-12 11:38:17
.
AIbase
.
12.3k
OpenAI发布AI智能体的评测集:MLE-bench
在近期的一项研究中,OpenAI研究团队推出了名为 MLE-bench 的全新基准测试,旨在评估AI智能体在机器学习工程方面的表现。这项研究特别关注75个来自 Kaggle 的机器学习工程相关竞赛,旨在测试代理在现实世界中所需的多种技能,包括模型训练、数据集准备和实验运行等。为了更好地进行评估,研究团队使用了 Kaggle 公开排行榜的基础数据,确立了每个竞赛的人类基准。在实验中,他们利用开源的智能体架构,对几种前沿语言模型进行了测试。结果显示,最佳表现的配置 ——OpenAI 的 o1-preview
2023-09-25 09:54:21
.
AIbase
.
1.6k
大模型评测乱象调查:参数规模不代表一切
["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]