zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-09-30 14:08:02
.
AIbase
.
12.1k
智源研究院推出全球首个中文大模型辩论平台FlagEval Debate
北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
2024-08-16 09:50:38
.
AIbase
.
11.1k
Geekbench推出AI性能测试工具:设备AI能力评估迎来新标准
Geekbench AI是一款全新的跨平台工具,旨在评估设备在AI密集型工作负载下的性能,通过测试CPU、GPU和NPU,判断设备处理机器学习应用的能力。它支持多种AI框架,如ONNX、CoreML、TensorFlow Lite和OpenVINO,并从速度和准确性两个维度评估性能,提供全精度、半精度和量化精度三个分数。此外,Geekbench AI的测试结果包含了准确性测量,以评估工作负载输出与真实结果的接近程度。该工具已在Windows、macOS、Linux、Android和iOS平台上发布,用户可下载试用。随着AI技术的发展,Geekbench AI的出现改变了评估设备性能的方式,为设备AI能力的评估提供了新标准。然而,AI性能测试仍处于早期阶段,其与实际用户体验的关联及准确反映不同AI应用场景下的设备表现还需进一步观察。
2024-08-15 14:53:25
.
AIbase
.
11.1k
OpenAI推出SWE-bench Verified:提升AI软件工程能力评估
OpenAI发布SWE-bench Verified,旨在更精确评估AI在软件工程任务中的表现,解决原SWE-bench存在的评估局限性,如过于严格的单元测试、不明确的问题描述和难以设置的开发环境。新基准通过引入容器化Docker环境,提高了评估的一致性和可靠性,显著提升了AI模型的表现评分。GPT-4o在新基准下解决了33.2%的样本,而最佳开源代理框架Agentless的得分也显著提高。这一改进有助于更准确地捕捉AI模型在软件工程任务中的真实能力,为AI在软件开发领域的应用提供更精确的评估工具,对推动相关技术发展具有重要意义。