AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-09-30 14:08:02.AIbase

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

2024-08-16 09:50:38.AIbase

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

Geekbench AI是一款全新的跨平台工具，旨在评估设备在AI密集型工作负载下的性能，通过测试CPU、GPU和NPU，判断设备处理机器学习应用的能力。它支持多种AI框架，如ONNX、CoreML、TensorFlow Lite和OpenVINO，并从速度和准确性两个维度评估性能，提供全精度、半精度和量化精度三个分数。此外，Geekbench AI的测试结果包含了准确性测量，以评估工作负载输出与真实结果的接近程度。该工具已在Windows、macOS、Linux、Android和iOS平台上发布，用户可下载试用。随着AI技术的发展，Geekbench AI的出现改变了评估设备性能的方式，为设备AI能力的评估提供了新标准。然而，AI性能测试仍处于早期阶段，其与实际用户体验的关联及准确反映不同AI应用场景下的设备表现还需进一步观察。

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

2024-08-15 14:53:25.AIbase

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI发布SWE-bench Verified，旨在更精确评估AI在软件工程任务中的表现，解决原SWE-bench存在的评估局限性，如过于严格的单元测试、不明确的问题描述和难以设置的开发环境。新基准通过引入容器化Docker环境，提高了评估的一致性和可靠性，显著提升了AI模型的表现评分。GPT-4o在新基准下解决了33.2%的样本，而最佳开源代理框架Agentless的得分也显著提高。这一改进有助于更准确地捕捉AI模型在软件工程任务中的真实能力，为AI在软件开发领域的应用提供更精确的评估工具，对推动相关技术发展具有重要意义。