AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-12-05 14:45:53.AIbase

字节开源全新代码大模型评估基准“FullStack Bench”

12月5日，字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench，涵盖了超11类真实场景，支持16种编程语言，并包含3374个问题。这一基准相比之前的评估标准，在更广泛的编程领域中能更准确地评估大模型的代码开发能力，推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准，如HumanEval和MBPP，通常集中在基础和高级编程问题，而DS-1000则专注于数据分析和机器学习任务，且仅支持Python。xCodeEval则侧重于高级编程和数学领域，存在较大的应用场景和语言覆盖限

字节开源全新代码大模型评估基准“FullStack Bench”

2024-09-29 15:33:05.AIbase

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

在自然语言处理领域，大型语言模型（LLMs）的发展迅速，已经在多个领域取得了显著的进展。不过，随着模型的复杂性增加，如何准确评估它们的输出就变得至关重要。传统上，我们依赖人类来进行评估，但这种方式既耗时又难以规模化，无法跟上模型快速发展的步伐。为了改变这种现状，Salesforce AI 研究团队推出了 SFR-Judge，这是一个由三个大型语言模型组成的评估家族。这些模型分别拥有80亿、120亿和700亿个参数，基于 Meta Llama3和 Mistral NeMO 构建。SFR-Judge 能够执行多种评估任务，包括成

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

2024-08-07 14:14:43.AIbase

Meta推“自学评估器”: 无需人工注释NLP模型评估，优于 GPT-4 等常用的LLM

自然语言处理领域中，大型语言模型在复杂任务上表现出色，但模型评估高度依赖昂贵且耗时的人类注释数据，且随着模型进步，原有数据的效用下降，需持续收集新数据以维持评估的规模化与可持续性。Meta FAIR 研究团队针对这一问题提出“Self-Taught Evaluator”（自学评估器），这一创新方法通过合成数据进行训练，无需依赖人类注释。通过生成对比的合成偏好对，模型自我评估与迭代改进，显著提高了模型在 RewardBench 基准上的准确率，从75.4提升至88.7，甚至超越了使用人类注释训练的模型。经过多次迭代，最终模型在单次推理中达到88.3的准确率，多数投票下达到88.7，展现出强大的稳定性和可靠性。此方法为 NLP 模型评估提供了可扩展且高效的解决方案，通过利用合成数据和迭代自我改进，有效应对了依赖人类注释的挑战，推动了语言模型的发展。

Meta推“自学评估器”: 无需人工注释NLP模型评估，优于 GPT-4 等常用的LLM

2024-03-07 03:52:56.AIbase

人工智能模型评估公司指出GPT-4侵权问题严重微软工程师担忧图像生成功能

["Patronus AI发布版权检测工具","OpenAI的GPT-4被指侵权问题最为严重","微软工程师指出AI图像生成工具可能对社会构成危险"]

2023-11-30 09:52:30.AIbase

亚马逊AWS推出人类基准测试团队，改进人工智能模型评估

["亚马逊AWS推出人类基准测试团队，改进人工智能模型评估","亚马逊希望用户能够更好地评估人工智能模型，并鼓励更多人参与这一过程","AWS提供Bedrock上的模型评估，以评估其存储库中的模型","模型评估包括自动评估和人工评估两个部分，可以根据不同指标评估模型性能","AWS还提供人工评估团队与用户合作，检测到自动系统无法检测到的指标"]

2023-08-18 10:04:45.AIbase

AI 初创公司 Arthur 发布开源 AI 模型评估工具 Bench

["Arthur 发布开源工具 ArthurBench，用于评估和比较大型语言模型的性能。","ArthurBench 帮助企业在特定用例上测试不同语言模型的性能，并提供准确性、可读性、避险等指标进行比较。","已有金融服务公司、车辆制造商和媒体平台等企业开始使用 ArthurBench，加快了分析和提供更准确的答案。"]