zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-08-07 14:14:43
.
AIbase
.
10.9k
Meta推“自学评估器”: 无需人工注释NLP模型评估,优于 GPT-4 等常用的LLM
自然语言处理领域中,大型语言模型在复杂任务上表现出色,但模型评估高度依赖昂贵且耗时的人类注释数据,且随着模型进步,原有数据的效用下降,需持续收集新数据以维持评估的规模化与可持续性。Meta FAIR 研究团队针对这一问题提出“Self-Taught Evaluator”(自学评估器),这一创新方法通过合成数据进行训练,无需依赖人类注释。通过生成对比的合成偏好对,模型自我评估与迭代改进,显著提高了模型在 RewardBench 基准上的准确率,从75.4提升至88.7,甚至超越了使用人类注释训练的模型。经过多次迭代,最终模型在单次推理中达到88.3的准确率,多数投票下达到88.7,展现出强大的稳定性和可靠性。此方法为 NLP 模型评估提供了可扩展且高效的解决方案,通过利用合成数据和迭代自我改进,有效应对了依赖人类注释的挑战,推动了语言模型的发展。
2024-03-07 03:52:56
.
AIbase
.
6.5k
人工智能模型评估公司指出GPT-4侵权问题严重 微软工程师担忧图像生成功能
["Patronus AI发布版权检测工具","OpenAI的GPT-4被指侵权问题最为严重","微软工程师指出AI图像生成工具可能对社会构成危险"]
2023-11-30 09:52:30
.
AIbase
.
3.7k
亚马逊AWS推出人类基准测试团队,改进人工智能模型评估
["亚马逊AWS推出人类基准测试团队,改进人工智能模型评估","亚马逊希望用户能够更好地评估人工智能模型,并鼓励更多人参与这一过程","AWS提供Bedrock上的模型评估,以评估其存储库中的模型","模型评估包括自动评估和人工评估两个部分,可以根据不同指标评估模型性能","AWS还提供人工评估团队与用户合作,检测到自动系统无法检测到的指标"]
2023-08-18 10:04:45
.
AIbase
.
614
AI 初创公司 Arthur 发布开源 AI 模型评估工具 Bench
["Arthur 发布开源工具 ArthurBench,用于评估和比较大型语言模型的性能。","ArthurBench 帮助企业在特定用例上测试不同语言模型的性能,并提供准确性、可读性、避险等指标进行比较。","已有金融服务公司、车辆制造商和媒体平台等企业开始使用 ArthurBench,加快了分析和提供更准确的答案。"]