智谱 AI 发布 CritiqueLLM 评分模型，可评估文本生成模型性能

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月12号 14:30

154

近日，智谱 AI 发布了高质量、低成本的评分模型 CritiqueLLM，用于评估文本生成模型的性能。传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分，缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖，只有顶级的大模型才能取得令人满意的效果。为了解决这些问题，CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下，CritiqueLLM 将大模型生成文本和参考文本进行对比，并给出了评分。在 8 类常见的任务中，CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型，尤其是在无参考文本设定下，CritiqueLLM 在 3 个任务上超过了 GPT-4，达到了最优的评价性能。CritiqueLLM 的方法包括四个主要步骤：用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤，可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型，用于评估文本生成模型的性能。

AWS推出Nova系列生成AI模型，支持文本、图像和视频生成

在周二的re:Invent大会上，亚马逊网络服务（AWS）宣布推出其新型多模式生成AI模型系列——Nova。此次发布的Nova系列包括四种文本生成模型:Micro、Lite、Pro和Premier，此外还推出了图像生成模型Nova Canvas和视频生成模型Nova Reel。亚马逊首席执行官Andy Jassy表示，Micro、Lite和Pro模型将在当天开始向AWS客户推出，而Premier模型预计将在2025年初发布。Nova系列专为处理多种输入形式（包括文本、图像、视频）而设计，其中文本生成模型特别优化了15种语言，主要支持英语。Nova文本生成模型Nova文本生成模型

Mistral AI发布顶级文本生成模型Mistral Large，与微软合作被质疑垄断市场

["Mistral AI 发布了新的顶级文本生成模型 Mistral Large","Mistral Large 在多项基准测试中表现优异","Mistral AI 发布了针对延迟和成本优化的新模型 Mistral Small","Mistral AI 与微软建立合作伙伴关系","网友质疑微软垄断市场策略","Mistral AI 在维持开源承诺和商业化之间寻找平衡"]

AI新闻资讯

智谱 AI 发布 CritiqueLLM 评分模型，可评估文本生成模型性能

站长之家

相关AI新闻推荐

AWS推出Nova系列生成AI模型，支持文本、图像和视频生成

Mistral AI发布顶级文本生成模型Mistral Large，与微软合作被质疑垄断市场