智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Dec 12, 2023

144

智谱 AI 发布了专为中文大语言模型（LLM）而生的对齐评测基准 AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench 的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤，确保具有真实性和挑战性。数据集分为 8 个大类，包括知识问答、写作生成、角色扮演等多种类型的问题。为了实现自动化和可复现性，AlignBench 采用评分模型（如 GPT-4 和 CritiqueLLM）为每个模型的回答打分，代表其回答质量。评分模型具有多维度、规则校准的评分方法，提高了模型评分和人类评分的一致性，并提供了细致的评测分析和评测分数。开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型（如 GPT-4 或 CritiqueLLM）进行评分。通过 AlignBench 网站，提交结果可以使用 CritiqueLLM 作为评分模型进行评测，大约 5 分钟即可得到评测结果。

中文大模型对齐评测基准智谱 AI

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

百度发布首款中文大模型AI眼镜：45克轻量设计，续航达56小时

百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品，展现了百度在可穿戴设备领域的创新实力。从硬件规格来看，小度AI眼镜在轻量化设计上取得突破，整机重量仅45克，确保佩戴舒适度。配备16MP超广角摄像头，集成AI防抖算法，可实现稳定的第一视角拍摄。在续航方面，官方数据显示待机时间可达56小时，支持超过5小时的持续聆听模式，同时具备30分钟快充能力。声学系统采用四麦克风阵列设计，配合开放式防漏音扬

2024年11月12号 14:12

4.8k

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

2024年9月30号 14:08

2.5k

智谱 AI 最新完成数十亿元融资，估值已达200亿元

智谱 AI，大模型领域的独角兽企业，宣布完成数十亿元融资，用于支持技术创新与生态发展。此轮融资后，智谱估值达200亿元，领投方为中关村科学城公司，这是其2024年的第三笔融资。智谱的股东阵容包括中关村科学城、高瓴资本、启明创投、君联资本等知名投资机构，以及互联网巨头美团、阿里、腾讯和小米。

2024年9月5号 10:26

1.8k

智谱 AI 注册资本增至 2790 万元，持续深耕人工智能领域

智谱 AI 旗下北京智谱华章科技有限公司近期注册资本由约2511.48万元增加至2790.54万元，彰显了公司的发展潜力。作为一家成立于2019年的科技公司，智谱华章专注于人工智能软件开发，特别是在理论和算法领域，持续推动行业创新。其股东阵容包括腾讯在内的多家知名企业，为公司提供了资金和资源支持。近期，智谱华章发布了多项国际领先的人工智能模型，包括语言、文生图、图像/视频理解和视频生成模型，展示了公司在人工智能领域的强大实力和创新能力。

2024年9月4号 17:46

1.3k

智谱 AI宣布GLM-4-9B、CodeGeeX4-ALL-9B 支持 Ollama 部署

智谱 AI 已发布其开源模型 GLM-4-9B 和 CodeGeeX4-ALL-9B 为 Ollama 支持。GLM-4-9B 属于多领域通用模型，表现出色并得到开放共享。基于上述模型的 CodeGeeX4-ALL-9B 则专注于多语言代码生成，显著提升生成能力。Ollama 是一款方便在本地环境部署大型语言模型的工具，支持 Windows、macOS、Linux 和 Docker，用户可快速运行所选模型，界面友好。时下版本的 Ollama 已支持对语言模型进行部署，但仍不支持多模态模型。用户可以通过以下链接访问模型：GLM-4-9B - <https://ollama.com/library/glm4>；CodeGeeX4-ALL-9B - <https://ollama.com/library/codegeex4>。

2024年7月12号 8:34

9.0k

智谱 AI 发布新一代大模型 GLM-4，全面对标 OpenAI

["智谱 AI 发布新一代大模型 GLM-4，逼近 GPT-4","GLM-4 支持更长的上下文和更强的多模态能力","GLMs 模型应用商店将同期公布","智谱 AI 强调支持开源和开发者社区"]

2024年1月17号 11:16

500

智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

["智谱 AI 开源了 CogAgent，它是一个视觉语言模型拥有 180 亿参数规模。","CogAgent 在 GUI 理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。","该模型支持高分辨率的视觉输入和对话问答，并且可以针对任意 GUI 截图进行问答。","CogAgent 还支持 OCR 相关任务，通过预训练和微调，其能力得到了显著提升。","模型可以通过上传截图来进行任务推理，并返回计划、下一个动作以及具体操作的坐标信息。"]

2023年12月21号 8:37

510

智谱 AI 发布 CritiqueLLM 评分模型，可评估文本生成模型性能

["智谱 AI 发布高质量、低成本的评分模型 CritiqueLLM","传统评价指标如 BLEU 和 ROUGE 缺乏对整体语义的把握","CritiqueLLM 提出可解释、可扩展的文本质量评价模型","在 8 类常见任务中，CritiqueLLM 优于其他模型","CritiqueLLM 通过用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练模型的方法生成评分"]

2023年12月12号 14:30

1.9k

百度、腾讯、智谱 AI 等入股无问芯穹

["无问芯穹智能科技有限公司股东新增百度、腾讯、智谱 AI 等公司","无问芯穹注册资本由 119 万人民币增至 152 万人民币","无问芯穹致力于大模型推理优化","新增股东将为无问芯穹带来更多资源与支持","无问芯穹是一家初创公司，成立于 2023 年，专注于人工智能领域"]

2023年12月6号 9:59

780

智谱 AI 发布第三代基座大模型 ChatGLM3 智谱清言具备代码交互能力

["智谱 AI 在 2023 中国计算机大会上发布第三代基座大模型 ChatGLM3","ChatGLM3 具备多模态理解能力、代码生成和执行、网络搜索增强等新功能","ChatGLM3 经过深度优化，在中英文公开数据集测试中表现优秀","智谱清言成为国内首个具备代码交互能力的大模型产品","智谱 AI 期待国产原生大模型与国产芯片在国际舞台上脱颖而出"]

2023年10月27号 16:19

970

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图