智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月12号 16:20

107

智谱 AI 发布了专为中文大语言模型（LLM）而生的对齐评测基准 AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench 的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤，确保具有真实性和挑战性。数据集分为 8 个大类，包括知识问答、写作生成、角色扮演等多种类型的问题。为了实现自动化和可复现性，AlignBench 采用评分模型（如 GPT-4 和 CritiqueLLM）为每个模型的回答打分，代表其回答质量。评分模型具有多维度、规则校准的评分方法，提高了模型评分和人类评分的一致性，并提供了细致的评测分析和评测分数。开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型（如 GPT-4 或 CritiqueLLM）进行评分。通过 AlignBench 网站，提交结果可以使用 CritiqueLLM 作为评分模型进行评测，大约 5 分钟即可得到评测结果。

百度发布首款中文大模型AI眼镜：45克轻量设计，续航达56小时

百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品，展现了百度在可穿戴设备领域的创新实力。从硬件规格来看，小度AI眼镜在轻量化设计上取得突破，整机重量仅45克，确保佩戴舒适度。配备16MP超广角摄像头，集成AI防抖算法，可实现稳定的第一视角拍摄。在续航方面，官方数据显示待机时间可达56小时，支持超过5小时的持续聆听模式，同时具备30分钟快充能力。声学系统采用四麦克风阵列设计，配合开放式防漏音扬

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

智谱 AI 最新完成数十亿元融资，估值已达200亿元

智谱 AI，大模型领域的独角兽企业，宣布完成数十亿元融资，用于支持技术创新与生态发展。此轮融资后，智谱估值达200亿元，领投方为中关村科学城公司，这是其2024年的第三笔融资。智谱的股东阵容包括中关村科学城、高瓴资本、启明创投、君联资本等知名投资机构，以及互联网巨头美团、阿里、腾讯和小米。

智谱 AI 注册资本增至 2790 万元，持续深耕人工智能领域

智谱 AI 旗下北京智谱华章科技有限公司近期注册资本由约2511.48万元增加至2790.54万元，彰显了公司的发展潜力。作为一家成立于2019年的科技公司，智谱华章专注于人工智能软件开发，特别是在理论和算法领域，持续推动行业创新。其股东阵容包括腾讯在内的多家知名企业，为公司提供了资金和资源支持。近期，智谱华章发布了多项国际领先的人工智能模型，包括语言、文生图、图像/视频理解和视频生成模型，展示了公司在人工智能领域的强大实力和创新能力。

AI新闻资讯