智源研究院开源 JudgeLM 裁判模型可评测各类大模型并输出评分

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年11月13号 8:59

智源研究院开源了一种名为 JudgeLM 的裁判模型，可以高效准确地评判各类大模型。与 GPT-4 相比，JudgeLM 仅需 1/120 的成本，就能达到 90% 以上的评判结果一致性。JudgeLM 可应用于纯文本、多模态等多种评判场景，并可以输出评分、判断和阐述理由。通过创新方法，JudgeLM 与参考答案的一致性最高超过了 90%，接近人类表现。智源研究院还开源了一个包含训练和验证样本的数据集，用于深入研究大语言模型裁判。未来，JudgeLM 团队将进一步完善这一裁判模型，提供更准确、高效、覆盖更多场景的大语言模型评判。

智源研究院与腾讯达成战略合作推动大模型、AI等应用落地

智源研究院与腾讯集团于2024年12月18日签署了战略合作协议，双方将在大模型研发、人工智能技术前沿探索及开源生态建设等多个领域进行深入合作。根据合作协议，智源研究院与腾讯将利用各自的优势，推动大模型技术与产业场景的深度融合，并探索在多元算力环境下的大模型训练与推理优化技术解决方案。双方还将致力于构建一个开放创新的软硬件生态体系，以促进技术的发展和应用。

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面，Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面，Emu3则是以一种全新的方式工作，不同于其他模型通过噪声生成视频，Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

在2024北京文化论坛上，北京智源人工智能研究院（BAAI）宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet)，进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ，是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。

AI新闻资讯