清华团队领衔打造，首个 AI agent 系统性基准测试问世

学生头条

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月9号 14:07

清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench，对 25 个不同语言模型进行了全面评估。研究结果显示，GPT-4 在复杂环境中表现出色，顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。

清华大学联合腾讯出品！ColorFlow：自动给黑白漫画上色，保持角色一致性

随着数字艺术的发展，自动化的图像处理技术日益受到关注。近日，来自清华大学与腾讯 ARC 实验室的研究团队提出了一种名为 ColorFlow 的新型图像序列上色模型。这一模型旨在解决在黑白图像序列上色的同时，保持角色和物体身份一致性的问题，满足漫画和动画等行业的实际需求。ColorFlow 是一个三阶段的扩散基础框架，它充分利用上下文信息，通过参考图像池为黑白图像序列准确生成颜色。例如，该模型能够有效地为角色的发色和服装上色，确保与参考图像的色彩一致性。与以往需要针

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。当前，针对语言模型的评估基准存在一些不足之处。一方面，一些问题集对于高级模型而言变得过于简单，另一方面，现有的评估方法往往只提供二元的正确性评估，而缺

月之暗面Kimi联合清华大学等开源共建大模型推理架构Mooncake

月之暗面科技有限公司与清华大学MADSys实验室联合发布了一项名为Mooncake的开源项目，旨在共建以KVCache为中心的大模型推理架构。2024年6月，双方曾联合发布Kimi底层的Mooncake推理系统设计方案，该方案基于PD分离和以存换算架构，显著提升了推理吞吐量，受到业界广泛关注。