LangChain 研究揭示AI代理在工具使用上面临瓶颈

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年2月12号 16:57

633

随着人工智能（AI）技术的不断进步，企业开始探讨是否应该依赖单一的 AI 代理，还是构建一个涵盖更多职能的多代理网络。近日，Orchestration 框架公司 LangChain 进行了相关实验，旨在探讨 AI 代理在面对过多指令和工具时的表现极限。

LangChain 在一篇博客中详细介绍了其实验过程，关注的核心问题是:“当一个 ReAct 代理被要求处理过多的指令和工具时，其性能会在何种情况下下降?” 为了回答这一问题，研究团队选择了 ReAct 代理框架，因其被认为是 “最基础的代理架构之一”。

机器人人工智能2025

图源备注：图片由AI生成，图片授权服务商Midjourney

在实验中，LangChain 的目标是评估一名内部邮件助手在两项具体任务中的表现:答复客户问题和安排会议。研究人员使用了一系列预构建的 ReAct 代理，并通过 LangGraph 平台对其进行测试。涉及的语言模型包括 Anthropic 的 Claude3.5Sonnet、Meta 的 Llama-3.3-70B 以及 OpenAI 的多个版本如 GPT-4o 等。

实验的第一步是测试邮件助手的客户支持能力，具体来看，代理如何接受客户的邮件并给予回复。接着，LangChain 还特别关注了代理在日历安排上的表现，确保它能够准确记住特定指令。

研究人员设定了每个任务30项的压力测试，并将其分为客户支持和日历安排两个领域。结果显示，当给代理过多的任务时，它们常常会感到不堪重负，甚至忘记调用必要的工具。例如，在处理多达七个领域的任务时，GPT-4o 的表现下降至2%。而 Llama-3.3-70B 则在任务测试中失误频频，未能调用发送邮件的工具。

LangChain 发现，随着提供上下文的增加，代理的指令执行能力显著下降。尽管 Claude-3.5-sonnet 和其他几种模型在多领域任务中表现相对较好，但在任务复杂性增加时，它们的性能也会逐步下降。公司表示，未来将进一步探讨如何评估多代理架构，以改善代理的性能。

国家网信办印发《人工智能生成合成内容标识办法》，AI生成合成内容需显著标识

国家互联网信息办公室、工业和信息化部、公安部和国家广播电视总局联合制定了《人工智能生成合成内容标识办法》。这一新规的发布，旨在应对当前 AI 生成内容泛滥带来的社会问题，特别是一些不实信息的传播，影响到公众的知情权和合法权益。该办法明确规定，所有 AI 生成的文本、音频、图片和视频等合成内容，必须在适当位置进行显著标识。这一措施将有效保护公民、法人及其他组织的合法权益，并维护社会的公共利益。具体要求如下:人工智能生成合成内容标识办法第一条为了

生成式人工智能助力印度银行业到 2030 年提高 46% 的生产力

根据安永（EY）发布的一份报告，生成式人工智能(GenAI)正在重新塑造印度的金融服务行业，推动客户参与、运营效率和风险评估的显著提升。这份名为《生成式人工智能在印度能释放多少生产力?印度的 AI 思维:2025》的报告指出，预计到2030年，印度金融服务行业的生产力水平将提高34% 至38%，而银行业的提升幅度更是达到46%。报告显示，74% 的金融机构已经启动了概念验证项目，其中11% 的机构已进入生产级部署阶段。对于生成式人工智能的投资也在逐步增加，目前有42% 的组织正积极为人工智

北京新增34款已完成登记的生成式AI服务，小米AI搜索、Monica在列

网信北京发布了最新北京市生成式人工智能服务已登记信息公告，公称，根据《生成式人工智能服务管理暂行办法》及有关规定，对于通过API接口或其他方式直接调用已备案大模型能力的生成式人工智能应用或功能，采用登记管理方式，允许上线提供服务。截至3月14日，我市新增34款已完成登记的生成式人工智能服务，累计已完成46款生成式人工智能服务登记。其中，小米AI搜索、小米AI写作、Monica等产品在列。已上线的生成式人工智能应用或功能，应在显著位置或产品详情页面，公示所取

一男子因利用 AI 撰写色情小说被判刑十个月，非法获利超两万元

近期，湖北省大冶市人民法院对一起首例利用人工智能（AI）技术撰写色情小说并进行牟利的案件作出判决。被告人柯某因制作、贩卖、传播淫秽物品牟利罪，被判处有期徒刑十个月，并处罚金人民币五千元，退还违法所得。根据公诉机关的指控，柯某在2022年11月至2023年3月期间，作为一名大专文化的网络文学作者，利用 AI 程序撰写色情小说，并通过在境外黄色网站上发布，同时在其他网站进行销售。在短短五个月的时间内，柯某发布了数十篇色情小说，非法获利超过两万元。检方送检的

AI新闻资讯