Estudio de LangChain revela cuellos de botella en el uso de herramientas por parte de los agentes de IA

Con el continuo avance de la tecnología de inteligencia artificial (IA), las empresas están debatiendo si deberían depender de un único agente de IA o construir una red multiagente que abarque más funciones. Recientemente, LangChain, una empresa de frameworks de orquestación, realizó un experimento para explorar los límites de rendimiento de los agentes de IA cuando se enfrentan a un exceso de instrucciones y herramientas.

LangChain detalló su proceso experimental en una entrada de blog, centrándose en la cuestión principal: "¿Bajo qué circunstancias disminuye el rendimiento de un agente ReAct cuando se le pide que procese demasiadas instrucciones y herramientas?". Para responder a esta pregunta, el equipo de investigación eligió el framework de agentes ReAct, ya que se considera "una de las arquitecturas de agentes más básicas".

Robot Inteligencia Artificial 2025

Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.

En el experimento, el objetivo de LangChain era evaluar el rendimiento de un asistente de correo interno en dos tareas específicas: responder preguntas de clientes y programar reuniones. Los investigadores utilizaron una serie de agentes ReAct preconstruidos y los probaron a través de la plataforma LangGraph. Los modelos de lenguaje involucrados incluyeron Claude3.5Sonnet de Anthropic, Llama-3.3-70B de Meta y varias versiones de OpenAI, como GPT-4o.

El primer paso del experimento fue probar la capacidad de atención al cliente del asistente de correo electrónico; es decir, cómo el agente recibe y responde a los correos electrónicos de los clientes. A continuación, LangChain también se centró en el rendimiento del agente en la programación de calendarios, asegurándose de que pudiera recordar instrucciones específicas con precisión.

Los investigadores establecieron una prueba de estrés de 30 tareas para cada tarea, divididas en dos áreas: atención al cliente y programación de calendarios. Los resultados mostraron que, cuando se les asignaban demasiadas tareas, los agentes a menudo se sentían abrumados e incluso olvidaban llamar a las herramientas necesarias. Por ejemplo, al procesar hasta siete áreas de tareas, el rendimiento de GPT-4o disminuyó hasta un 2%. Llama-3.3-70B cometió frecuentes errores en las pruebas de tareas y no pudo llamar a la herramienta para enviar correos electrónicos.

LangChain descubrió que, a medida que aumentaba el contexto proporcionado, la capacidad de ejecución de instrucciones del agente disminuía significativamente. Aunque Claude-3.5-sonnet y otros modelos mostraron un rendimiento relativamente bueno en tareas multidominio, su rendimiento también disminuyó gradualmente a medida que aumentaba la complejidad de las tareas. La empresa afirmó que en el futuro explorará más a fondo cómo evaluar la arquitectura multiagente para mejorar el rendimiento de los agentes.

Noticias de IA

Estudio de LangChain revela cuellos de botella en el uso de herramientas por parte de los agentes de IA

AIbase基地

Noticias de IA relacionadas recomendadas

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Tongyi App lanza el modelo de inteligencia artificial Qianwen QwQ-32B: Experiencia de IA mejorada continuamente

Manus, el asistente de IA multifuncional creado por el equipo de Monica, es un éxito rotundo. ¿Cómo conseguir un código de invitación para Manus?

Quantexa recauda 175 millones de dólares, alcanzando una valoración de 2600 millones y reforzando sus negocios de análisis de datos e inteligencia artificial