Con el continuo avance de la tecnología de inteligencia artificial (IA), las empresas están debatiendo si deberían depender de un único agente de IA o construir una red multiagente que abarque más funciones. Recientemente, LangChain, una empresa de frameworks de orquestación, realizó un experimento para explorar los límites de rendimiento de los agentes de IA cuando se enfrentan a un exceso de instrucciones y herramientas.

LangChain detalló su proceso experimental en una entrada de blog, centrándose en la cuestión principal: "¿Bajo qué circunstancias disminuye el rendimiento de un agente ReAct cuando se le pide que procese demasiadas instrucciones y herramientas?". Para responder a esta pregunta, el equipo de investigación eligió el framework de agentes ReAct, ya que se considera "una de las arquitecturas de agentes más básicas".

Robot Inteligencia Artificial 2025

Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.

En el experimento, el objetivo de LangChain era evaluar el rendimiento de un asistente de correo interno en dos tareas específicas: responder preguntas de clientes y programar reuniones. Los investigadores utilizaron una serie de agentes ReAct preconstruidos y los probaron a través de la plataforma LangGraph. Los modelos de lenguaje involucrados incluyeron Claude3.5Sonnet de Anthropic, Llama-3.3-70B de Meta y varias versiones de OpenAI, como GPT-4o.

El primer paso del experimento fue probar la capacidad de atención al cliente del asistente de correo electrónico; es decir, cómo el agente recibe y responde a los correos electrónicos de los clientes. A continuación, LangChain también se centró en el rendimiento del agente en la programación de calendarios, asegurándose de que pudiera recordar instrucciones específicas con precisión.

Los investigadores establecieron una prueba de estrés de 30 tareas para cada tarea, divididas en dos áreas: atención al cliente y programación de calendarios. Los resultados mostraron que, cuando se les asignaban demasiadas tareas, los agentes a menudo se sentían abrumados e incluso olvidaban llamar a las herramientas necesarias. Por ejemplo, al procesar hasta siete áreas de tareas, el rendimiento de GPT-4o disminuyó hasta un 2%. Llama-3.3-70B cometió frecuentes errores en las pruebas de tareas y no pudo llamar a la herramienta para enviar correos electrónicos.

LangChain descubrió que, a medida que aumentaba el contexto proporcionado, la capacidad de ejecución de instrucciones del agente disminuía significativamente. Aunque Claude-3.5-sonnet y otros modelos mostraron un rendimiento relativamente bueno en tareas multidominio, su rendimiento también disminuyó gradualmente a medida que aumentaba la complejidad de las tareas. La empresa afirmó que en el futuro explorará más a fondo cómo evaluar la arquitectura multiagente para mejorar el rendimiento de los agentes.