La empresa líder en inteligencia artificial, OpenAI, ha publicado recientemente un documento práctico titulado "Una guía práctica para la construcción de agentes" ("A practical guide to building agents"). Esta guía, de 34 páginas, tiene como objetivo proporcionar a los equipos de producto e ingeniería los conocimientos y las mejores prácticas necesarias para construir su primer sistema de agentes. Su contenido refleja las profundas ideas que OpenAI ha obtenido de numerosos casos de implementación reales de clientes.

Al leer esta guía, los desarrolladores podrán comprender los conceptos básicos de los agentes, y aprender cuándo y cómo diseñar, construir e implementar agentes de forma segura.

QQ_1744946969203.png

¿Qué es un agente?

La guía comienza definiendo claramente un agente, destacando su diferencia fundamental con el software tradicional en la forma de automatizar los flujos de trabajo. El software tradicional está diseñado para simplificar y automatizar los flujos de trabajo iniciados por el usuario, mientras que los agentes pueden completar de forma autónoma un flujo de trabajo completo en representación del usuario. Un flujo de trabajo se define como una serie de pasos necesarios para lograr un objetivo del usuario, como resolver un problema de atención al cliente, reservar un restaurante, enviar cambios de código o generar un informe. Sin embargo, una aplicación que simplemente integra un modelo de lenguaje grande (LLM), como un simple chatbot o un clasificador de sentimientos, no puede considerarse un agente si no utiliza el LLM para controlar la ejecución del flujo de trabajo. Un verdadero agente tiene características clave que le permiten actuar en representación del usuario de forma fiable y coherente. Esto incluye el uso del LLM para gestionar la ejecución del flujo de trabajo y la toma de decisiones, corregir su propio comportamiento cuando sea necesario, e incluso detener la ejecución y devolver el control al usuario en caso de fallo. Además, los agentes pueden acceder a diversas herramientas para interactuar con sistemas externos, seleccionar dinámicamente las herramientas adecuadas y operar dentro de barreras de seguridad claramente definidas.

¿Cuándo debería construir un agente?

La guía señala que la construcción de agentes requiere repensar cómo los sistemas toman decisiones y manejan la complejidad. A diferencia de los métodos tradicionales deterministas y basados en reglas, los agentes son especialmente adecuados para flujos de trabajo donde los métodos tradicionales no son eficaces. La guía utiliza el ejemplo del análisis de fraude de pagos para realizar una comparación vívida: un motor de reglas tradicional es como una lista de verificación que marca las transacciones según estándares preestablecidos; un agente LLM es más como un investigador experimentado que puede evaluar el contexto, considerar patrones sutiles e identificar actividades sospechosas incluso sin reglas explícitas. Por lo tanto, al evaluar el valor de un agente, se deben priorizar los flujos de trabajo que han sido difíciles de automatizar en el pasado, especialmente en estos tres escenarios:

  • Decisiones complejas: Flujos de trabajo que implican juicios sutiles, excepciones o decisiones contextuales, como la aprobación de reembolsos en el servicio al cliente.
  • Reglas difíciles de mantener: Sistemas que se vuelven difíciles de mantener debido a conjuntos de reglas grandes y complejos, lo que hace que la actualización sea costosa o propensa a errores, como la realización de revisiones de seguridad de proveedores.
  • Dependencia significativa de datos no estructurados: Escenarios que implican la interpretación del lenguaje natural, la extracción de significado de documentos o la interacción con usuarios de forma conversacional, como el procesamiento de reclamaciones de seguros de vivienda.

La guía enfatiza que antes de decidir construir un agente, es esencial verificar si el caso de uso cumple claramente con estos estándares; de lo contrario, una solución determinista podría ser suficiente.

Fundamentos del diseño de agentes

La guía describe en detalle los tres componentes principales de la construcción de agentes:

  • Modelo (LLM): Impulsa el razonamiento y la toma de decisiones del agente. La guía recomienda utilizar el modelo de mayor rendimiento en la fase de prototipo para establecer una referencia, y luego probar con modelos más pequeños para optimizar el coste y la latencia.
  • Herramientas: Funciones o API externas que el agente puede utilizar para realizar acciones. Las herramientas amplían las capacidades del agente a través de las API de aplicaciones o sistemas subyacentes. Para los sistemas heredados sin API, el agente puede confiar en que el ordenador utilice el modelo para interactuar directamente con la interfaz de usuario web y de aplicaciones. La guía clasifica las herramientas en tres categorías principales: recuperación de datos (como consultar bases de datos, leer archivos PDF o buscar en la web), ejecución de acciones (como enviar correos electrónicos, actualizar registros de CRM) y orquestación (el propio agente puede actuar como herramienta de otros agentes).
  • Instrucciones: Directrices claras y barreras de seguridad que definen el comportamiento del agente. Las instrucciones de alta calidad son esenciales para el agente, ya que reducen la ambigüedad y mejoran la calidad de las decisiones. La guía proporciona las mejores prácticas, como la utilización de la documentación existente, la descomposición de las tareas en pasos más pequeños, la definición de acciones claras y la captura de casos límite.

La guía también introduce brevemente el concepto de orquestación, que consiste en combinar componentes básicos para ejecutar flujos de trabajo de manera eficiente. Los patrones de orquestación se dividen principalmente en sistemas de un solo agente (un solo agente con herramientas e instrucciones ejecuta el flujo de trabajo en un bucle) y sistemas de múltiples agentes (la ejecución del flujo de trabajo se distribuye entre varios agentes coordinados). Los sistemas de múltiples agentes se pueden dividir a su vez en un modelo de gestión (un agente central de "gestión" coordina varios agentes especializados mediante herramientas) y un modelo descentralizado (varios agentes funcionan como pares, transfiriéndose tareas entre sí según su área de especialización).

Barreras de seguridad

La guía destaca la importancia crucial de las barreras de seguridad para gestionar los riesgos de privacidad de datos y los riesgos de reputación. Los desarrolladores deben establecer barreras para los riesgos identificados y añadir barreras adicionales a medida que se descubran nuevas vulnerabilidades. Las barreras de seguridad deben combinarse con protocolos sólidos de autenticación y autorización, control de acceso estricto y medidas de seguridad de software estándar para formar un mecanismo de defensa multicapa. La guía enumera varios tipos de barreras de seguridad, incluyendo clasificadores de relevancia (para asegurar que las respuestas estén dentro del rango esperado), clasificadores de seguridad (para detectar entradas inseguras), filtros PII (para evitar la exposición de información de identificación personal), auditoría (para registrar el comportamiento del agente), medidas de seguridad de las herramientas (para evaluar y controlar los riesgos de las herramientas), protecciones basadas en reglas (como listas negras, límites de longitud de entrada) y validación de salida (para asegurar que las respuestas cumplen con los valores de la marca). La guía también describe cómo configurar las barreras de seguridad en el SDK de agentes y destaca la importancia de la intervención humana como garantía clave, especialmente en las primeras etapas de implementación, para identificar fallos y casos límite.

Resumen y enlaces de recursos

La guía concluye señalando que los agentes marcan una nueva era en el campo de la automatización de flujos de trabajo, ya que pueden razonar sobre la ambigüedad, realizar acciones a través de herramientas y gestionar tareas de varios pasos con un alto grado de autonomía. La clave para construir agentes fiables radica en una base sólida (modelo, herramientas e instrucciones), un patrón de orquestación adecuado y barreras de seguridad clave. La guía anima a los usuarios a empezar poco a poco, ampliando gradualmente las capacidades del agente mediante la validación con usuarios reales. Finalmente, la guía proporciona enlaces a más recursos, como la plataforma OpenAI API, OpenAI for Business y la documentación para desarrolladores.

La "Guía práctica para la construcción de agentes" de OpenAI ofrece una guía completa y consejos prácticos para los equipos que deseen explorar y construir sistemas de agentes, lo que presagia una aceleración hacia un futuro más inteligente y automatizado en todos los sectores.

Enlace a los recursos del documento: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf