Com o avanço da tecnologia de inteligência artificial, sistemas multiagentes estão demonstrando capacidades cada vez mais fortes para lidar com tarefas complexas em diversas áreas. Esses sistemas são compostos por vários agentes especializados que colaboram, cada um utilizando suas próprias habilidades, para atingir um objetivo comum. Essa colaboração se mostra excepcional em tarefas complexas de raciocínio, programação, descoberta de medicamentos e garantia de segurança, pois a interação estruturada entre os agentes não apenas aumenta a eficiência na resolução de problemas, mas também permite a correção mútua, melhorando assim as saídas individuais. Estudos demonstram que esse tipo de colaboração geralmente supera o desempenho de um único agente em tarefas que exigem raciocínio rigoroso ou verificação de fatos.
No entanto, a otimização de sistemas multiagentes ainda enfrenta desafios significativos. Um problema principal é como obter sinais de treinamento adequados para cada agente. Embora seja possível obter feedback de recompensa em nível de tarefa, a atribuição de crédito entre os agentes individuais se torna ambígua. Devido à complexidade e à falta de estrutura no processo de raciocínio dos modelos de linguagem, torna-se ainda mais difícil atribuir o sucesso ou o fracasso às decisões e etapas de raciocínio específicas de cada agente, semelhante ao problema de atribuição de crédito multiagente no aprendizado por reforço.
Para resolver esse problema, pesquisadores da Universidade de Stanford introduziram a estrutura SIRIUS, um framework de otimização multiagente autoaperfeiçoável que utiliza aprendizado orientado por raciocínio. O SIRIUS constrói um repositório de experiências a partir da preservação de trajetórias de raciocínio bem-sucedidas, fornecendo um conjunto de treinamento de alta qualidade. Simultaneamente, as tentativas malsucedidas são aprimoradas, enriquecendo o conjunto de dados. Os resultados da pesquisa mostram que o SIRIUS melhorou o desempenho em raciocínio e resposta a perguntas biomédicas em 2,86% a 21,88%, e também melhorou a capacidade de negociação dos agentes em ambientes competitivos. Os agentes, aprendendo com as interações bem-sucedidas, iterativamente aprimoram suas estratégias de colaboração, alcançando assim uma auto-otimização sem supervisão direta.
A estrutura SIRIUS também inclui um processo de ajuste fino iterativo, onde os agentes interagem em um ambiente de linguagem natural, geram respostas, avaliam as respostas, melhoram as saídas de baixa qualidade e atualizam as estratégias por meio de aprendizado supervisionado. Por meio da otimização contínua das respostas, o SIRIUS melhora a capacidade de raciocínio e tomada de decisão em sistemas multiagentes baseados em linguagem, alcançando interações mais eficientes e coerentes ao longo do tempo.
Em experimentos, o SIRIUS foi comparado com vários modelos de referência, incluindo agentes únicos, STaR, CoMM e TextGrad. Os resultados mostraram que o SIRIUS se destacou na resolução de problemas, na decomposição de tarefas e na colaboração entre agentes. Através de estudos de ablação, descobriu-se que os papéis especializados dos agentes, a otimização multiagente e o aumento da experiência são fatores-chave para o aumento do desempenho. O SIRIUS também apresentou excelente desempenho em ambientes de ator-crítico e competitivos, superando outros métodos em tarefas como PubMedQA e jogos de troca de recursos.
Em resumo, o SIRIUS é um framework projetado para otimizar sistemas multiagentes por meio do aprendizado de interações bem-sucedidas e do aprimoramento de casos de falha. Ele constrói um repositório de experiências contendo etapas de raciocínio de alta qualidade, que serve como conjunto de treinamento para a otimização do sistema, ao mesmo tempo em que enriquece o conteúdo da biblioteca por meio do aprimoramento de trajetórias malsucedidas. Esse framework melhora significativamente a capacidade de raciocínio, resposta a perguntas biomédicas e negociação entre agentes, impulsionando a auto-melhoria contínua da colaboração multiagente.
Artigo: https://arxiv.org/pdf/2502.04780
Destaques:
🌟 A estrutura SIRIUS otimiza o desempenho de sistemas multiagentes por meio da auto-melhoria e do aprendizado de experiências bem-sucedidas.
📈 Estudos demonstram que o SIRIUS melhorou o desempenho em tarefas de raciocínio e resposta a perguntas biomédicas em 2,86% a 21,88%.
🤝 A interação entre os múltiplos agentes e a construção do repositório de experiências são o cerne do processo de otimização do SIRIUS, auxiliando os agentes a colaborar de forma mais eficaz em tarefas complexas.