Mit der Weiterentwicklung der künstlichen Intelligenz (KI) steigt die Fähigkeit von Multi-Agenten-Systemen (MAS), komplexe Aufgaben in verschiedenen Bereichen zu bewältigen. Diese Systeme bestehen aus mehreren spezialisierten Agenten, die durch Zusammenarbeit ihre jeweiligen Stärken ausspielen und gemeinsam Ziele erreichen. Diese Kooperation zeigt sich besonders effektiv bei komplexen Schlussfolgerungen, Programmierung, Wirkstoffforschung und Sicherheitsgarantien, da die strukturierte Interaktion zwischen den Agenten nicht nur die Effizienz der Problemlösung erhöht, sondern auch die gegenseitige Korrektur und damit die Verbesserung der jeweiligen Ergebnisse ermöglicht. Studien belegen, dass diese kooperative Vorgehensweise bei Aufgaben, die strenge Schlussfolgerungen oder Faktenüberprüfungen erfordern, oft die Leistung einzelner Agenten übertrifft.

QQ_1739439911579.png

Die Optimierung von Multi-Agenten-Systemen steht jedoch vor großen Herausforderungen. Ein Hauptproblem besteht darin, für jeden Agenten geeignete Trainingssignale zu erhalten. Obwohl Belohnungsrückmeldungen auf Aufgabenebene verfügbar sind, gestaltet sich die Kreditzuweisung zwischen den einzelnen Agenten unklar. Aufgrund der komplexen und unstrukturierten Inferenzprozesse von Sprachmodellen wird es schwieriger, Erfolge oder Misserfolge den spezifischen Entscheidungen und Inferenzschritten der einzelnen Agenten zuzuordnen. Dies ähnelt dem Problem der Kreditzuweisung bei Multi-Agenten-Verstärkungslernen.

Um dieses Problem zu lösen, haben Forscher der Stanford University das SIRIUS-Framework vorgestellt, ein selbstverbesserndes Framework zur Multi-Agenten-Optimierung, das inferenzgesteuertes Lernen nutzt. SIRIUS erstellt eine Erfahrungsdatenbank durch Speicherung erfolgreicher Inferenzpfade und liefert so einen hochwertigen Trainingssatz. Gleichzeitig werden erfolglose Versuche erweitert, um den Datensatz zu bereichern. Die Ergebnisse zeigen, dass SIRIUS die Leistung bei Inferenz- und biomedizinischen Frage-Antwort-Aufgaben um 2,86 % bis 21,88 % verbessert und die Verhandlungsfähigkeit von Agenten in kompetitiven Umgebungen steigert. Durch das Lernen erfolgreicher Interaktionen verbessern die Agenten iterativ ihre Kooperationsstrategien und erreichen so eine selbstgesteuerte Optimierung ohne direkte Aufsicht.

Das SIRIUS-Framework beinhaltet auch einen iterativen Feintuning-Prozess. Die Agenten interagieren in einer natürlichen Sprachumgebung, generieren Antworten, bewerten diese, verbessern minderwertige Ausgaben und aktualisieren ihre Strategien durch überwachtes Lernen. Durch die kontinuierliche Optimierung der Antworten verbessert SIRIUS das Inferenz- und Entscheidungsfindungsvermögen in sprachbasierten Multi-Agenten-Systemen und ermöglicht im Laufe der Zeit eine effizientere und kohärentere Interaktion.

In Experimenten wurde SIRIUS mit verschiedenen Baseline-Modellen verglichen, darunter Einzelagenten, STaR, CoMM und TextGrad. Die Ergebnisse zeigen, dass SIRIUS bei Problemlösung, Aufgabenzerlegung und Agentenkooperation hervorragend abschneidet. Ablationsstudien zeigen, dass spezialisierte Agentenrollen, Multi-Agenten-Optimierung und Erfahrungsverbesserung entscheidende Faktoren für die Leistungssteigerung sind. SIRIUS zeigt auch in Actor-Critic- und kompetitiven Umgebungen eine hervorragende Leistung und übertrifft andere Methoden bei Aufgaben wie PubMedQA und Ressourcenaustauschspielen.

Zusammenfassend lässt sich sagen, dass SIRIUS ein Framework ist, das darauf abzielt, Multi-Agenten-Systeme durch das Lernen erfolgreicher Interaktionen und die Verbesserung von Fehlern zu optimieren. Es erstellt eine Erfahrungsdatenbank mit hochwertigen Inferenzschritten als Trainingssatz für die Systemoptimierung und erweitert diese durch die Erweiterung erfolgloser Pfade. Dieses Framework verbessert die Inferenz-, biomedizinische Frage-Antwort- und Agentenverhandlungsfähigkeit deutlich und fördert die kontinuierliche Selbstverbesserung der Multi-Agenten-Zusammenarbeit.

Paper: https://arxiv.org/pdf/2502.04780

Highlights:

🌟 Das SIRIUS-Framework optimiert die Leistung von Multi-Agenten-Systemen durch Selbstverbesserung und das Lernen aus erfolgreichen Erfahrungen.

📈 Studien zeigen, dass SIRIUS die Leistung bei Inferenz- und biomedizinischen Frage-Antwort-Aufgaben um 2,86 % bis 21,88 % verbessert.

🤝 Die Interaktion zwischen mehreren Agenten und der Aufbau einer Erfahrungsdatenbank sind der Kern des SIRIUS-Optimierungsprozesses und unterstützen die Agenten bei der effizienteren Zusammenarbeit bei komplexen Aufgaben.