Baichuan Intelligence hat in Zusammenarbeit mit der Tianjin University das intelligente Agenten-Framework „Sibyl System“ entwickelt und auf dem GAIA Leader Board den ersten Platz belegt. GAIA ist ein im November 2023 von Meta, Huggingface und AutoGPT vorgestelltes, neues Bewertungssystem, das hauptsächlich die Fähigkeiten und Lösungsansätze von Agenten bei der Ausführung komplexer Aufgaben bewertet. Dieses Bewertungssystem deckt die Mängel bestehender Modelle auf und bietet Verbesserungsrichtungen für die Entwicklung von Modellen und Agenten.
Die Testaufgaben von GAIA ähneln realen Situationen und erfordern von der KI Fähigkeiten wie Schlussfolgern, multimodales Verständnis (Text, Bilder, Audio/Video), Webbrowser-Nutzung und den Einsatz von Werkzeugen. Diese Aufgaben sind für Menschen leicht verständlich, stellen aber für Modelle eine große Herausforderung dar. Beispielsweise lag die Erfolgsquote von GPT-4 bei den Tests nur bei 15 %, während menschliche Testpersonen eine Erfolgsquote von 92 % erreichten. Das Lösen dieser Aufgaben erfordert in der Regel lange logische Ketten und Zeitaufwand und umfasst mehrere Schritte und Werkzeuge.
Die „Sibyl System“-Framework-Designmerkmale umfassen:
Eine menschenähnliche Browseroberfläche ersetzt die Suchverbesserung und -generierung.
Fragen und Antworten ersetzen Dialoge. Es werden zustandslose Frage-Antwort-Funktionen verwendet, um die Systemarchitektur zu vereinfachen.
Es werden nur Webbrowser und Python-Umgebung als allgemeine Werkzeuge verwendet, um die Abhängigkeit von speziellen Werkzeugen zu reduzieren.
Von System 1 zu System 2 wird ein „Jury“-Mechanismus eingeführt. Durch Debatten mehrerer Agenten wird Selbstkritik und -korrektur ermöglicht. Die Informationen im globalen Arbeitsbereich werden genutzt, um die Genauigkeit der Antworten zu verbessern.
Sibyl System ist ein einfach strukturiertes, aber leistungsstarkes Agenten-Framework auf Basis großer Sprachmodelle, das komplexe Inferenzprobleme mit wenigen Werkzeugen lösen kann. Durch die Einführung eines Global Workspace und eines Multi-Agenten-Mechanismus sowie eines browserbasierten, universellen Informationszugangs wird die Systemkomplexität reduziert und gleichzeitig die Komplexität der Problemlösung erweitert. Dies ermöglicht einen Übergang des Modells vom „schnellen Denken“ zum „langsamen Denken“. Sibyl System zeichnet sich außerdem durch gute Skalierbarkeit und einfache Fehlerbehebung aus. Agentenmodule anderer Modelle können problemlos ausgetauscht werden, um die Fähigkeiten des Modells zu verbessern.
Technischer Bericht:https://arxiv.org/pdf/2407.10718