Kunlun Wanwei hat gemeinsam mit dem Beijing Zhiyuan Artificial Intelligence Research Institute, der Nanyang Technological University in Singapur und der Peking-Universität ein universelles Computerkontroll-Framework namens Cradle veröffentlicht. Dieses KI-Framework ermöglicht es intelligenten Agenten (AI Agents), ohne spezielle Schulung direkt wie ein Mensch Tastatur und Maus zu bedienen und mit beliebiger Open-Source- und proprietärer Software zu interagieren, ohne auf interne APIs angewiesen zu sein. Cradle ist das erste KI-Framework, das gleichzeitig verschiedene kommerzielle Spiele spielen und verschiedene Softwareanwendungen bedienen kann. Die Forschungsarbeit, das Projekt und der Code wurden Open Source veröffentlicht.

Cradle zeigt seine außergewöhnlichen Fähigkeiten in verschiedenen Spielen, darunter die Erledigung einer 40-minütigen Hauptmission in „Red Dead Redemption 2“, das Säubern der Farm und Einkaufen in „Stardew Valley“, der Bau einer Kleinstadt mit tausend Einwohnern in „Cities: Skylines“, das Feilschen mit Kunden in „Pawn Shop Life 2“ und die Anwendung in alltäglichen Programmen wie Chrome, Outlook und Feishu. Es kann auch Bilder bearbeiten und Videos schneiden und fungiert somit als vielseitiger AI Agent.

微信截图_20240704142116.png

Cradle besteht aus sechs Modulen: Informationsbeschaffung, Selbstreflexion, Aufgabeninferenz, Fähigkeitenmanagement, Handlungsplanung und Gedächtnis. Durch die sinnvolle Kapselung und Abstraktion der ursprünglichen Ein- und Ausgaben wird die Interaktion mit dem Computer ermöglicht. Es verwendet das auf dem Bildschirm angezeigte Videobild als Eingabe, extrahiert Text- und visuelle Informationen zur Entscheidungsfindung und gibt Signale zur Steuerung von Tastatur und Maus aus. Das Entscheidungsfindungsmodul von Cradle kann spontan mit Software interagieren und Aufgaben erledigen, indem es vergangene Erfahrungen reflektiert, die Gegenwart zusammenfasst und die Zukunft plant.

Darüber hinaus beweist die Leistung von Cradle in Spielen und Softwareanwendungen seine Universalität. Es kann komplexe Aufgaben in Spielen mit unterschiedlichen Stilen und Bedienungsweisen erledigen und verschiedene Aufgaben in gängigen Programmen ausführen, wie z. B. das Herunterladen von Artikeln, das Senden von E-Mails, das Bearbeiten von Bildern und das Schneiden von Videos. Cradle hat auch den anspruchsvollen Benchmark OSWorld geschlagen, indem es die Baseline-Methode mit Ground-Truth-Labels übertraf.

Die Veröffentlichung von Cradle eröffnet neue Möglichkeiten für den Aufbau universeller Computerkontroll-Agenten (GCC Agents), fördert die Entwicklung einheitlicher Ein- und Ausgabe-Schnittstellen und legt den Grundstein für die zukünftige Interaktion und Selbstverbesserung von Agenten in verschiedenen Umgebungen. Es ist ein wichtiger Schritt auf dem Weg zur Erreichung einer Allgemeinen Künstlichen Intelligenz (AGI).

Projektseite:https://baai-agents.github.io/Cradle

Code-Link:https://github.com/BAAI-Agents/Cradle