Seit der Einführung der „Computer-Nutzung“-Funktion von Claudes durch Anthropic im Oktober hat die Fähigkeit des KI-Agenten große Aufmerksamkeit erregt. Diese Funktion macht Claude zum ersten Spitzenmodell, das über dieselbe grafische Benutzeroberfläche (GUI) wie ein Mensch interagieren kann.

Claude erledigt Aufgaben, indem es auf Desktop-Screenshots zugreift und Maus und Tastatur bedient. Dies bietet Benutzern eine bequeme Möglichkeit zur Automatisierung ohne API-Schnittstelle.

image.png

In einer Studie des Show Lab der National University of Singapore testeten Forscher Claude bei verschiedenen Aufgaben, darunter Websuchen, Workflow-Abschluss, Büroproduktivität und Videospiele. Diese Aufgaben prüften Claudes Fähigkeiten in verschiedenen Szenarien, z. B. das Suchen und Kaufen von Waren im Internet oder das Extrahieren von Informationen von Websites und Einfügen in Tabellenkalkulationen. Die Forscher bewerteten Claudes Leistung anhand dreier Dimensionen: Planung, Handlung und Bewertung.

Bei komplexen Aufgaben zeigte Claude eine beeindruckende Leistung. Es konnte klare Pläne erstellen, diese schrittweise ausführen und in jedem Schritt seinen Fortschritt bewerten. Darüber hinaus konnte es die Koordination zwischen mehreren Anwendungen durchführen, z. B. das Kopieren von Informationen von einer Webseite in eine Tabellenkalkulation. In einigen Fällen konnte Claude am Ende einer Aufgabe die Ergebnisse überprüfen, um sicherzustellen, dass alles mit dem Ziel übereinstimmt.

Claude machte jedoch auch einfache Fehler, die ein normaler Benutzer leicht vermeiden könnte. In einer Aufgabe konnte es beispielsweise kein Abonnement abschließen, weil es nicht nach unten scrollte, um den entsprechenden Button zu finden.

In anderen Fällen war es bei offensichtlichen Aufgaben wie dem Auswählen und Ersetzen von Text oder dem Ändern von Aufzählungszeichen in Nummern sehr ungeschickt. Außerdem erkannte Claude seine Fehler manchmal nicht oder machte falsche Annahmen über die Gründe für das Nichterreichen des Ziels.

Die Forscher weisen darauf hin, dass die Schwächen in Claudes Selbstbewertungsmechanismus die Ursache für diese Fehler sein könnten. Zukünftig könnte es notwendig sein, das GUI-Agenten-Framework zu verbessern, um strengere Selbstbewertungsmodule hinzuzufügen. Die Ergebnisse zeigen auch, dass bestehende GUI-Agenten die grundlegenden Feinheiten der menschlichen Computerbedienung nicht vollständig replizieren können.

Für Unternehmen ist das Potenzial zur Automatisierung von Aufgaben mithilfe einfacher Textbeschreibungen sehr verlockend, aber die Technologie ist noch nicht ausgereift genug für den großflächigen Einsatz. Das Verhalten des Modells ist instabil und kann zu unvorhersehbaren Folgen in sensiblen Anwendungen führen. Die Ausführung von Aktionen über eine vom Menschen gestaltete Benutzeroberfläche ist auch nicht die schnellste Methode, um Aufgaben zu erledigen.

Vor einem breiten Einsatz müssen Unternehmen auch die Sicherheitsrisiken berücksichtigen, die mit der Berechtigung von großen Sprachmodellen (LLMs) zum Steuern von Maus und Tastatur verbunden sind. Studien haben beispielsweise gezeigt, dass Netzwerkagenten anfällig für gegnerische Angriffe sind, die ein Mensch leicht übersehen könnte. Dennoch können Tools wie Claude Produktteams helfen, kreative Ideen zu erkunden und Lösungen zu iterieren, wodurch Zeit und Kosten bei der Entwicklung neuer Funktionen oder Dienste gespart werden können.

Wichtigste Punkte:

1. 🤖 Claude kann komplexe Aufgaben über eine grafische Benutzeroberfläche automatisieren und zeigt dabei eine hervorragende Leistung.

2. ⚠️ Claude macht Fehler bei einfachen Aufgaben, was auf Schwächen in seinem Selbstbewertungsmechanismus hinweist.

3. 💼 Derzeit ist die Technologie nicht für den großflächigen Einsatz geeignet. Unternehmen sollten die potenziellen Sicherheitsrisiken sorgfältig abwägen.