Das Zhihu-Technikteam hat kürzlich ein neues Produkt auf Basis der Forschungsergebnisse des GLM-Teams vorgestellt: AutoGLM. Dies ist ein intelligenter Agent (Agent), der die Bedienung eines Smartphones simulieren und verschiedene Aufgaben ausführen kann. Die Einführung von AutoGLM markiert einen Fortschritt der künstlichen Intelligenz im Bereich der „Smartphone-Nutzung“ und bringt KI-Anwendungen näher an den Alltag der Menschen.
AutoGLM kann verschiedene Aufgaben ausführen, wie z. B. das Liken und Kommentieren von Freunden-Posts auf WeChat, den Kauf von Artikeln aus dem bisherigen Bestellverlauf auf Taobao, die Hotelbuchung auf Ctrip, den Kauf von Bahntickets auf 12306 und die Bestellung von Essen über Meituan. Die Anwendungsszenarien sind jedoch nicht darauf beschränkt. Theoretisch kann AutoGLM alles erledigen, was ein Mensch auf einem visuellen elektronischen Gerät tun kann. Die Bedienlogik ähnelt der eines Menschen und erfordert keinen komplexen Workflow.
Derzeit können Benutzer AutoGLM-Web über das Plugin „Zhihu Qingyan“ testen. Dies ist ein Browser-Assistent, der den Besuch von Webseiten, das Klicken auf Webseiten und die automatische Durchführung von erweiterten Suchen, Zusammenfassungen und Inhaltsgenerierungen auf Webseiten simulieren kann. Darüber hinaus ist die Beta-Anmeldung für AutoGLM auf Android-Systemen geöffnet, und es wird eine enge Zusammenarbeit mit Smartphone-Herstellern wie Honor betrieben.
Die Technologie von AutoGLM basiert auf der von Zhihu selbst entwickelten „Entkoppelten Zwischenoberfläche für Basis-Intelligente Agenten“ und dem „Selbstlernenden Online-Kurs-Verstärkungslern-Framework“. Dies löst Probleme wie den Kompetenzkonflikt bei der Aufgabenplanung und -ausführung von großen Sprachmodellen, den Mangel an Trainingsaufgaben und -daten, die Knappheit von Feedbacksignalen und die Drift der Strategieverteilung. AutoGLM kann sich kontinuierlich selbst verbessern und seine Leistung stabil steigern, ähnlich wie Menschen im Laufe ihres Lebens ständig neue Fähigkeiten erlernen.
In Bezug auf die technischen Herausforderungen hat AutoGLM die Probleme der ungenauen „Aktionsausführung“ und der unflexiblen „Aufgabenplanung“ gelöst. Durch das Design der „Entkoppelten Zwischenoberfläche für Basis-Intelligente Agenten“ werden die Phasen „Aufgabenplanung“ und „Aktionsausführung“ über eine natürliche Sprachschnittstelle entkoppelt, was zu einer erheblichen Verbesserung der Fähigkeiten des intelligenten Agenten führt. Gleichzeitig verwendet AutoGLM ein „Selbstlernendes Online-Kurs-Verstärkungslern-Framework“, um die Fähigkeiten großer Sprachmodelle in Web- und Smartphone-Umgebungen in realen Online-Umgebungen zu lernen und zu verbessern.
AutoGLM hat sowohl bei der Smartphone-Nutzung als auch bei der Webbrowser-Nutzung eine deutliche Leistungssteigerung erzielt und im AndroidLab-Benchmark die Leistung von GPT-4o und Claude-3.5-Sonnet übertroffen. Im WebArena-Lite-Benchmark erzielte AutoGLM im Vergleich zu GPT-4o eine Leistungssteigerung von etwa 200 % und verringerte die Erfolgsratenlücke zwischen Menschen und großen Sprachmodellen bei der GUI-Steuerung.
Projekt-Adresse:https://xiao9905.github.io/AutoGLM