智譜テクノロジーチームは最近、GLMテクノロジーチームの研究成果に基づいた新製品「AutoGLM」を発表しました。これは、人間のスマートフォン操作を模倣し、様々なタスクを実行できるインテリジェントエージェント(Agent)です。AutoGLMの登場は、「Phone Use」分野における人工知能の進歩を象徴し、AIの応用が人々の日常生活により密着することを意味します。

微信截图_20241026150533.png

AutoGLMは、微信での朋友圈へのいいねとコメント、淘宝での過去の注文商品の購入、携程でのホテル予約、12306での鉄道チケット購入、美团でのフードデリバリー注文など、多様なタスクを実行できます。その応用範囲はこれらに限定されず、理論上は、人間が視覚的な電子機器でできることは何でも実行可能です。操作ロジックは人間と似ており、複雑なワークフローの構築は不要です。

現在、ユーザーは「智譜清言」プラグインをインストールすることでAutoGLM-Webを体験できます。これはブラウザアシスタントであり、ユーザーのウェブページへのアクセス、クリックを模倣し、ウェブサイト上で高度な検索、要約、コンテンツ生成を自動的に実行します。さらに、AutoGLMはAndroidシステムでも内測申請を受け付けており、荣耀などの携帯電話メーカーと深く連携しています。

微信截图_20241026150714.png

AutoGLMの技術は、智譜独自の「基礎インテリジェントエージェント解結合中間インターフェース」と「自己進化オンラインコース強化学習フレームワーク」に基づいており、大規模モデルインテリジェントエージェントのタスク計画とアクション実行における能力のアンバランス、トレーニングタスクとデータの不足、フィードバック信号の不足、戦略分布のドリフトなどの問題を解決しました。AutoGLMは自己改善を続け、継続的に安定して性能を向上させることができ、まるで人が成長過程で新しいスキルを習得するようなものです。

技術的な課題として、AutoGLMは「アクション実行」の精度不足と「タスク計画」の柔軟性不足の問題を解決しました。「基礎インテリジェントエージェント解結合中間インターフェース」設計により、「タスク計画」と「アクション実行」の2つの段階を自然言語中間インターフェースで解結合し、インテリジェントエージェントの能力を大幅に向上させました。同時に、AutoGLMは「自己進化オンラインコース強化学習フレームワーク」を採用し、実際のオンライン環境で学習し、大規模モデルインテリジェントエージェントのWebとPhone環境における能力を向上させています。

AutoGLMはPhone UseとWeb Browser Useの両方で顕著な性能向上を実現し、AndroidLab評価基準ではGPT-4oとClaude-3.5-Sonnetを上回りました。WebArena-Lite評価基準では、GPT-4oと比較して約200%の性能向上を実現し、人間と大規模モデルインテリジェントエージェントのGUI操作における成功率の差を縮小しました。

プロジェクトアドレス:https://xiao9905.github.io/AutoGLM