Claudeによる人間のようなコンピューター操作、研究で長所と短所が明らかに

Anthropicが10月にClaudeの「コンピュータ使用」機能を発表して以来、AIエージェントの可能性が広く注目されています。この機能により、Claudeは人間と同じグラフィカルユーザーインターフェース（GUI）を介して操作できる最初の最先端モデルとなりました。

Claudeはデスクトップのスクリーンショットにアクセスし、キーボードとマウスを使ってタスクを実行することで、APIを介さずに操作を自動化できる便利な方法を提供します。

シンガポール国立大学Show Labによる研究では、研究者たちはウェブ検索、ワークフローの完了、オフィス生産性、ビデオゲームなど、さまざまなタスクについてClaudeをテストしました。これらのタスクは、ウェブサイトで商品を検索して購入したり、ウェブサイトから情報を抽出してスプレッドシートに挿入したりするなど、さまざまな状況におけるClaudeの能力を評価するものでした。研究者たちは、計画、行動、評価の3つの側面からClaudeのパフォーマンスを評価しました。

複雑なタスクの実行において、Claudeは印象的なパフォーマンスを示しました。明確な計画を立て、段階的に実行し、各段階で自分の進捗状況を評価することができました。さらに、情報をウェブサイトからスプレッドシートにコピーするなど、複数のアプリケーション間で連携することもできました。場合によっては、Claudeはタスクの終了時に結果を振り返り、すべてが目標と一致していることを確認することさえありました。

しかし、Claudeは単純なミスも犯しました。これらのエラーは、一般的なユーザーであれば簡単に回避できるものです。例えば、あるタスクでは、ウェブページを下にスクロールして該当するボタンを見つけることができなかったため、購読を完了できませんでした。

また、テキストの選択と置換、箇条書きの番号への変更など、明白なタスクの実行においても、非常にぎこちない動きをすることがありました。さらに、Claudeは自分の間違いに気づかなかったり、目標を達成できなかった理由について誤った仮定を立てたりすることもありました。

研究者たちは、これらのミスはClaudeの自己評価メカニズムの不足が原因である可能性があると指摘し、より厳格な自己評価モジュールを追加するために、GUIエージェントフレームワークの改善が必要になる可能性があると述べています。研究結果によると、既存のGUIエージェントは、人間がコンピュータを使用する際の基本的な微妙な違いを完全に再現することはできないことが示されています。

企業にとって、単純なテキストの説明でタスクの自動化を行う可能性は非常に魅力的ですが、現時点ではこの技術は大規模なアプリケーションに適用できるほどの成熟度には達していません。モデルの動作は不安定であり、重要なアプリケーションにおいて予期せぬ結果につながる可能性があります。また、人間が設計したインターフェースを使用して操作を行うことは、タスクを完了する最速の方法ではありません。

大規模な展開の前に、企業は、大規模言語モデル（LLM）にマウスとキーボードの権限を与えることによるセキュリティリスクにも注意する必要があります。例えば、研究によると、ウェブエージェントは、人間が簡単に無視できる敵対的な攻撃を受けやすいことが示されています。それにもかかわらず、Claudeのようなツールは、製品チームがアイデアを探求し、ソリューションを反復することで、新しい機能やサービスを開発する前に時間とコストを節約するのに役立ちます。

要点：
1. 🤖 Claudeは、グラフィカルユーザーインターフェースを介して複雑なタスクを自動化できる能力を備えており、優れたパフォーマンスを示します。
2. ⚠️ Claudeは単純なタスクの実行時にミスを犯すことがあり、その自己評価メカニズムの不足を反映しています。
3. 💼 現時点では、この技術は大規模なアプリケーションには適しておらず、企業は潜在的なセキュリティリスクに注意する必要があります。