AI分野をリードする企業OpenAIは最近、「エージェント構築の実践ガイド」(「A practical guide to building agents」)と題する実用的なドキュメントを発表しました。この全34ページのガイドは、製品およびエンジニアリングチームが最初のエージェントシステムを構築するために必要な知識とベストプラクティスを提供することを目的としており、OpenAIが多数の顧客の実際の導入事例から得た深い洞察を凝縮したものです。

このガイドを読むことで、開発者はエージェントの中核概念を理解し、いつ、どのようにエージェントを設計、構築、安全に展開するかを習得できます。

QQ_1744946969203.png

エージェントとは何か?

ガイドはまずエージェントを明確に定義し、従来のソフトウェアとの自動化ワークフローにおける根本的な違いを強調しています。従来のソフトウェアは、ユーザーが開始したワークフローを簡素化および自動化することを目的としていますが、エージェントはユーザーに代わってワークフロー全体を高度に自律的に実行できます。ワークフローとは、顧客サービスの問題解決、レストランの予約、コード変更の提出、レポートの作成など、ユーザーの目標を達成するために実行する一連の手順として定義されます。しかし、大規模言語モデル(LLM)を統合したアプリケーションであっても、単純なチャットボットや感情分類器のようにLLMを使用してワークフローの実行を制御できない場合は、エージェントとは呼びません。真のエージェントは、LLMを使用してワークフローの実行を管理し、意思決定を行い、必要に応じて自らの行動を積極的に修正し、失敗した場合は実行を中止してユーザーに制御権を返却するなど、ユーザーの行動を信頼性と一貫性を持って代行できる中核的な特徴を備えています。さらに、エージェントは様々なツールを使用して外部システムと対話し、適切なツールを動的に選択し、明確に定義された安全柵内で動作します。

いつエージェントを構築すべきか?

ガイドでは、エージェントを構築するには、システムがどのように意思決定を行い、複雑さを処理するかを再考する必要があると指摘しています。従来の決定論的でルールベースの方法とは異なり、エージェントは、従来の方法では効果が期待できないワークフローに特に適しています。ガイドでは、支払い詐欺分析の例を用いて鮮やかな対比を示しています。従来のルールエンジンはチェックリストのようなもので、事前に設定された基準に基づいて取引をマークしますが、LLMエージェントは経験豊富な調査官のようなもので、文脈を評価し、微妙なパターンを考慮することで、明確なルールがない場合でも疑わしい活動を識別できます。したがって、エージェントの価値を評価する際には、過去に自動化が困難だったワークフロー、特に以下の3つのシナリオを優先的に検討する必要があります。

  • 複雑な意思決定:顧客サービスにおける払い戻しの承認など、綿密な判断、例外状況、またはコンテキストに依存した意思決定を伴うワークフロー。
  • 保守が困難なルール:膨大で複雑なルールセットのために保守が困難になり、更新コストが高く、またはエラーが発生しやすいシステム(サプライヤーのセキュリティレビューの実行など)。
  • 非構造化データへの依存度が高い:自然言語の解釈、文書からの意味の抽出、または対話形式でのユーザーとのやり取りを伴うシナリオ(住宅保険の請求処理など)。

ガイドでは、エージェントの構築を決定する前に、ユースケースがこれらの基準に明確に合致していることを検証する必要があることを強調しており、そうでない場合は、決定論的なソリューションで十分な場合があります。

エージェント設計の基礎

ガイドでは、エージェントを構築する3つの主要な構成要素について詳しく説明しています。

  • モデル(LLM):エージェントの推論と意思決定を駆動します。ガイドでは、プロトタイプ段階では最も高性能なモデルを使用してベンチマークを確立し、その後、コストと遅延を最適化するためにより小さなモデルを試すことを推奨しています。
  • ツール:エージェントが操作を実行するために使用できる外部関数またはAPIです。ツールは、基盤となるアプリケーションまたはシステムのAPIを通じてエージェントの機能を拡張します。APIのないレガシーシステムの場合、エージェントはコンピューターを使用して、モデルがWebやアプリケーションのUIと直接対話できるようにします。ガイドでは、ツールをデータ検索(データベースのクエリ、PDFファイルの読み取り、Web検索など)、操作の実行(メールの送信、CRMレコードの更新など)、オーケストレーション(エージェント自体が他のエージェントのツールとして機能できる)の3つのカテゴリに大別しています。
  • 指示:エージェントの行動を定義する明確なガイドラインと安全柵です。高品質の指示はエージェントにとって非常に重要であり、曖昧さを減らし、意思決定の質を向上させることができます。ガイドでは、既存のドキュメントの活用、タスクをより小さなステップに分解すること、明確な行動の定義、およびエッジケースのキャプチャなどのベストプラクティスを提供しています。

ガイドでは、オーケストレーションの概念についても簡単に説明しています。これは、ワークフローを効果的に実行するために基本コンポーネントを組み合わせることを指します。オーケストレーションモデルは、主に単一エージェントシステム(単一のエージェントがツールと指示を使用してループ内でワークフローを実行する)と複数エージェントシステム(ワークフローの実行が複数の調整されたエージェントに分散される)に分類されます。複数エージェントシステムはさらに、管理モード(中央の「管理」エージェントがツール呼び出しを通じて複数の専門エージェントを調整する)と分散モード(複数のエージェントがピアとして動作し、専門分野に応じて互いにタスクを引き継ぐ)に分類されます。

安全柵

ガイドでは、データプライバシーリスクと評判リスクの管理における安全柵の重要性を特に強調しています。開発者は、特定されたリスクに対して安全柵を設定し、新しい脆弱性の発見に伴い追加の安全柵を追加する必要があります。安全柵は、強力な認証と承認プロトコル、厳格なアクセス制御、標準的なソフトウェアセキュリティ対策と組み合わせることで、多層防御メカニズムを形成する必要があります。ガイドでは、関連性分類器(応答が期待範囲内にあることを確認する)、セキュリティ分類器(安全でない入力を検出する)、PIIフィルター(個人識別情報の公開を防ぐ)、監査(エージェントの行動を記録する)、ツールセキュリティ対策(ツールのリスクを評価および制御する)、ルールベースの保護(ブラックリスト、入力長の制限など)、出力検証(応答がブランド価値に合致することを確認する)など、さまざまな種類の安全柵が挙げられています。ガイドでは、Agents SDKで安全柵を設定する方法についても説明し、特に初期展開段階では、障害やエッジケースを特定するための人的介入の重要性を強調しています。

まとめとリソースリンク

ガイドは最後に、エージェントはワークフロー自動化分野における新たな時代を象徴しており、曖昧さを推論し、ツールを跨いで操作を実行し、複数ステップのタスクを処理できる高度な自律性を備えていると結論付けています。信頼性の高いエージェントを構築する鍵は、強力な基盤(モデル、ツール、指示)、適切なオーケストレーションモデル、および重要な安全柵です。ガイドでは、小さなことから始めて、実際のユーザーとの検証を通じてエージェントの機能を段階的に拡張することを推奨しています。最後に、ガイドでは、OpenAI APIプラットフォーム、OpenAI for Business、開発者向けドキュメントなど、より多くのリソースへのリンクを提供しています。

OpenAIの「エージェント構築の実践ガイド」は、エージェントシステムの探求と構築を希望するチームに包括的なガイダンスと実用的なアドバイスを提供しており、さまざまな業界がよりスマートで自動化された未来に向けて加速することを示唆しています。

ドキュメントリソースリンク:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf