OpenAI hat kürzlich heimlich einen „Praktischen Leitfaden zum Erstellen von Agents“ veröffentlicht – eine Art Handbuch zur Ausbildung von „AI-Arbeitern“! Heute zeige ich Ihnen auf unterhaltsame und leicht verständliche Weise, wie Sie dieses offizielle Geheimrezept knacken und Ihr eigenes AI-Agent erstellen können! Bereit? Los geht's!

image.png

Warten Sie, was genau ist ein Agent? Was unterscheidet ihn von normaler Software?

Zuerst klären wir das: Ein Agent ist nicht einfach eine App auf Ihrem Smartphone, die Befehle nacheinander ausführt, noch ein Chatbot, der nur einfache Gespräche führt. OpenAI definiert ihn wie folgt:

Ein Agent ist ein System, das selbstständig und in Ihrem Namen bestimmte Aufgaben erledigen kann.

Wichtig: Selbstständig!

Denken Sie an Ihre gewohnte Software, z. B. eine Ticketbuchungs-App. Sie müssen ihr Schritt für Schritt mitteilen, wohin, wann und welche Klasse Sie buchen möchten, bevor sie Ihnen ein Ergebnis liefert. Ein Agent hingegen? Sie könnten einfach sagen: „Buche mir bitte das günstigste Flugticket nach Peking nächste Woche, Fensterplatz, und schau dir auch gleich passende Hotels an.“ Dann sucht er selbstständig nach Flügen, vergleicht Preise, liest Bewertungen und schlägt Ihnen vielleicht sogar einige Optionen vor, bevor er die Sache erledigt!

image.png

Vereinfacht gesagt, ist ein Agent wie ein Super-Mitarbeiter, der mit einem „Gehirn“ (LLM, großes Sprachmodell), einem „Werkzeugkasten“ (Tools) und einer „Anleitung“ (Instructions) ausgestattet ist. Er kann:

Entscheidungen treffen (Leverages an LLM): Wie ein intelligenter Mensch analysiert er Situationen und entscheidet, was als nächstes zu tun ist. Er kann sogar erkennen, wenn er einen Fehler gemacht hat, und versucht, ihn zu korrigieren. Wenn er wirklich nicht weiterkommt, weiß er, dass er um Hilfe bitten (den Benutzer) muss.

Werkzeuge benutzen (Access to tools): Er kann sich mit der Außenwelt verbinden, z. B. im Internet nach Informationen suchen, Datenbanken abfragen, E-Mails senden oder andere Software-APIs verwenden. Und er ist intelligent genug, um zu wissen, wann welches Werkzeug zu verwenden ist.

Daher sind Anwendungen, die nur einfache Gespräche führen, Textklassifizierungen durchführen oder festgelegte Abläufe ausführen, streng genommen noch keine Agents! Agents sind die wahren „Problem-Löser“.

Wann ist ein Agent die richtige Wahl? „Keine Kanonen auf Spatzen!“

Obwohl Agents leistungsstark sind, sind sie nicht allmächtig. Wenn Sie ein Problem lösen möchten, das mit herkömmlichen Automatisierungstools oder ein paar Zeilen Code gelöst werden kann, ist es nicht notwendig, einen Agent zu erstellen. OpenAI empfiehlt, Agents nur bei folgenden „schwierigen“ Problemen einzusetzen, um alte Systeme zu übertreffen:

Komplexe Entscheidungsfindung (Complex decision-making): Zum Beispiel die Beurteilung der Berechtigung einer Rückerstattung im Kundenservice erfordert die Berücksichtigung verschiedener „weicher“ Informationen wie Benutzerhistorie, Produktinformationen und sogar den Tonfall des Benutzers. Traditionelle Regel-Engines sind bei solchen „Grauzonen“ überfordert, aber ein Agent kann wie ein erfahrener Manager die Vor- und Nachteile abwägen.

Schwierig zu wartende Regeln (Difficult-to-maintain rules): Einige ältere Systeme haben unzählige Regeln, und eine Änderung kann eine Reihe von Fehlern verursachen. Die Wartungskosten sind enorm. Beispielsweise die Durchführung von Sicherheitsüberprüfungen bei Lieferanten, bei denen die Regelbasis sehr umfangreich und komplex ist. Ein Agent kann Absichten flexibler verstehen und ausführen und so die „Regelhölle“ vermeiden.

Häufige Arbeit mit unstrukturierten Daten (Heavy reliance on unstructured data): Müssen Sie wichtige Informationen aus Vertragsdokumenten extrahieren? Müssen Sie Anweisungen in natürlicher Sprache verstehen? Müssen Sie mündliche Aufnahmen von Versicherungsansprüchen verarbeiten? Diese Aufgaben, die große Mengen an Text und Sprache umfassen, sind die Stärke von Agents.

Zusammenfassend lässt sich sagen: Wenn Sie der Meinung sind, dass Ihre vorhandenen Tools „nicht intelligent genug“, „nicht flexibel genug“ oder „zu starr“ sind, ist es an der Zeit, einen Agent einzusetzen!

Das „Dreigestirn“ des Agenten: Gehirn, Werkzeuge und Anleitung

Genug Theorie, kommen wir zur Praxis. Um einen Agent zu erstellen, benötigen Sie diese drei Kernkomponenten:

Modell (Model) - Das „Gehirn“ des Agenten:

Dies ist der Kern der Intelligenz des Agenten, in der Regel ein leistungsstarkes LLM (z. B. die GPT-Serie von OpenAI).

Welches Modell sollte man wählen? Das hängt von der Schwierigkeit der Aufgabe, den Geschwindigkeits- und Kostenanforderungen ab. OpenAI empfiehlt:

Beginnen Sie mit dem Besten: Verwenden Sie zunächst das leistungsstärkste Modell (z. B. GPT-4) für einen Prototyp, um die Leistungsbasis zu ermitteln.

Schrittweise Herabstufung: Versuchen Sie dann, ein kleineres, schnelleres und günstigeres Modell (z. B. GPT-3.5-Turbo oder zukünftig möglicherweise noch kleinere Modelle) zu verwenden, um zu sehen, ob die Ergebnisse noch akzeptabel sind.

Kombination: Sie können sogar in einem komplexen Prozess einfache Schritte mit einem kleinen Modell und wichtige Entscheidungen mit einem großen Modell durchführen, um „das Beste aus beiden Welten“ zu erreichen. Setzen Sie sich nicht von Anfang an selbst Grenzen!

Werkzeuge (Tools) - Die „Hände und Augen“ des Agenten:

Ein Gehirn allein reicht nicht aus, man muss auch arbeiten können. Werkzeuge sind die Brücke zwischen dem Agenten und der Außenwelt, in der Regel APIs oder andere Funktionen.

image.png

Werkzeuge lassen sich grob in drei Kategorien einteilen:

Daten (Data): Hilft dem Agenten, Informationen abzurufen, z. B. Datenbanken abzufragen, PDFs zu lesen oder im Web zu suchen.

Aktionen (Action): Hilft dem Agenten, Aktionen auszuführen, z. B. E-Mails zu senden, CRM-Einträge zu aktualisieren oder den Kundenservice zu benachrichtigen.

Orchestrierung (Orchestration): Das ist beeindruckend: Ein Agent kann einen anderen Agenten als „Werkzeug“ verwenden! Dazu später mehr.

Wichtig: Die Definition der Werkzeuge muss klar und standardisiert sein, die Dokumentation muss vollständig und die Tests müssen ausreichend sein. So vermeidet man, dass der Agent „die falschen Werkzeuge“ verwendet, und die Verwaltung und Wiederverwendung wird erleichtert.

Anweisungen (Instructions) - Die „Handlungsanweisung“ des Agenten:

Dies sind die Regeln und Arbeitsabläufe, die Sie dem Agenten vorgeben, um ihm mitzuteilen, „wer er ist“, „was er tun soll“, „wie er es tun soll“ und „was er tun soll, wenn Probleme auftreten“. Nur mit gut formulierten Anweisungen wird der Agent nicht vom Kurs abweichen.

Tipps für das Schreiben guter Anweisungen:

Verwenden Sie vorhandene Dokumente: Wandeln Sie vorhandene Betriebsanleitungen, Kundenservice-Skripte und Richtlinien in klare Anweisungen um, die der KI verständlich sind.

Aufgaben zerlegen: Zerlegen Sie komplexe Aufgaben in kleine, schrittweise Anweisungen, je genauer, desto besser.

Aktionen klar definieren: Jede Anweisung muss einer klaren Aktion entsprechen (z. B. „Bestellnummer des Benutzers abfragen“ oder „API zum Abrufen des Lagerbestands aufrufen“), um Mehrdeutigkeiten zu vermeiden.

Ausnahmen berücksichtigen: Planen Sie alle möglichen unerwarteten Situationen ein (z. B. unvollständige Informationen des Benutzers, ungewöhnliche Fragen) und teilen Sie dem Agenten mit, wie er diese behandeln soll, z. B. durch Ausweichen auf alternative Abläufe oder durch Anforderung von Hilfe.

Fortgeschrittene Anwendung: Sie können Modelle wie o1 oder o3-mini verwenden, um Ihre Dokumente automatisch in strukturierte Agentenanweisungen umzuwandeln! Ein Segen für Faule!

Die Kunst der Agentenführung: Einzelkämpfer oder Teamarbeit?

Sobald Sie die „drei Komponenten“ zusammengestellt haben, kann der Agent loslegen. Aber wie kann man ihn effizienter und komplexere Aufgaben bewältigen lassen? Hier kommt die Kunst der Orchestrierung ins Spiel. OpenAI beschreibt zwei gängige Modelle:

Einzel-Agent-Systeme (Single-agent systems):

Konzept: Ein Agent erledigt alles. Durch die ständige Erweiterung um neue Werkzeuge wird sein Fähigkeiten erweitert.

Vorteile: Einfache Struktur, einfach zu erlernen, einfache Wartung und Bewertung.

Geeignete Szenarien: Der Ausgangspunkt für die meisten Aufgaben. Zuerst sollte man das Potenzial eines einzelnen Agenten voll ausschöpfen.

Implementierung: In der Regel wird ein Agent mit einer Schleife (loop) ausgeführt, die ihn dazu bringt, ständig nachzudenken, Werkzeuge aufzurufen und Ergebnisse zu erhalten, bis die Beendigungsbedingungen erfüllt sind (z. B. Aufgabe abgeschlossen, manuelles Eingreifen erforderlich, maximale Anzahl von Schritten erreicht).

Fortgeschrittene Tipps: Bei komplexeren Aufgaben können „Prompt-Vorlagen“ + Variablen verwendet werden, um einen grundlegenden Agenten an verschiedene Szenarien anzupassen, anstatt für jedes Szenario eine separate Anweisung zu schreiben.

Mehr-Agenten-Systeme (Multi-agent systems):

Konzept: Wenn ein einzelner Agent nicht ausreicht (z. B. zu komplexe Logik, zu viele Werkzeuge, die leicht zu verwechseln sind), muss ein Agenten-Team gebildet werden.

Wann sollte man dies in Betracht ziehen?

Zu komplexe Logik (Complex logic): Wenn zu viele if-else-Verzweigungen in den Anweisungen vorhanden sind und die Vorlage zu unübersichtlich und schwer zu warten wird.

Werkzeugüberlastung (Tool overload): Eine große Anzahl von Werkzeugen ist kein Problem, wichtig ist, dass die Werkzeuge ähnliche Funktionen haben und leicht zu verwechseln sind. Wenn die Optimierung der Werkzeugbeschreibungen und Parameter nicht ausreicht, sollte eine Aufteilung in Betracht gezogen werden. (Erfahrung: Mehr als 10-15 klar definierte Werkzeuge sind in der Regel kein Problem, aber wenn die Werkzeuge vage definiert sind, können schon wenige Werkzeuge den Agenten verwirren).

Zwei gängige Kooperationsmodelle:

Manager-Modell (Manager Pattern - Agents as tools):

Analogie: Ein „Projektmanager“-Agent mit mehreren „Experten“-Agenten (z. B. „Übersetzungsagent“, „Forschungsagent“, „Schreibagent“). Der Manager ist für die Gesamtkoordination zuständig und erledigt komplexe Aufgaben durch den Aufruf von Experten-Agenten (die als Werkzeuge verwendet werden). Der Benutzer kommuniziert nur mit dem Manager.

Vorteile: Klare Steuerung des Ablaufs, einheitliches Benutzererlebnis.

Szenarien: Aufgaben, die eine zentrale Steuerung und Ergebnisintegration erfordern.

Dezentralisiertes Modell (Decentralized Pattern - agents handing off to agents):

Analogie: Wie eine Fabrikproduktionslinie oder eine Notaufnahme in einem Krankenhaus. Ein Agent erledigt seinen Teil und übergibt die Aufgabe an den nächsten spezialisierten Agenten. Die Kontrolle wird direkt übertragen.

Vorteile: Jeder Agent ist stärker fokussiert, flexible Struktur.

Szenarien: Gesprächsrouting, Aufgaben, die von verschiedenen Experten nacheinander bearbeitet werden müssen (z. B. Kundenservice-System, ein Triage-Agent bestimmt den Problemtyp und leitet ihn dann an einen „Bestell-Agenten“ oder „Technischen Support-Agenten“ weiter).

Vorteile des OpenAI SDK: Im Gegensatz zu einigen Frameworks, die die Erstellung von Ablaufdiagrammen erfordern, unterstützt das OpenAI Agents SDK eine flexiblere „Code-First“-Methode, mit der Sie komplexe Agentenzusammenarbeit mit Programmierlogik direkt ausdrücken können, was dynamischer und anpassungsfähiger ist.

Station 5: Dem Agenten „Sicherheitshelm“ und „Schutzschild“ verpassen – Sicherheitsvorkehrungen (Guardrails)

Die Leistungsfähigkeit von Agents ist positiv, aber wenn sie wie ein entfesseltes Pferd außer Kontrolle geraten, kann das problematisch sein! Zum Beispiel das Offenlegen Ihrer persönlichen Daten, das Aussprechen unangemessener Äußerungen oder die Manipulation durch böswillige Akteure (Prompt Injection). Daher sind Sicherheitsvorkehrungen unerlässlich!

Sicherheitsvorkehrungen sind wie mehrere „Sicherheitsnetze“ für den Agenten, um sicherzustellen, dass er sicher und zuverlässig innerhalb der kontrollierten Grenzen arbeitet. Übliche Sicherheitsvorkehrungen sind:

Relevanzklassifikator (Relevance classifier): Verhindert, dass der Agent irrelevante Fragen beantwortet (z. B. wenn Sie ihn bitten, eine Bestellung zu bearbeiten, aber er anfängt, über Klatsch und Tratsch zu reden).

Sicherheitsklassifikator (Safety classifier): Erkennt und blockiert böswillige Eingaben, z. B. „Jailbreak“-Prompts, die versuchen, Systembefehle zu extrahieren.

PII-Filter (PII filter): Verhindert, dass der Agent Inhalte ausgibt, die personenbezogene Daten (wie Name, Telefonnummer, Adresse) enthalten.

Inhaltsprüfung (Moderation): Filtert Hassreden, Belästigungen und Gewalt.

Werkzeug-Sicherheitsvorkehrungen (Tool safeguards): Bewertet das Risikopotenzial jedes Werkzeugs (z. B. schreibgeschützt vs. schreibbar, Umkehrbarkeit, finanzielle Auswirkungen). Hochrisikoaktionen erfordern möglicherweise eine zusätzliche Bestätigung oder manuelle Genehmigung.

Regelbasierte Schutzmaßnahmen (Rules-based protections): Einfach und effektiv, z. B. Blacklist, Eingabelängenbeschränkungen, reguläre Ausdrücke zur Filterung von SQL-Injection.

Ausgabeprüfung (Output validation): Überprüft, ob die Antworten des Agenten dem Markenimage und den Werten entsprechen, um „peinliche“ Äußerungen zu vermeiden.

Strategien zum Aufbau von Sicherheitsvorkehrungen:

Fundament legen: Priorisieren Sie den Datenschutz und die Datensicherheit.

Schadensbegrenzung: Fügen Sie im Laufe der Zeit neue Sicherheitsvorkehrungen hinzu, basierend auf aufgetretenen Problemen und Fehlern.

Kontinuierliche Optimierung: Finden Sie einen Ausgleich zwischen Sicherheit und Benutzererfahrung und passen Sie die Sicherheitsstrategie an die Entwicklung des Agenten an.

Denken Sie an „Plan B“: Manuelles Eingreifen (Human Intervention)

Selbst mit Sicherheitsvorkehrungen kann es vorkommen, dass der Agent an seine Grenzen stößt. In diesem Fall ist ein eleganter „Hilferuf“-Mechanismus wichtig. In folgenden Fällen sollte ein manuelles Eingreifen erfolgen:

Wiederholte Fehler (Exceeding failure thresholds): Der Agent kann die Absicht des Benutzers oder die Aufgabe trotz mehrerer Versuche nicht verstehen oder erledigen.

Hochrisikoaktionen (High-risk actions): Bei sensiblen, irreversiblen oder wichtigen Aktionen (z. B. Stornierung von Bestellungen, hohe Rückerstattungen, Zahlungen), insbesondere wenn die Zuverlässigkeit des Agenten noch nicht hoch genug ist, ist eine manuelle Bestätigung erforderlich.

Dies ist nicht nur eine Sicherheitsmaßnahme, sondern auch ein wichtiger Schritt zur Erfassung von Feedback und zur Verbesserung des Agenten.

Von 0 auf 1: Ihr erster Agent ist auf dem Weg!

Puh! Ich habe viel erzählt, aber haben Sie jetzt ein ganz neues Verständnis für Agents?

Die Kernaussage des OpenAI-Leitfadens ist eigentlich ganz einfach:

Agents repräsentieren eine neue Ära der Automatisierung: Sie können mit Mehrdeutigkeiten umgehen, Werkzeuge aufrufen und komplexe Aufgaben selbstständig erledigen.

Eine solide Grundlage ist entscheidend: Leistungsstarkes Modell + Klare Werkzeuge + Klare Anweisungen = Zuverlässiger Agent.

Wählen Sie das richtige Orchestrierungsmodell: Beginnen Sie mit einem Einzel-Agenten und entwickeln Sie ihn nach Bedarf zu einer Mehr-Agenten-Zusammenarbeit weiter.

Sicherheit geht vor, Sicherheitsvorkehrungen zuerst: Von der Eingangsfilterung bis zum manuellen Eingreifen, mehrere Sicherheitsebenen, um Sicherheit und Kontrolle zu gewährleisten.

Schnell vorankommen, kontinuierlich iterieren: Versuchen Sie nicht, alles auf einmal zu erreichen, sondern beginnen Sie mit einfachen Szenarien, überprüfen Sie, lernen Sie und verbessern Sie sich.

Die Entwicklung eines Agenten ist nicht unerreichbar. Mit diesem Leitfaden, etwas Forschergeist und Praxis können Sie einen KI-Partner erstellen, der Ihnen die Arbeit erleichtert.