Die Anthropic API bietet jetzt eine Prompt-Caching-Funktion. Entwickler können nun häufig verwendete Kontextinformationen zwischen API-Aufrufen zwischenspeichern. Durch das Prompt-Caching können Kunden dem Claude-Modell mehr Hintergrundwissen und Beispielausgaben liefern und gleichzeitig die Kosten für lange Prompts deutlich senken – um bis zu 90 % – und die Latenz um bis zu 85 % reduzieren.

Diese Funktion ist derzeit in der öffentlichen Beta-Version von Claude 3.5 Sonnet und Claude 3 Haiku verfügbar und wird zukünftig auch Claude 3 Opus unterstützen.

QQ截图20240815093542.png

Die Prompt-Caching-Funktion eignet sich besonders für folgende Szenarien: Wenn in mehreren Anfragen immer wieder umfangreiche Prompt-Kontexte referenziert werden müssen, z. B. um die Kosten und Latenz bei langen Dialogen in Dialogagenten zu reduzieren, insbesondere bei komplexen Anweisungen oder hochgeladenen Dokumenten; Coding-Assistenten können die Autovervollständigung und die Codebasis-Fragen und Antworten verbessern, indem sie eine Zusammenfassung der Codebasis im Prompt behalten; bei der Verarbeitung großer Dokumente kann das Prompt-Caching umfangreiche Texte einbetten, ohne die Antwortzeit zu verlängern; außerdem verbessert das Prompt-Caching die Leistung deutlich bei Agenten-Suchen und der Verwendung von Tools, die mehrstufige Tool-Aufrufe und iterative Änderungen beinhalten.

QQ截图20240815093549.png

Die Preisgestaltung für das Prompt-Caching hängt von der Anzahl der zwischengespeicherten Eingabe-Tokens und der Häufigkeit der Nutzung ab. Das Schreiben in den Cache kostet 25 % mehr als der Preis für grundlegende Eingabe-Tokens, während die Nutzung des Cache-Inhalts deutlich günstiger ist und nur 10 % des Preises für grundlegende Eingabe-Tokens beträgt.

Notion, ein Kunde der Anthropic API, hat die Prompt-Caching-Funktion bereits in seinen KI-Assistenten Notion AI integriert. Durch die Senkung der Kosten und die Erhöhung der Geschwindigkeit hat Notion seine internen Abläufe optimiert und bietet seinen Nutzern ein fortschrittlicheres und schnelleres Erlebnis.