L'API Anthropic a récemment introduit une fonctionnalité de mise en cache des invites, permettant désormais aux développeurs de mettre en cache des informations contextuelles fréquemment utilisées entre les appels API. Grâce à la mise en cache des invites, les clients peuvent fournir au modèle Claude davantage de connaissances contextuelles et d'exemples de sorties, tout en réduisant considérablement les coûts liés aux invites longues, jusqu'à 90%, et en diminuant la latence jusqu'à 85%.
Cette fonctionnalité est actuellement disponible en version bêta publique pour Claude 3.5 Sonnet et Claude 3 Haiku, et sera prochainement étendue à Claude 3 Opus.
La mise en cache des invites est particulièrement utile dans les scénarios suivants : lorsqu'un contexte d'invite volumineux doit être référencé à plusieurs reprises dans des requêtes multiples, comme dans les agents conversationnels pour réduire les coûts et la latence des longues conversations, notamment celles impliquant des instructions complexes ou le téléchargement de documents ; les assistants de codage peuvent améliorer l'autocomplétion et les questions-réponses sur les bases de code en conservant une version résumée de la base de code dans l'invite ; lors du traitement de documents volumineux, la mise en cache des invites permet d'intégrer des documents longs sans augmenter le temps de réponse ; enfin, pour les scénarios de recherche d'agents et d'utilisation d'outils impliquant des appels d'outils à plusieurs tours et des modifications itératives, la mise en cache des invites améliore considérablement les performances.
La tarification de la mise en cache des invites dépend du nombre de jetons d'entrée mis en cache et de la fréquence d'utilisation. Le coût d'écriture en cache est supérieur de 25 % au prix des jetons d'entrée de base, tandis que le coût d'utilisation du contenu mis en cache est considérablement réduit, à seulement 10 % du prix des jetons d'entrée de base.
Notion, client de l'API Anthropic, a intégré la fonctionnalité de mise en cache des invites à son assistant d'intelligence artificielle, Notion AI. En réduisant les coûts et en augmentant la vitesse, Notion a optimisé ses opérations internes et offert à ses utilisateurs une expérience plus avancée et plus rapide.