A Anthropic API lançou recentemente o recurso de cache de prompts, permitindo que os desenvolvedores agora armazenem em cache informações de contexto comumente usadas entre chamadas de API. Com o cache de prompts, os clientes podem fornecer ao modelo Claude mais informações de contexto e exemplos de saída, reduzindo significativamente o custo de prompts longos, com economia de até 90% e redução de latência de até 85%.

Este recurso está atualmente disponível nas versões beta públicas do Claude 3.5 Sonnet e Claude 3 Haiku, e suporte para o Claude 3 Opus será adicionado no futuro.

QQ截图20240815093542.png

O recurso de cache de prompts é particularmente útil nos seguintes cenários: quando é necessário referenciar repetidamente um grande contexto de prompt em várias solicitações, como em agentes de conversação para reduzir o custo e a latência de conversas longas, especialmente aquelas com instruções complexas ou upload de documentos; assistentes de codificação podem melhorar o preenchimento automático e as perguntas e respostas do repositório de código mantendo uma versão resumida do repositório de código no prompt; ao lidar com documentos grandes, o cache de prompts permite incorporar materiais longos completos sem aumentar o tempo de resposta; além disso, para cenários de busca de agentes e uso de ferramentas que envolvem chamadas de ferramentas multi-turnos e alterações iterativas, o cache de prompts também pode melhorar significativamente o desempenho.

QQ截图20240815093549.png

O preço do cache de prompts depende da quantidade de tokens de entrada armazenados em cache e da frequência de uso. O custo de gravação no cache é 25% maior do que o preço do token de entrada básico, enquanto o custo de usar o conteúdo do cache é significativamente menor, apenas 10% do preço do token de entrada básico.

Notion, como cliente da Anthropic API, já integrou o recurso de cache de prompts ao seu assistente de IA, Notion AI. Ao reduzir custos e aumentar a velocidade, a Notion otimizou suas operações internas e ofereceu aos usuários uma experiência mais avançada e rápida.