CAG (Cache-Augmented Generation) é uma técnica inovadora de aprimoramento de modelos de linguagem, projetada para resolver problemas como atrasos na recuperação, erros de recuperação e complexidade do sistema presentes nos métodos tradicionais de RAG (Retrieval-Augmented Generation). Ao pré-carregar todos os recursos relevantes no contexto do modelo e armazenar em cache seus parâmetros de tempo de execução, o CAG pode gerar respostas diretamente durante a inferência, sem necessidade de recuperação em tempo real. Este método não apenas reduz significativamente a latência e aumenta a confiabilidade, mas também simplifica o design do sistema, tornando-se uma alternativa prática e escalável. Com a expansão contínua das janelas de contexto de modelos de linguagem grandes (LLMs), o CAG promete desempenhar um papel importante em cenários de aplicação mais complexos.