CAG (Cache-Augmented Generation) est une technique innovante d'amélioration des modèles linguistiques visant à résoudre les problèmes de latence de recherche, d'erreurs de recherche et de complexité système inhérents aux méthodes RAG (Retrieval-Augmented Generation) traditionnelles. En préchargeant toutes les ressources pertinentes dans le contexte du modèle et en mettant en cache ses paramètres d'exécution, CAG peut générer des réponses directement pendant le processus d'inférence, sans avoir besoin de recherche en temps réel. Cette méthode non seulement réduit considérablement la latence et améliore la fiabilité, mais simplifie également la conception du système, ce qui en fait une alternative pratique et évolutive. Avec l'expansion continue des fenêtres contextuelles des grands modèles linguistiques (LLM), CAG devrait jouer un rôle important dans des scénarios d'application plus complexes.