Hier, la plateforme ouverte Kimi de la société 月之暗面 a annoncé le lancement de la phase de test public de la mise en cache du contexte (Context Caching). Cette technologie permet aux développeurs de réduire jusqu'à 90 % le coût d'utilisation des grands modèles linguistiques pour les longs textes, sans augmentation du prix de l'API, et améliore considérablement la vitesse de réponse du modèle.

La mise en cache du contexte (Context Caching) est une technique de gestion de données efficace qui permet au système de stocker à l'avance de grandes quantités de données ou d'informations susceptibles d'être fréquemment demandées. Ainsi, lorsque vous demandez à nouveau les mêmes informations, le système peut les fournir rapidement à partir du cache, sans avoir à les recalculer ou à les récupérer à partir de la source de données d'origine, ce qui permet d'économiser du temps et des ressources. La mise en cache du contexte (Context Caching) est particulièrement adaptée aux scénarios de requêtes fréquentes et de références répétées à un grand nombre de contextes initiaux, ce qui permet de réduire considérablement les coûts des modèles de longs textes et d'améliorer l'efficacité !

微信截图_20240702081354.png

Plus précisément, la « mise en cache du contexte » peut être appliquée aux scénarios de requêtes fréquentes et de références répétées à un grand nombre de contextes initiaux, ce qui produit les deux effets suivants :

Réduction des coûts jusqu'à 90 % : Par exemple, pour les scénarios nécessitant de nombreuses questions sur un document fixe, la mise en cache du contexte permet de réaliser d'importantes économies. Par exemple, pour un manuel de produit matériel d'environ 90 000 mots, si le personnel du support avant-vente doit effectuer de nombreuses questions-réponses en peu de temps, le recours à la mise en cache du contexte peut réduire les coûts à environ 10 % du coût initial.

Réduction du délai du premier jeton de 83 % : Pour une requête d'un modèle 128k, il faut généralement 30 secondes pour renvoyer le premier jeton. Grâce à la mise en cache du contexte, le délai du premier jeton peut être réduit en moyenne à 5 secondes, soit une réduction de 83 % du temps de latence.

Le modèle de tarification de la mise en cache du contexte (Context Caching) est principalement divisé en trois parties :

Frais de création du cache :

Appel de l'interface de création du cache. Une fois le cache créé avec succès, les jetons du cache sont facturés en fonction de la quantité réelle. 24 yuans/M jetons

Frais de stockage du cache :

Pendant la durée de vie du cache, les frais de stockage du cache sont facturés à la minute. 10 yuans/M jetons/minute

Frais d'appel du cache :

Les frais pour les jetons incrémentaux de l'appel du cache : facturés au prix initial du modèle

Frais de nombre d'appels du cache :

Pendant la durée de vie du cache, si l'utilisateur effectue une requête via l'interface de chat sur un cache créé avec succès, et si le contenu du message de chat correspond au cache actif, les frais d'appel du cache seront facturés en fonction du nombre d'appels. 0,02 yuan/appel