Ayer, la plataforma abierta Kimi de la empresa 月之暗面 anunció el inicio de la prueba beta de su caché de contexto (Context Caching). Esta tecnología, sin modificar el precio de la API, puede reducir hasta un 90% el coste de uso de los modelos de lenguaje extenso para desarrolladores, además de mejorar significativamente la velocidad de respuesta del modelo.
El caché de contexto (Context Caching) es una técnica de gestión de datos eficiente que permite al sistema almacenar previamente grandes cantidades de datos o información que probablemente se soliciten con frecuencia. De esta manera, cuando se solicita la misma información de nuevo, el sistema puede proporcionarla rápidamente desde la caché, sin necesidad de volver a calcularla o recuperarla de la fuente de datos original, lo que ahorra tiempo y recursos. El caché de contexto (Context Caching) es especialmente adecuado para escenarios con solicitudes frecuentes y referencias repetidas a un gran contexto inicial, lo que puede reducir significativamente los costes de los modelos de texto largo y mejorar la eficiencia.
En concreto, el «caché de contexto» se puede aplicar en escenarios con solicitudes frecuentes y referencias repetidas a un gran contexto inicial, ofreciendo los siguientes dos efectos:
Reducción de costes de hasta el 90%: Por ejemplo, en escenarios que requieren muchas preguntas sobre un documento fijo, el caché de contexto puede ahorrar una gran cantidad de costes. Para un manual de producto de aproximadamente 90.000 caracteres, donde el personal de soporte técnico necesita realizar varias preguntas y respuestas en poco tiempo, la integración del caché de contexto puede reducir los costes a aproximadamente el 10% del coste original.
Reducción del 83% en la latencia del primer token: Para una solicitud de un modelo de 128k, normalmente se tarda 30 segundos en devolver el primer token. Con el caché de contexto, la latencia del primer token se puede reducir a un promedio de 5 segundos, lo que supone una reducción del 83% en el tiempo de latencia.
El modelo de precios del caché de contexto (Context Caching) se divide principalmente en tres partes:
Coste de creación de la caché:
Al llamar a la interfaz de creación de la caché, una vez creada correctamente, se cobra según la cantidad real de tokens en la caché. 24 yuanes/M token
Coste de almacenamiento de la caché:
Durante el tiempo de vida útil de la caché, se cobra un coste de almacenamiento por minuto. 10 yuanes/M token/minuto
Coste de llamada a la caché:
Coste de los tokens incrementales de la llamada a la caché: se cobra al precio original del modelo.
Coste por número de llamadas a la caché:
Durante el tiempo de vida útil de la caché, si el usuario realiza una solicitud a la caché ya creada a través de la interfaz de chat, y el contenido del mensaje de chat coincide con la caché activa, se cobrará un coste por cada llamada a la caché. 0,02 yuanes/llamada