昨日、月之暗面傘下のKimi オープン プラットフォームは、コンテキスト キャッシング(Context Caching)の公測開始を発表しました。この技術は、API価格を据え置いたまま、開発者の長文テキスト対応の大規模言語モデルの使用コストを最大90%削減し、モデルの応答速度を大幅に向上させます。
コンテキスト キャッシング(Context Caching)は、効率的なデータ管理技術です。頻繁に要求される可能性のある大量のデータや情報を事前にシステムに保存しておくことができます。これにより、同じ情報を再度要求する場合、システムはキャッシュから迅速に提供でき、再計算や元のデータソースからの取得が不要になり、時間とリソースを節約できます。コンテキスト キャッシング(Context Caching)は、大量の初期コンテキストを頻繁に要求し、繰り返し参照するシナリオに特に適しており、長文モデルのコストを大幅に削減し、効率を向上させることができます!
具体的には、「コンテキスト キャッシング」は、頻繁なリクエストや、大量の初期コンテキストの繰り返し参照を行うシナリオに適用でき、以下の2つの効果があります。
費用最大90%削減: 例えば、特定の文書に対して大量の質問を行う必要があるシナリオでは、コンテキスト キャッシングによって大幅な費用削減が可能です。例えば、約9万字のハードウェア製品説明書に対して、営業担当者が短時間に密集して複数回質問応答を行う場合、コンテキスト キャッシングを導入することで、費用を元の約10%に削減できます。
最初のトークン遅延83%削減: 128kモデルへの1回の要求では、通常、最初のトークンを返すのに30秒かかります。コンテキスト キャッシングを使用することで、最初のトークンの遅延を平均5秒以内、約83%削減できます。
コンテキスト キャッシング(Context Caching)の料金体系は、主に以下の3つの部分で構成されています。
キャッシュ作成費用:
キャッシュ作成インターフェースを呼び出し、キャッシュの作成に成功した後、キャッシュ内のトークン数を実際の量に応じて課金します。24元/Mトークン
キャッシュ保存費用:
キャッシュの有効期間中は、分単位でキャッシュ保存費用を請求します。10元/Mトークン/分
キャッシュ呼び出し費用:
キャッシュ呼び出しによる増分トークンの課金:モデルの元の価格で課金されます。
キャッシュ呼び出し回数料金:
キャッシュの有効期間中、ユーザーがchatインターフェースを使用して作成済みのキャッシュをリクエストし、chatメッセージの内容が有効なキャッシュと一致した場合、呼び出し回数に応じてキャッシュ呼び出し費用を請求します。0.02元/回