Gestern kündigte die Kimi Open Platform von Moon's Dark Side die öffentliche Testphase für Context Caching an. Diese Technologie senkt die Kosten für die Nutzung großer Sprachmodelle mit langen Texten um bis zu 90 %, ohne den API-Preis zu erhöhen, und verbessert gleichzeitig die Reaktionsgeschwindigkeit des Modells deutlich.

Context Caching ist eine effiziente Datenverwaltungstechnologie. Sie ermöglicht es dem System, große Datenmengen oder Informationen, die häufig angefordert werden, im Voraus zu speichern. Wenn Sie dieselben Informationen erneut anfordern, kann das System diese direkt und schnell aus dem Cache liefern, anstatt sie neu berechnen oder aus der ursprünglichen Datenquelle abrufen zu müssen. Dies spart Zeit und Ressourcen. Context Caching eignet sich besonders für Szenarien mit häufigen Anfragen und wiederholten Verweisen auf große initiale Kontexte und kann die Kosten für Langtextmodelle deutlich senken und die Effizienz steigern!

微信截图_20240702081354.png

Konkret lässt sich „Context Caching“ in Szenarien mit häufigen Anfragen und wiederholten Verweisen auf große initiale Kontexte einsetzen und bietet folgende Vorteile:

Kostenreduktion bis zu 90 %: Bei Szenarien mit vielen Fragen zu einem festen Dokument lassen sich durch Context Caching erhebliche Kosten sparen. Beispielsweise können bei einem 90.000 Wörter umfassenden Handbuch für ein Hardwareprodukt, bei dem der Vertrieb im kurzen Zeitraum viele Fragen beantworten muss, die Kosten auf ca. 10 % reduziert werden.

Reduzierung der Latenzzeit des ersten Tokens um 83 %: Eine Anfrage an ein 128k-Modell dauert normalerweise 30 Sekunden, bis der erste Token zurückgegeben wird. Mit Context Caching reduziert sich die Latenzzeit des ersten Tokens im Durchschnitt auf unter 5 Sekunden, was einer Reduktion um ca. 83 % entspricht.

Das Abrechnungsmodell für Context Caching umfasst drei Hauptkomponenten:

Kosten für die Cache-Erstellung:

Bei Aufruf der Cache-Erstellungs-Schnittstelle und erfolgreicher Cache-Erstellung wird die tatsächliche Anzahl der Tokens im Cache abgerechnet. 24 €/M Token

Kosten für die Cache-Speicherung:

Während der Lebensdauer des Caches werden minutengenau Kosten für die Cache-Speicherung erhoben. 10 €/M Token/Minute

Kosten für Cache-Aufrufe:

Abrechnung der Kosten für inkrementelle Tokens bei Cache-Aufrufen: zum ursprünglichen Modellpreis.

Kosten für die Anzahl der Cache-Aufrufe:

Während der Lebensdauer des Caches werden bei Anfragen über die Chat-Schnittstelle an einen erfolgreich erstellten Cache, bei denen die Chat-Nachricht mit dem aktiven Cache übereinstimmt, Kosten für die Anzahl der Aufrufe erhoben. 0,02 €/Aufruf