KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

Al hardware

die artillerie der artillerie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation

Kimi Open Platform von Lunar Dark Side startet öffentlichen Test für „Kontext-Caching“ – Kosten für große Sprachmodelle um 90 % reduziert

AIbase

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Jul 2, 2024

201

Gestern kündigte die Kimi Open Platform von Moon's Dark Side die öffentliche Testphase für Context Caching an. Diese Technologie senkt die Kosten für die Nutzung großer Sprachmodelle mit langen Texten um bis zu 90 %, ohne den API-Preis zu erhöhen, und verbessert gleichzeitig die Reaktionsgeschwindigkeit des Modells deutlich.

Context Caching ist eine effiziente Datenverwaltungstechnologie. Sie ermöglicht es dem System, große Datenmengen oder Informationen, die häufig angefordert werden, im Voraus zu speichern. Wenn Sie dieselben Informationen erneut anfordern, kann das System diese direkt und schnell aus dem Cache liefern, anstatt sie neu berechnen oder aus der ursprünglichen Datenquelle abrufen zu müssen. Dies spart Zeit und Ressourcen. Context Caching eignet sich besonders für Szenarien mit häufigen Anfragen und wiederholten Verweisen auf große initiale Kontexte und kann die Kosten für Langtextmodelle deutlich senken und die Effizienz steigern!

微信截图_20240702081354.png

Konkret lässt sich „Context Caching“ in Szenarien mit häufigen Anfragen und wiederholten Verweisen auf große initiale Kontexte einsetzen und bietet folgende Vorteile:

Kostenreduktion bis zu 90 %: Bei Szenarien mit vielen Fragen zu einem festen Dokument lassen sich durch Context Caching erhebliche Kosten sparen. Beispielsweise können bei einem 90.000 Wörter umfassenden Handbuch für ein Hardwareprodukt, bei dem der Vertrieb im kurzen Zeitraum viele Fragen beantworten muss, die Kosten auf ca. 10 % reduziert werden.
Reduzierung der Latenzzeit des ersten Tokens um 83 %: Eine Anfrage an ein 128k-Modell dauert normalerweise 30 Sekunden, bis der erste Token zurückgegeben wird. Mit Context Caching reduziert sich die Latenzzeit des ersten Tokens im Durchschnitt auf unter 5 Sekunden, was einer Reduktion um ca. 83 % entspricht.

Das Abrechnungsmodell für Context Caching umfasst drei Hauptkomponenten:

Kosten für die Cache-Erstellung:
Bei Aufruf der Cache-Erstellungs-Schnittstelle und erfolgreicher Cache-Erstellung wird die tatsächliche Anzahl der Tokens im Cache abgerechnet. 24 €/M Token
Kosten für die Cache-Speicherung:
Während der Lebensdauer des Caches werden minutengenau Kosten für die Cache-Speicherung erhoben. 10 €/M Token/Minute
Kosten für Cache-Aufrufe:
Abrechnung der Kosten für inkrementelle Tokens bei Cache-Aufrufen: zum ursprünglichen Modellpreis.
Kosten für die Anzahl der Cache-Aufrufe:
Während der Lebensdauer des Caches werden bei Anfragen über die Chat-Schnittstelle an einen erfolgreich erstellten Cache, bei denen die Chat-Nachricht mit dem aktiven Cache übereinstimmt, Kosten für die Anzahl der Aufrufe erhoben. 0,02 €/Aufruf

Ober- und Untertext speichern Kimi-Plattform öffnen Die dunkle Seite des Mondes Langtext Banner großes Modell

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe