कल, चाँद के अंधेरे पक्ष के तहत Kimi ओपन प्लेटफॉर्म ने घोषणा की कि संदर्भ कैशिंग (Context Caching) का सार्वजनिक परीक्षण शुरू हो गया है। यह तकनीक API की कीमतों को अपरिवर्तित रखते हुए, डेवलपर्स के लिए लंबे पाठ फ्लैगशिप मॉडल के उपयोग की लागत को 90% तक कम कर सकती है और मॉडल की प्रतिक्रिया गति में उल्लेखनीय वृद्धि कर सकती है।

संदर्भ कैशिंग (Context Caching) एक कुशल डेटा प्रबंधन तकनीक है, जो सिस्टम को उन बड़ी मात्रा में डेटा या जानकारी को पूर्व-स्टोर करने की अनुमति देती है जो बार-बार अनुरोध किए जा सकते हैं। इस प्रकार, जब आप फिर से वही जानकारी मांगते हैं, तो सिस्टम सीधे कैश से तेजी से प्रदान कर सकता है, बिना पुनः गणना किए या मूल डेटा स्रोत से पुनः प्राप्त किए, जिससे समय और संसाधनों की बचत होती है। संदर्भ कैशिंग (Context Caching) विशेष रूप से उन परिदृश्यों के लिए उपयुक्त है जहां बार-बार अनुरोध किए जाते हैं और बड़ी मात्रा में प्रारंभिक संदर्भ का पुनरावृत्ति होती है, जिससे लंबे पाठ मॉडल की लागत में उल्लेखनीय कमी और दक्षता में वृद्धि हो सकती है!

微信截图_20240702081354.png

विशेष रूप से, "संदर्भ कैशिंग" उन परिदृश्यों में लागू किया जा सकता है जहां बार-बार अनुरोध किए जाते हैं और बड़ी मात्रा में प्रारंभिक संदर्भ का पुनरावृत्ति होती है, जो निम्नलिखित दो प्रभाव लाती है:

लागत में अधिकतम 90% की कमी: उदाहरण के लिए, उन परिदृश्यों के लिए जहां एक निश्चित दस्तावेज़ पर कई प्रश्न पूछने की आवश्यकता होती है, संदर्भ कैशिंग के माध्यम से लागत में भारी बचत हो सकती है। उदाहरण के लिए, एक हार्डवेयर उत्पाद के उपयोगकर्ता मार्गदर्शिका में लगभग 90,000 शब्द हैं, प्री-सेल समर्थन कर्मियों को थोड़े समय में कई बार प्रश्न पूछने की आवश्यकता होती है, संदर्भ कैशिंग के लागू होने के बाद, लागत को लगभग 10% तक कम किया जा सकता है।

प्रथम टोकन की देरी में 83% की कमी: 128k मॉडल के लिए एक अनुरोध में, सामान्यतः पहले टोकन को वापस लाने में 30 सेकंड लगते हैं। संदर्भ कैशिंग के माध्यम से, पहले टोकन की देरी को औसतन 5 सेकंड के भीतर कम किया जा सकता है, जिससे लगभग 83% की देरी समय में कमी आती है।

संदर्भ कैशिंग (Context Caching) की चार्जिंग मॉडल मुख्य रूप से निम्नलिखित तीन भागों में विभाजित है:

कैश निर्माण शुल्क:

कैश निर्माण इंटरफेस को कॉल करने पर, सफलतापूर्वक कैश बनाने के बाद, कैश में टोकन के वास्तविक मात्रा के अनुसार शुल्क लिया जाएगा। 24 रुपये/M टोकन

कैश संग्रहण शुल्क:

कैश के जीवित रहने के दौरान, प्रति मिनट कैश संग्रहण शुल्क लिया जाएगा। 10 रुपये/M टोकन/मिनट

कैश कॉल शुल्क:

कैश कॉल के लिए वृद्धि टोकन का शुल्क: मॉडल की मूल कीमत पर शुल्क लिया जाएगा

कैश कॉल次数收费:

कैश के जीवित रहने के दौरान, यदि उपयोगकर्ता चैट इंटरफेस के माध्यम से सफलतापूर्वक बनाए गए कैश का अनुरोध करते हैं, और यदि चैट संदेश की सामग्री जीवित कैश से मेल खाती है, तो कॉल次数 के आधार पर कैश कॉल शुल्क लिया जाएगा। 0.02 रुपये/बार