बड़े क्लाउड इंफ्रास्ट्रक्चर के प्रबंधन में, छोटे से छोटे प्रदर्शन में कमी भी महत्वपूर्ण संसाधनों की बर्बादी का कारण बन सकती है। उदाहरण के लिए, Meta जैसी कंपनियों में, एक एप्लिकेशन की गति में 0.05% की कमी मामूली लगती है, लेकिन लाखों सर्वरों के एक साथ काम करने की स्थिति में, यह छोटी सी देरी हजारों सर्वरों की बर्बादी में बदल सकती है। इसलिए, इन छोटे प्रदर्शन में गिरावट का समय पर पता लगाना और समाधान करना Meta के लिए एक बड़ी चुनौती है।
इस समस्या का समाधान करने के लिए, Meta AI ने FBDetect लॉन्च किया है, जो उत्पादन वातावरण के लिए एक प्रदर्शन गिरावट पहचान प्रणाली है, जो सबसे छोटे प्रदर्शन गिरावट को भी पहचानने में सक्षम है, यहां तक कि 0.005% तक। FBDetect लगभग 8 लाख समय श्रृंखलाओं की निगरानी कर सकता है, जिसमें थ्रूपुट, देरी, CPU और मेमोरी उपयोग जैसे कई मापदंड शामिल हैं, जो सैकड़ों सेवाओं और लाखों सर्वरों को कवर करते हैं। नवीन तकनीकों को अपनाकर, जैसे कि पूरे सर्वर क्लस्टर में स्टैक ट्रेस सैंपलिंग, FBDetect सूक्ष्म उपप्रोग्राम स्तर के प्रदर्शन में भिन्नताओं को पकड़ने में सक्षम है।
FBDetect मुख्य रूप से उपप्रोग्राम स्तर के प्रदर्शन विश्लेषण पर ध्यान केंद्रित करता है, जिससे 0.05% एप्लिकेशन स्तर की गिरावट का पता लगाने की कठिनाई को 5% उपप्रोग्राम स्तर के परिवर्तनों तक कम किया जा सकता है। यह दृष्टिकोण शोर को काफी कम करता है, जिससे परिवर्तनों का ट्रैकिंग करना अधिक व्यावहारिक हो जाता है।
FBDetect की तकनीकी आधार तीन मुख्य पहलुओं में शामिल है। सबसे पहले, यह उपप्रोग्राम स्तर की गिरावट पहचान के माध्यम से प्रदर्शन डेटा के भिन्नता को कम करता है, जिससे छोटे गिरावट को समय पर पहचाना जा सके। दूसरे, प्रणाली पूरे सर्वर क्लस्टर में स्टैक ट्रेस सैंपलिंग करती है, हर उपप्रोग्राम के प्रदर्शन को सटीकता से मापती है, जो बड़े पैमाने पर वातावरण में प्रदर्शन विश्लेषण के समान है। अंत में, हर पहचानी गई गिरावट के लिए, FBDetect मूल कारण विश्लेषण करता है ताकि यह निर्धारित किया जा सके कि गिरावट अस्थायी समस्याओं, लागत में बदलाव या वास्तविक कोड परिवर्तनों के कारण हुई है।
FBDetect ने सात वर्षों के वास्तविक उत्पादन वातावरण परीक्षण के बाद, मजबूत हस्तक्षेप प्रतिरोध क्षमता विकसित की है, जो गलत गिरावट संकेतों को प्रभावी ढंग से फ़िल्टर कर सकती है। इस प्रणाली का परिचय न केवल डेवलपर्स को जांचने के लिए आवश्यक घटनाओं की संख्या को काफी कम करता है, बल्कि Meta के इंफ्रास्ट्रक्चर की दक्षता को भी बढ़ाता है। छोटे गिरावट का पता लगाने के माध्यम से, FBDetect हर साल Meta को लगभग 4000 सर्वरों के संसाधनों की बर्बादी से बचाने में मदद करता है।
Meta जैसी लाखों सर्वरों वाली बड़ी कंपनियों में, प्रदर्शन गिरावट का पता लगाना विशेष रूप से महत्वपूर्ण है। FBDetect अपनी उन्नत निगरानी क्षमताओं के साथ न केवल छोटे गिरावट की पहचान दर को बढ़ाता है, बल्कि डेवलपर्स को प्रभावी मूल कारण विश्लेषण के उपकरण भी प्रदान करता है, जो संभावित समस्याओं को समय पर हल करने में मदद करता है, और इस प्रकार पूरे इंफ्रास्ट्रक्चर के कुशल संचालन को बढ़ावा देता है।
पत्र का लिंक: https://tangchq74.github.io/FBDetect-SOSP24.pdf
मुख्य बिंदु:
🔍 FBDetect छोटे प्रदर्शन गिरावट का पता लगाने में सक्षम है, यहां तक कि 0.005% तक, जिससे पहचान सटीकता में काफी वृद्धि होती है।
💻 यह प्रणाली लगभग 8 लाख समय श्रृंखलाओं को कवर करती है, जिसमें कई प्रदर्शन मापदंड शामिल हैं, और बड़े पैमाने पर वातावरण में सटीक विश्लेषण कर सकती है।
🚀 FBDetect ने सात वर्षों के वास्तविक अनुप्रयोग के बाद, Meta को हर साल लगभग 4000 सर्वरों के संसाधनों की बर्बादी से बचाने में मदद की है, जिससे इंफ्रास्ट्रक्चर की कुल दक्षता में वृद्धि होती है।