Jina AI ने मूल HTML सामग्री को साफ और सुव्यवस्थित Markdown प्रारूप में परिवर्तित करने के लिए डिज़ाइन किए गए दो छोटे भाषा मॉडल पेश किए हैं, जिससे हमें जटिल वेब डेटा प्रसंस्करण से मुक्ति मिलती है।
इस मॉडल का नाम Reader-LM है, जिसकी सबसे बड़ी विशेषता यह है कि यह वेब सामग्री को तेजी से और कुशलता से Markdown फ़ाइलों में परिवर्तित कर सकता है।
इसे उपयोग करने का लाभ यह है कि आपको अब जटिल नियमों या कठिन नियमित अभिव्यक्तियों पर निर्भर रहने की आवश्यकता नहीं है। ये मॉडल स्वचालित रूप से वेब पृष्ठों से अव्यवस्थित सामग्री जैसे विज्ञापन, स्क्रिप्ट और नेविगेशन बार को हटा देते हैं, और अंततः स्पष्ट Markdown प्रारूप प्रस्तुत करते हैं।
Reader-LM दो विभिन्न पैरामीटर वाले मॉडल प्रदान करता है, Reader-LM-0.5B और Reader-LM-1.5B। हालांकि इन दोनों मॉडलों में पैरामीटर की मात्रा बहुत बड़ी नहीं है, लेकिन ये HTML से Markdown के कार्य के लिए अनुकूलित हैं, और परिणाम आश्चर्यजनक हैं, जो कई बड़े भाषा मॉडलों से बेहतर प्रदर्शन करते हैं।
इसके छोटे और शक्तिशाली डिज़ाइन के कारण, ये मॉडल सीमित संसाधनों वाले वातावरण में भी कुशलता से काम कर सकते हैं। और सबसे महत्वपूर्ण बात, Reader-LM न केवल विभिन्न भाषाओं का समर्थन करता है, बल्कि यह 256K टोकन तक के संदर्भ डेटा को भी संभाल सकता है, जिससे जटिल HTML फ़ाइलों को भी आसानी से प्रबंधित किया जा सकता है।
पारंपरिक विधियों की तुलना में, जिन्हें नियमित अभिव्यक्तियों या मैन्युअल सेटिंग्स पर निर्भर रहना पड़ता है, Reader-LM एक एंड-टू-एंड समाधान प्रदान करता है, जो HTML डेटा को स्वचालित रूप से साफ करता है और महत्वपूर्ण जानकारी निकालता है।
GPT-4 और Gemini जैसे बड़े मॉडलों के साथ तुलना परीक्षणों के माध्यम से, Reader-LM ने उत्कृष्ट प्रदर्शन प्रदर्शित किया, विशेष रूप से संरचना बनाए रखने और Markdown सिंटैक्स के उपयोग के मामले में। Reader-LM-1.5B सभी मापदंडों पर विशेष रूप से उत्कृष्ट प्रदर्शन करता है, ROUGE-L स्कोर 0.72 तक पहुँचता है, जो यह दर्शाता है कि यह सामग्री उत्पन्न करते समय उच्च सटीकता बनाए रखता है, और इसकी त्रुटि दर समान उत्पादों की तुलना में काफी कम है।
Reader-LM के कॉम्पैक्ट डिज़ाइन के कारण, यह हार्डवेयर संसाधनों पर हल्का है, विशेष रूप से 0.5B मॉडल, जो Google Colab जैसे निम्न कॉन्फ़िगरेशन वाले वातावरण में सुचारू रूप से चल सकता है। भले ही इसका आकार छोटा हो, Reader-LM फिर भी शक्तिशाली लंबे संदर्भ प्रसंस्करण क्षमताएँ रखता है, जिससे यह बड़े और जटिल वेब सामग्री को कुशलता से संभाल सकता है बिना प्रदर्शन को प्रभावित किए।
प्रशिक्षण के संदर्भ में, Reader-LM ने कई चरणों की प्रक्रिया अपनाई, जो कच्चे और शोर युक्त HTML से Markdown सामग्री निकालने पर केंद्रित है।
प्रशिक्षण प्रक्रिया में वास्तविक वेब पृष्ठों और संश्लेषित डेटा के जोड़ों की एक बड़ी मात्रा शामिल है, जो मॉडल की प्रभावशीलता और सटीकता को सुनिश्चित करता है। ध्यानपूर्वक डिज़ाइन की गई दो चरणों की प्रशिक्षण प्रक्रिया के माध्यम से, Reader-LM ने जटिल HTML फ़ाइलों के प्रबंधन की क्षमता को धीरे-धीरे बढ़ाया है, और दोहराए जाने वाली सामग्री उत्पन्न करने की समस्या को प्रभावी ढंग से टाल दिया है।
आधिकारिक जानकारी: https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/