RL4VLM

बड़े दृश्य-भाषा मॉडल को सुदृढीकरण अधिगम द्वारा परिष्कृत करके निर्णय लेने वाले एजेंट के रूप में विकसित करना

सामान्य उत्पादप्रोग्रामिंगसुदृढीकरण अधिगमदृश्य-भाषा मॉडल

RL4VLM एक ओपन-सोर्स परियोजना है जिसका उद्देश्य बड़े दृश्य-भाषा मॉडल को सुदृढीकरण अधिगम द्वारा परिष्कृत करके उन्हें निर्णय लेने वाले बुद्धिमान एजेंट में बदलना है। इस परियोजना का विकास Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine आदि शोधकर्ताओं ने मिलकर किया है। यह LLaVA मॉडल पर आधारित है और इसमें PPO एल्गोरिथ्म का उपयोग करके सुदृढीकरण अधिगम द्वारा परिष्करण किया गया है। RL4VLM परियोजना में कोडबेस की विस्तृत संरचना, शुरुआत करने के लिए मार्गदर्शिका, लाइसेंस की जानकारी और इस शोध का उल्लेख कैसे करें, इसकी जानकारी दी गई है।

एक संशोधित LLaVA मॉडल प्रदान करता है।
मौलिक GymCards वातावरण।
GymCards और ALFWorld वातावरण के लिए RL4VLM कोडबेस।
विस्तृत प्रशिक्षण प्रक्रिया
जिसमें SFT चेकपॉइंट तैयार करना और SFT चेकपॉइंट का उपयोग करके RL चलाना शामिल है।
GymCards और ALFWorld की अलग-अलग पैकेज आवश्यकताओं के अनुरूप दो अलग-अलग conda वातावरण प्रदान करता है।
एल्गोरिथ्म चलाने के लिए विस्तृत मार्गदर्शिका और टेम्प्लेट स्क्रिप्ट।
एक विशिष्ट चेकपॉइंट को शुरुआती बिंदु के रूप में उपयोग करने के महत्व पर ज़ोर देता है और विभिन्न प्रारंभिक मॉडलों के उपयोग की लचीलापन प्रदान करता है।

\यह मुख्य रूप से मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के क्षेत्र के शोधकर्ताओं और डेवलपर्स के लिए है
जिन्हें दृश्य-भाषा मॉडल का उपयोग करके निर्णय लेने और सुदृढीकरण अधिगम के शोध में आवश्यकता होती है।\

शोधकर्ताओं ने प्राकृतिक भाषा संसाधन कार्यों में निर्णय लेने की क्षमता में सुधार के लिए RL4VLM द्वारा मॉडल को ठीक किया।
डेवलपर्स ने कस्टम दृश्य-भाषा मॉडल को प्रशिक्षित करने के लिए इस परियोजना द्वारा प्रदान किए गए कोडबेस और वातावरण का उपयोग किया।
शैक्षिक संस्थानों ने छात्रों को यह दिखाने के लिए कि मॉडल के प्रदर्शन को सुदृढीकरण अधिगम द्वारा कैसे बेहतर बनाया जा सकता है
RL4VLM को एक शिक्षण मामले के रूप में उपयोग किया।

सबसे पहले
परियोजना की जानकारी और कोडबेस प्राप्त करने के लिए RL4VLM के GitHub पृष्ठ पर जाएँ।
दी गई शुरुआत करने की मार्गदर्शिका के अनुसार
आवश्यक SFT चेकपॉइंट तैयार करें।
GymCards या ALFWorld के अनुरूप आवश्यक conda वातावरण डाउनलोड करें और सेट करें।

वेबसाइट खोलें

RL4VLM नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

474564576

बाउंस दर

36.20%

प्रति विज़िट औसत पृष्ठ

6.1

औसत विज़िट अवधि

00:06:34

RL4VLM विज़िट प्रवृत्ति

RL4VLM विज़िट भौगोलिक वितरण

Best AI Websites & Tools

RL4VLM

RL4VLM नवीनतम ट्रैफ़िक स्थिति

RL4VLM विज़िट प्रवृत्ति

RL4VLM विज़िट भौगोलिक वितरण

RL4VLM ट्रैफ़िक स्रोत

RL4VLM विकल्प

RL4VLM — बड़े दृश्य-भाषा मॉडल को सुदृढीकरण अधिगम द्वारा परिष्कृत करके निर्णय लेने वाले एजेंट के रूप में विकसित करना

SWE-RL — ओपन सोर्स सॉफ्टवेयर के विकास में बड़े भाषा मॉडल की अनुमान क्षमता को सुदृढीकरण अधिगम द्वारा बढ़ाना

MLGym — MLGym AI अनुसंधान एजेंटों को आगे बढ़ाने के लिए एक नया ढांचा और बेंचमार्क है।

VLM-R1 — VLM-R1 एक स्थिर और बहुउद्देशीय दृष्टिगत भाषा मॉडल है जो दृश्य समझ कार्यों पर केंद्रित है।

NovaSky — NovaSky एक कृत्रिम बुद्धिमत्ता तकनीकी मंच है जो कोड जेनरेशन और अनुमान मॉडल ऑप्टिमाइज़ेशन पर केंद्रित है।

R1-V — कम लागत पर दृश्य भाषा मॉडल की सामान्यीकरण क्षमता को मजबूत करना, केवल 3 डॉलर से कम में।

CUA — CUA एक ऐसा सामान्य इंटरफ़ेस है जो ग्राफ़िकल इंटरफ़ेस के माध्यम से डिजिटल दुनिया के साथ बातचीत करने में सक्षम है।

DeepSeek-R1-Distill-Qwen-7B — DeepSeek-R1-Distill-Qwen-7B एक मुक्त स्रोत अनुमान मॉडल है जो गणित, कोड और तर्क कार्यों पर केंद्रित है।

स्व-अनुकूली-LLM — एक वास्तविक समय में अपरिचित कार्यों के अनुकूल होने वाला अनुकूली बड़ा भाषा मॉडल ढाँचा।

PaliGemma2-3b-pt-224 — PaliGemma 2 एक शक्तिशाली दृश्य-भाषा मॉडल है जो कई भाषाओं में छवि और पाठ संसाधन कार्यों का समर्थन करता है।

PaliGemma2-3b-pt-448 — PaliGemma 2 एक शक्तिशाली दृश्य-भाषा मॉडल है जो कई दृश्य भाषा कार्यों का समर्थन करता है।

Eurus-2-7B-PRIME — PRIME पद्धति पर प्रशिक्षित 7B पैरामीटर वाला भाषा मॉडल, जो तर्क शक्ति को बढ़ाने के लिए डिज़ाइन किया गया है।

यूनिट्री RL जिम — यूनिट्री रोबोट प्लेटफ़ॉर्म जो सुदृढीकरण अधिगम के लिए है

RLVR-GSM-MATH-IF-Mixed-Constraints — यह सुदृढीकरण अधिगम सत्यापन के लिए गणितीय प्रश्नों का एक डेटासेट है।

mwp_ReFT — गहन सुदृढीकरण अधिगम पर आधारित मॉडल माइक्रोट्यूनिंग ढाँचा

O1-CODER — OpenAI के O1 मॉडल को फिर से बनाने का प्रयास करने वाला एक प्रोग्रामिंग सहायक उपकरण

BooW-VTON — बाहरी वर्चुअल ट्राई-ऑन प्रभाव को बेहतर बनाने के लिए मॉडल प्रशिक्षण कोड लाइब्रेरी

रॉकेट-1 — खुले विश्व अंतःक्रिया के दृश्य-समय संदर्भ संकेत मॉडल में महारत हासिल करना

agibot_x1_train — माड्यूलर मानव-सदृश रोबोट, सुदृढीकरण अधिगम प्रशिक्षण के लिए

बहु-प्रजाति व्हेल पता लगाने का उपकरण — बहु-प्रजाति व्हेल ध्वनि पहचान उपकरण

सुपरप्रॉम्प्ट — यह परियोजना AI एजेंटों के इंजीनियरिंग प्रॉम्प्ट की समझ में हमारी सहायता करने के लिए बनाई गई है।

avp_teleoperate — Apple Vision Pro का उपयोग करके मानवरूपी रोबोट Unitree H1_2 का दूरस्थ संचालन करें।

DigiRL — स्वायत्त सुदृढीकरण अधिगम का उपयोग करके बाहरी उपकरण नियंत्रण एजेंटों को प्रशिक्षित करने के लिए