RL4VLM
बड़े दृश्य-भाषा मॉडल को सुदृढीकरण अधिगम द्वारा परिष्कृत करके निर्णय लेने वाले एजेंट के रूप में विकसित करना
सामान्य उत्पादप्रोग्रामिंगसुदृढीकरण अधिगमदृश्य-भाषा मॉडल
RL4VLM एक ओपन-सोर्स परियोजना है जिसका उद्देश्य बड़े दृश्य-भाषा मॉडल को सुदृढीकरण अधिगम द्वारा परिष्कृत करके उन्हें निर्णय लेने वाले बुद्धिमान एजेंट में बदलना है। इस परियोजना का विकास Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine आदि शोधकर्ताओं ने मिलकर किया है। यह LLaVA मॉडल पर आधारित है और इसमें PPO एल्गोरिथ्म का उपयोग करके सुदृढीकरण अधिगम द्वारा परिष्करण किया गया है। RL4VLM परियोजना में कोडबेस की विस्तृत संरचना, शुरुआत करने के लिए मार्गदर्शिका, लाइसेंस की जानकारी और इस शोध का उल्लेख कैसे करें, इसकी जानकारी दी गई है।
RL4VLM नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34