सबसे मजबूत मॉडल Reflection 70B पर सवाल उठाए गए, संस्थापक के खिलाफ "धोखाधड़ी" का आरोप

हाल ही में लॉन्च किया गया ओपन-सोर्स AI मॉडल Reflection70B, हाल ही में उद्योग में व्यापक सवालों का सामना कर रहा है।

यह मॉडल न्यूयॉर्क स्थित स्टार्टअप HyperWrite द्वारा जारी किया गया है, जो खुद को मेटा कंपनी के Llama3.1 का एक रूपांतर बताता है, और इसके तृतीय-पक्ष परीक्षण में उत्कृष्ट प्रदर्शन ने ध्यान आकर्षित किया। हालांकि, कुछ परीक्षण परिणामों के प्रकाशन के साथ, Reflection70B की प्रतिष्ठा चुनौती में आ गई है।

यह मामला HyperWrite के सह-संस्थापक और CEO Matt Shumer द्वारा 6 सितंबर को सोशल मीडिया X पर Reflection70B की घोषणा करने से शुरू हुआ, जहां उन्होंने इसे "दुनिया का सबसे शक्तिशाली ओपन-सोर्स मॉडल" कहकर प्रस्तुत किया।

Shumer ने इस मॉडल की "रिफ्लेक्शन ट्यूनिंग" तकनीक के बारे में भी साझा किया, जिसमें उन्होंने दावा किया कि यह विधि मॉडल को सामग्री उत्पन्न करने से पहले स्वयं की समीक्षा करने की अनुमति देती है, जिससे सटीकता में सुधार होता है।

हालांकि, HyperWrite की घोषणा के अगले दिन, "AI मॉडल और होस्टिंग प्रदाताओं का स्वतंत्र विश्लेषण" करने वाले संगठन Artificial Analysis ने X पर अपनी विश्लेषण साझा की, जिसमें उन्होंने बताया कि उनके द्वारा मूल्यांकित Reflection Llama3.170B का MMLU (Massive Multitask Language Understanding) स्कोर Llama370B के समान था, लेकिन यह मेटा के Llama3.170B से स्पष्ट रूप से कम था, जो HyperWrite/Shumer द्वारा शुरू में प्रस्तुत परिणामों के साथ महत्वपूर्ण भिन्नता दर्शाता है।

Shumer ने बाद में कहा कि Reflection70B के वेट्स (या ओपन-सोर्स मॉडल की सेटिंग्स) Hugging Face (एक तृतीय-पक्ष AI कोड होस्टिंग भंडार और कंपनी) पर अपलोड करते समय समस्याएं आईं, जिससे प्रदर्शन HyperWrite के "आंतरिक API" संस्करण की तुलना में खराब हो गया।

Artificial Analysis ने बाद में एक बयान में कहा कि उन्हें निजी API तक पहुंच प्राप्त हुई है और उन्होंने प्रभावशाली प्रदर्शन देखा, लेकिन यह प्रारंभिक घोषणा के स्तर तक नहीं पहुंचा। चूंकि यह परीक्षण निजी API पर किया गया था, वे परीक्षण की गई सामग्री की स्वतंत्र रूप से पुष्टि नहीं कर सके।

इस संगठन ने HyperWrite और Shumer की प्रारंभिक प्रदर्शन घोषणाओं पर गंभीर सवाल उठाते हुए दो प्रमुख प्रश्न उठाए:

क्यों जारी किया गया संस्करण वह नहीं है जिसे उन्होंने Reflection निजी API पर परीक्षण किया था।
क्यों परीक्षण किए गए संस्करण के मॉडल वेट्स अभी तक जारी नहीं किए गए हैं।

इस बीच, Reddit पर कई मशीन लर्निंग और AI समुदायों के उपयोगकर्ताओं ने भी Reflection70B के प्रदर्शन और उत्पत्ति पर सवाल उठाए। कुछ ने यह बताते हुए कहा कि तृतीय-पक्ष द्वारा GitHub पर जारी किए गए मॉडल की तुलना के अनुसार, Reflection70B Llama3 का एक रूपांतर प्रतीत होता है, न कि Llama-3.1 का, जिससे Shumer और HyperWrite की प्रारंभिक घोषणा पर और संदेह उत्पन्न हुआ।

इससे कम से कम एक X उपयोगकर्ता Shin Megami Boson ने 8 सितंबर को पूर्वी समयानुसार रात 8:07 बजे Shumer पर AI शोध समुदाय में "धोखाधड़ी" का आरोप लगाने के लिए सार्वजनिक रूप से सामने आए और कई स्क्रीनशॉट और अन्य सबूत साझा किए।

अन्य लोगों ने आरोप लगाया कि यह मॉडल वास्तव में प्रतिकूल/बंद स्रोत कोड वाले प्रतिस्पर्धी Anthropic के Claude3 पर आधारित "रैपर" या एप्लिकेशन है।

हालांकि, अन्य X उपयोगकर्ता Shumer और Reflection70B का समर्थन करने के लिए आगे आए, कुछ ने अपने पक्ष के मॉडल के प्रभावशाली प्रदर्शन को भी साझा किया।

वर्तमान में, AI शोध समुदाय Shumer की इन धोखाधड़ी के आरोपों पर प्रतिक्रिया और Hugging Face पर अपडेट किए गए मॉडल वेट्स का इंतजार कर रहा है।

🚀 Reflection70B मॉडल के लॉन्च के बाद, प्रदर्शन पर सवाल उठाए गए हैं, और परीक्षण परिणाम प्रारंभिक दावों को पुन: उत्पन्न करने में असफल रहे हैं।

⚙️ HyperWrite के संस्थापक ने कहा कि मॉडल अपलोड करने में समस्याएं प्रदर्शन में गिरावट का कारण बनीं, और अपडेट संस्करण पर ध्यान देने का आग्रह किया।

👥 सोशल मीडिया पर इस मॉडल पर चर्चा गर्म है, जिसमें आरोप भी हैं और बचाव भी, स्थिति जटिल है।

AI समाचार

सबसे मजबूत मॉडल Reflection 70B पर सवाल उठाए गए, संस्थापक के खिलाफ "धोखाधड़ी" का आरोप

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

ओपन-स्रोत एआई की नई ऊँचाई: DeepSeek V3 Llama3.1 को पार करता है, प्रशिक्षण डेटा 14.8 ट्रिलियन टोकन तक पहुँचता है

Gemma2 को पार करना! IBM ने Granite3.1 मॉडल जारी किया: 128K संदर्भ लंबाई का समर्थन करता है

GPT-4o और Claude 3.5 Sonnet से परफॉर्मेंस में बेहतर! शक्तिशाली Reflection 70B मॉडल का आगमन

दुनिया की सबसे तेज़ एआई इन्फेरेंस सेवा का आगाज़! गति में 20 गुना वृद्धि, लागत बेहद कम