आज, डौबाओ बड़े मॉडल ने 8 प्रमुख क्षणों की आधिकारिक घोषणा की! 15 मई 2024 को पहली बार पेश होने के बाद से, डौबाओ बड़े मॉडल ने 230 दिनों में तेज़ी से विकास किया है। शुरुआती भाषा सीखने से लेकर अनजान दुनिया की खोज करने और फिर रचनाकारों के लिए जादुई सपने चित्रित करने तक, इस यात्रा के हर कदम में चुनौतियाँ और उपलब्धियाँ भरी हुई हैं।
1. स्वर पहचान और भावनात्मक अभिव्यक्ति में突破
जुलाई में, डौबाओ बड़े मॉडल ने स्वर पहचान क्षेत्र में एक बड़ा突破 किया: यह 20 से अधिक बोलियों के मिश्रित संवाद को समझ सकता है, और सुनते-सुनते सोचने की क्षमता रखता है। इसके अलावा, इसने बातचीत में भावनाएँ व्यक्त करना भी सीख लिया है, बातचीत में सहजता से हस्तक्षेप कर सकता है, और यहां तक कि ध्वनि और उच्चारण जैसी मानव भाषा की आदतों को भी बनाए रख सकता है। इसके पीछे की मुख्य तकनीक डौबाओ स्वर पहचान मॉडल Seed-ASR और स्वर उत्पादन आधार मॉडल Seed-TTS है, जो व्यापक डेटा और तर्क श्रृंखला का समावेश करती है, जिससे इसकी सामान्यीकरण क्षमता बहुत मजबूत होती है।
2. AI बैंड का जन्म
सितंबर में, डौबाओ बड़े मॉडल ने "AI बैंड" की अवधारणा को रचनात्मक रूप से लागू किया। गीत लेखन से लेकर प्रदर्शन उत्पादन और मानव आवाज़ गाने तक, डौबाओ बड़े मॉडल ने 10 से अधिक संगीत निर्माण कौशल में महारत हासिल की है, जो संगीत निर्माण में अप्रत्याशित प्रेरणा ला सकता है। इसके पीछे की तकनीक Seed-Music ढांचा है, जो भाषा मॉडल और प्रसार मॉडल के लाभों को जोड़ती है, और संगीत उत्पादन के लिए एक सामान्य ढांचा प्रदान करती है, जिसमें बहुत अधिक संपादन नियंत्रण क्षमता है।
3. सटीक वीडियो उत्पादन और कैमरा नियंत्रण
उसी महीने, डौबाओ बड़े मॉडल ने रचनात्मक सीमाओं को और आगे बढ़ाया, जटिल संकेतों का पालन करते हुए बहु-प्रमुख उच्च गुणवत्ता वाले वीडियो उत्पन्न कर सकता है और कैमरे के दृष्टिकोण को सटीक रूप से नियंत्रित कर सकता है। PixelDance और Seaweed जैसे वीडियो उत्पादन मॉडलों की मदद से, डौबाओ बड़े मॉडल उच्च गुणवत्ता वाले वीडियो और ध्वनि को समकालिक रूप से उत्पन्न कर सकता है, जो रचनाकारों को अधिक वास्तविक और जादुई दृश्य अनुभव प्रदान करता है।
4. छवि संपादन और निर्माण क्षमता का उन्नयन
नवंबर में, डौबाओ बड़े मॉडल ने "एक वाक्य में छवि संपादन" और "एक-क्लिक पोस्टर निर्माण" की क्षमता हासिल की। उपयोगकर्ता केवल सरल पाठ आदेशों के माध्यम से सटीक छवि संपादन और पाठ निर्माण कर सकते हैं। निरंतर पुनरावृत्त होने वाले पाठ-से-छवि मॉडल SeedEdit के माध्यम से, डौबाओ जटिल दृश्यों को सटीक रूप से प्रस्तुत कर सकता है, जो प्राकृतिक भाषा संचालित छवि संपादन प्रदान करता है।
5. प्रोग्रामिंग क्षमता में उछाल
दिसंबर में, डौबाओ बड़े मॉडल की प्रोग्रामिंग क्षमता में महत्वपूर्ण वृद्धि हुई, जिससे यह AI प्रोग्रामर और डेटा विश्लेषक बन गया। डौबाओ MarsCode के माध्यम से, उपयोगकर्ता कोड लेखन, डेटा प्रसंस्करण और दृश्यात्मक विश्लेषण को आसानी से लागू कर सकते हैं। डौबाओ का कोड मॉडल Doubao-coder 16 प्रोग्रामिंग भाषाओं का गहन समर्थन करता है और पूर्ण स्टैक प्रोग्रामिंग आवश्यकताओं को पूरा करता है, जिसमें फ्रंट-एंड और बैक-एंड विकास, मशीन लर्निंग आदि शामिल हैं।
6. अत्यधिक पाठ समझ और प्रसंस्करण क्षमता
डौबाओ बड़े मॉडल ने संदर्भ विंडो की सीमाओं को पार किया, जिसे 3 मिलियन शब्दों तक बढ़ा दिया गया है, जिससे यह बड़े पैमाने पर पाठ को संभाल सकता है, और हर एक मिलियन टोकन के प्रसंस्करण में केवल 15 सेकंड का समय लेता है। STRING जैसे संबंधित डेटा एल्गोरिदम के माध्यम से, डौबाओ बड़े मॉडल तेजी से विशाल बाहरी ज्ञान प्राप्त कर सकता है और अधिक सटीक समझ प्रदान कर सकता है।
7. दृश्य संवेदन और गहन सोच में突破
दिसंबर के मध्य में, डौबाओ बड़े मॉडल ने दृश्य संवेदन क्षमता हासिल की और बहु-संवेदी रूप से गहन सोच कर सकता है। यह न केवल छवियों को सटीक रूप से समझ सकता है, बल्कि जटिल गणनाएँ भी कर सकता है, जैसे कि एक कलन गणितीय प्रश्न को फोटो खींचना, जो इसके उत्कृष्ट क्रॉस-मोडल सीखने और तर्क क्षमता को प्रदर्शित करता है।
8. पूर्ण अपग्रेड किया गया सामान्य मॉडल Doubao-pro
दिसंबर के मध्य में, डौबाओ सामान्य मॉडल Doubao-pro का पूर्ण अपग्रेड किया गया, जिसने GPT-4 के साथ सभी क्षमताओं को समन्वयित किया और उत्तर देने की प्रक्रिया में "पुनर्विचार" करना सीखा। यह अपग्रेड Doubao-pro की समझ सटीकता और उत्पादन गुणवत्ता को बढ़ाता है, जिससे यह एक प्रभावी "हैक्सागोनल वारियर" बनता है, जो विभिन्न क्षमताओं में संतुलित प्रदर्शन करता है और AI क्षेत्र में एक और मानक बन जाता है।
इस वर्ष, डौबाओ बड़े मॉडल टीम ने AI बुनियादी अनुसंधान में महत्वपूर्ण प्रगति की है। टीम ने 57 पेपर प्रकाशित किए हैं और ICLR, CVPR, NeurIPS जैसे शीर्ष सम्मेलनों में प्रदर्शित किया है। इसके अलावा, डौबाओ बड़े मॉडल टीम ने कई शीर्ष विश्वविद्यालयों के साथ गहन सहयोग किया है और संयुक्त प्रयोगशाला स्थापित की है, जो AI तकनीक के विकास को बढ़ावा देती है।
डौबाओ बड़े मॉडल ने न केवल तकनीकी रूप से突破 किया है, बल्कि विभिन्न उद्योगों में व्यापक रूप से लागू किया गया है। ज्वालामुखी इंजन के माध्यम से, डौबाओ बड़े मॉडल ने 30 से अधिक उद्योगों की सेवा की है, और दैनिक टोकन कॉल की मात्रा 40 ट्रिलियन से अधिक है, जो मई में जारी होने के समय की तुलना में 33 गुना वृद्धि है।
आधिकारिक पता: https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw