मंगलवार को आयोजित re:Invent सम्मेलन में, अमेज़न वेब सर्विसेज़ (AWS) ने अपने नए मल्टी-मोड जनरेटिव एआई मॉडल श्रृंखला - नोवा का शुभारंभ किया। इस नोवा श्रृंखला में चार प्रकार के टेक्स्ट जनरेशन मॉडल शामिल हैं: माइक्रो, लाइट, प्रो और प्रीमियर, इसके अलावा इमेज जनरेशन मॉडल नोवा कैनवास और वीडियो जनरेशन मॉडल नोवा रील भी पेश किए गए हैं।

अमेज़न के सीईओ एंडी जासी ने कहा कि माइक्रो, लाइट और प्रो मॉडल उसी दिन AWS ग्राहकों के लिए उपलब्ध होंगे, जबकि प्रीमियर मॉडल की अपेक्षा 2025 की शुरुआत में रिलीज़ होने की है। नोवा श्रृंखला विभिन्न इनपुट प्रारूपों (जैसे टेक्स्ट, इमेज, वीडियो) को संभालने के लिए डिज़ाइन की गई है, जिसमें टेक्स्ट जनरेशन मॉडल विशेष रूप से 15 भाषाओं के लिए अनुकूलित किया गया है, जिसमें मुख्य रूप से अंग्रेजी शामिल है।

नोवा टेक्स्ट जनरेशन मॉडल

नोवा टेक्स्ट जनरेशन मॉडल में विभिन्न कार्यक्षमता और विनिर्देश हैं। माइक्रो मॉडल न्यूनतम विलंबता और त्वरित प्रतिक्रिया के लिए जाना जाता है, लेकिन यह केवल टेक्स्ट इनपुट और आउटपुट का समर्थन करता है, जो त्वरित कार्यों के लिए उपयुक्त है। लाइट मॉडल टेक्स्ट, इमेज और वीडियो के त्वरित इनपुट प्रोसेसिंग का समर्थन करता है, जबकि प्रो मॉडल सटीकता, गति और लागत के बीच संतुलन प्रदान करता है। प्रीमियर सबसे शक्तिशाली मॉडल है, जो जटिल कार्यभार के लिए डिज़ाइन किया गया है और कस्टम मॉडल की आवश्यकता वाले उन्नत अनुप्रयोगों के लिए उपयुक्त है।

इन मॉडलों की संदर्भ विंडो का आकार भी भिन्न है। माइक्रो लगभग 100,000 शब्दों का समर्थन करता है, लाइट और प्रो मॉडल लगभग 225,000 शब्दों, 15,000 पंक्तियों कोड या 30 मिनट की ऑडियो सामग्री को संभाल सकते हैं। जबकि AWS का कहना है कि 2025 की शुरुआत तक, कुछ नोवा मॉडलों की संदर्भ विंडो 2 मिलियन टोकन तक विस्तारित होगी।

जासी ने जोर दिया कि नोवा श्रृंखला अपने प्रकार में सबसे तेज़ और सबसे किफायती एआई मॉडल है। इन्हें AWS के एआई विकास प्लेटफॉर्म AWS बेडरॉक पर फाइन-ट्यून किया जा सकता है, जिससे गति और दक्षता को और बढ़ाया जा सकता है। इसके अलावा, नोवा श्रृंखला स्वामित्व वाले सिस्टम और एपीआई के साथ निर्बाध रूप से काम कर सकती है, विभिन्न स्वचालित कार्यों को निष्पादित कर सकती है।

नोवा कैनवास और नोवा रील

टेक्स्ट जनरेशन के अलावा, AWS ने दो इमेज और वीडियो जनरेशन टूल पेश किए हैं: नोवा कैनवास और नोवा रील। नोवा कैनवास उपयोगकर्ताओं को संकेतों के माध्यम से इमेज बनाने और संपादित करने की अनुमति देता है, और उत्पन्न इमेज के रंग योजना और लेआउट पर नियंत्रण प्रदान करता है। नोवा रील संकेत या संदर्भ इमेज के आधार पर 6 सेकंड तक का वीडियो उत्पन्न कर सकता है, और उपयोगकर्ताओं को कैमरा मूवमेंट को समायोजित करने की अनुमति देता है, जिसमें पैन, रोटेट और ज़ूम शामिल हैं।

यहाँ कैनवास से ली गई तस्वीरें हैं:

QQ20241204-092926.png

हालांकि वर्तमान में रील केवल 6 सेकंड के छोटे वीडियो बनाने के लिए सीमित है, AWS ने कहा कि लंबे वीडियो संस्करण जल्द ही लॉन्च किए जाएंगे। इसके अलावा, AWS ने इन टूल में जिम्मेदार उपयोग नियंत्रण उपायों को अंतर्निहित किया है, जिसमें वॉटरमार्क और सामग्री समीक्षा शामिल है, ताकि हानिकारक सामग्री उत्पन्न होने से बचा जा सके।

जासी ने यह भी बताया कि AWS एक वॉयस-टू-वॉयस मॉडल विकसित कर रहा है, जिसकी अपेक्षा 2025 की पहली तिमाही में रिलीज़ होने की है, जो वॉयस इनपुट का समर्थन करेगा और प्राकृतिक मानव आवाज उत्पन्न करेगा। इसके अतिरिक्त, AWS एक "अवधि से अवधि" मॉडल विकसित कर रहा है, जिसकी अपेक्षा 2025 के मध्य में रिलीज़ होने की है, जो टेक्स्ट, वॉयस, इमेज और वीडियो के बीच मल्टी-मोडल परिवर्तन का समर्थन करेगा।

AWS अपने प्रशिक्षण डेटा की गोपनीयता के प्रति सतर्क है और यह भी कहता है कि कॉपीराइट मुद्दों पर मुआवजा नीति प्रदान करेगा, ताकि ग्राहकों के वैध अधिकारों की रक्षा की जा सके।

प्रोजेक्ट लिंक: https://aws.amazon.com/cn/ai/generative-ai/nova/

आधिकारिक ब्लॉग: https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/