अलीबाबा ने एआई वीडियो जनरेशन मॉडल के नए ओपन-सोर्स सूट जारी किए

Mobile News 24x7 Hindi February 27, 2025

4 2 minutes read

अलीबाबा ने बुधवार को एक सूट ऑफ आर्टिफिशियल इंटेलिजेंस (एआई) वीडियो जनरेशन मॉडल जारी किया। डब किए गए WAN 2.1, ये ओपन-सोर्स मॉडल हैं जिनका उपयोग शैक्षणिक और वाणिज्यिक दोनों उद्देश्यों के लिए किया जा सकता है। चीनी ई-कॉमर्स दिग्गज ने कई पैरामीटर-आधारित वेरिएंट में मॉडल जारी किए। कंपनी की WAN टीम द्वारा विकसित, इन मॉडलों को पहली बार जनवरी में पेश किया गया था और कंपनी ने दावा किया कि WAN 2.1 अत्यधिक यथार्थवादी वीडियो उत्पन्न कर सकता है। वर्तमान में, इन मॉडलों को एआई और मशीन लर्निंग (एमएल) हब हगिंग फेस पर होस्ट किया जा रहा है।

अलीबाबा WAN 2.1 वीडियो जनरेशन मॉडल का परिचय देता है

नए अलीबाबा वीडियो एआई मॉडल को अलीबाबा की वान टीम के हगिंग फेस पेज पर होस्ट किया गया है। मॉडल पेज भी बड़े भाषा मॉडल (LLMS) के WAN 2.1 सूट का विस्तार करते हैं। कुल चार मॉडल हैं-T2V-1.3B, T2V-14B, I2V-14B-720P, और I2V-14B-480p। T2V टेक्स्ट-टू-वीडियो के लिए छोटा है जबकि I2V इमेज-टू-वीडियो के लिए खड़ा है।

शोधकर्ताओं का दावा है कि सबसे छोटा संस्करण, WAN 2.1 T2V-1.3B, उपभोक्ता-ग्रेड GPU पर 8.19GB VRAM के साथ चलाया जा सकता है। पोस्ट के अनुसार, AI मॉडल लगभग चार मिनट में NVIDIA RTX 4090 का उपयोग करके 480p रिज़ॉल्यूशन के साथ पांच-सेकंड-लंबा वीडियो उत्पन्न कर सकता है।

जबकि WAN 2.1 सुइट का उद्देश्य वीडियो पीढ़ी के लिए है, वे छवि पीढ़ी, वीडियो-टू-ऑडियो पीढ़ी और वीडियो संपादन जैसे अन्य कार्य भी कर सकते हैं। हालांकि, वर्तमान में ओपन-सोर्ड मॉडल इन उन्नत कार्यों में सक्षम नहीं हैं। वीडियो पीढ़ी के लिए, यह चीनी और अंग्रेजी भाषाओं के साथ -साथ छवि इनपुट में पाठ संकेतों को स्वीकार करता है।

आर्किटेक्चर में आकर, शोधकर्ताओं ने खुलासा किया कि WAN 2.1 मॉडल एक प्रसार ट्रांसफार्मर आर्किटेक्चर का उपयोग करके डिज़ाइन किए गए हैं। हालांकि, कंपनी ने नए वैरिएशनल ऑटोएन्कोडर्स (वीएई), प्रशिक्षण रणनीतियों और बहुत कुछ के साथ बेस आर्किटेक्चर का नवाचार किया।

सबसे विशेष रूप से, एआई मॉडल एक नए 3 डी कारण वीएई आर्किटेक्चर का उपयोग करते हैं, जो वान-वीएई डब किया गया है। यह Spatiotemporal संपीड़न में सुधार करता है और स्मृति उपयोग को कम करता है। AutoNencoder ऐतिहासिक अस्थायी जानकारी खोए बिना असीमित-लंबाई 1080p रिज़ॉल्यूशन वीडियो को एनकोड और डिकोड कर सकता है। यह लगातार वीडियो पीढ़ी को सक्षम बनाता है।

आंतरिक परीक्षण के आधार पर, कंपनी ने दावा किया कि WAN 2.1 मॉडल Openai के सोरा AI मॉडल को स्थिरता, दृश्य उत्पादन की गुणवत्ता, एकल वस्तु सटीकता और स्थानिक स्थिति में बेहतर प्रदर्शन करते हैं।

ये मॉडल अपाचे 2.0 लाइसेंस के तहत उपलब्ध हैं। हालांकि यह अकादमिक और अनुसंधान उद्देश्यों के लिए अप्रतिबंधित उपयोग की अनुमति देता है, वाणिज्यिक उपयोग कई प्रतिबंधों के साथ आता है।

अलीबाबा WAN 2.1 वीडियो जनरेशन मॉडल का परिचय देता है

Mobile News 24x7 Hindi

जिमी फॉलन ने एलोन मस्क के "फाइव-टास्क" फेडरल वर्कर डिमांड पर रैप को छोड़ दिया

Related Articles

पहुंच अस्वीकृत

पहुंच अस्वीकृत

पहुंच अस्वीकृत

पहुंच अस्वीकृत