अलीबाबा ने एआई वीडियो जनरेशन मॉडल के नए ओपन-सोर्स सूट जारी किए

अलीबाबा ने बुधवार को एक सूट ऑफ आर्टिफिशियल इंटेलिजेंस (एआई) वीडियो जनरेशन मॉडल जारी किया। डब किए गए WAN 2.1, ये ओपन-सोर्स मॉडल हैं जिनका उपयोग शैक्षणिक और वाणिज्यिक दोनों उद्देश्यों के लिए किया जा सकता है। चीनी ई-कॉमर्स दिग्गज ने कई पैरामीटर-आधारित वेरिएंट में मॉडल जारी किए। कंपनी की WAN टीम द्वारा विकसित, इन मॉडलों को पहली बार जनवरी में पेश किया गया था और कंपनी ने दावा किया कि WAN 2.1 अत्यधिक यथार्थवादी वीडियो उत्पन्न कर सकता है। वर्तमान में, इन मॉडलों को एआई और मशीन लर्निंग (एमएल) हब हगिंग फेस पर होस्ट किया जा रहा है।
अलीबाबा WAN 2.1 वीडियो जनरेशन मॉडल का परिचय देता है
नए अलीबाबा वीडियो एआई मॉडल को अलीबाबा की वान टीम के हगिंग फेस पेज पर होस्ट किया गया है। मॉडल पेज भी बड़े भाषा मॉडल (LLMS) के WAN 2.1 सूट का विस्तार करते हैं। कुल चार मॉडल हैं-T2V-1.3B, T2V-14B, I2V-14B-720P, और I2V-14B-480p। T2V टेक्स्ट-टू-वीडियो के लिए छोटा है जबकि I2V इमेज-टू-वीडियो के लिए खड़ा है।
शोधकर्ताओं का दावा है कि सबसे छोटा संस्करण, WAN 2.1 T2V-1.3B, उपभोक्ता-ग्रेड GPU पर 8.19GB VRAM के साथ चलाया जा सकता है। पोस्ट के अनुसार, AI मॉडल लगभग चार मिनट में NVIDIA RTX 4090 का उपयोग करके 480p रिज़ॉल्यूशन के साथ पांच-सेकंड-लंबा वीडियो उत्पन्न कर सकता है।
जबकि WAN 2.1 सुइट का उद्देश्य वीडियो पीढ़ी के लिए है, वे छवि पीढ़ी, वीडियो-टू-ऑडियो पीढ़ी और वीडियो संपादन जैसे अन्य कार्य भी कर सकते हैं। हालांकि, वर्तमान में ओपन-सोर्ड मॉडल इन उन्नत कार्यों में सक्षम नहीं हैं। वीडियो पीढ़ी के लिए, यह चीनी और अंग्रेजी भाषाओं के साथ -साथ छवि इनपुट में पाठ संकेतों को स्वीकार करता है।
आर्किटेक्चर में आकर, शोधकर्ताओं ने खुलासा किया कि WAN 2.1 मॉडल एक प्रसार ट्रांसफार्मर आर्किटेक्चर का उपयोग करके डिज़ाइन किए गए हैं। हालांकि, कंपनी ने नए वैरिएशनल ऑटोएन्कोडर्स (वीएई), प्रशिक्षण रणनीतियों और बहुत कुछ के साथ बेस आर्किटेक्चर का नवाचार किया।
सबसे विशेष रूप से, एआई मॉडल एक नए 3 डी कारण वीएई आर्किटेक्चर का उपयोग करते हैं, जो वान-वीएई डब किया गया है। यह Spatiotemporal संपीड़न में सुधार करता है और स्मृति उपयोग को कम करता है। AutoNencoder ऐतिहासिक अस्थायी जानकारी खोए बिना असीमित-लंबाई 1080p रिज़ॉल्यूशन वीडियो को एनकोड और डिकोड कर सकता है। यह लगातार वीडियो पीढ़ी को सक्षम बनाता है।
आंतरिक परीक्षण के आधार पर, कंपनी ने दावा किया कि WAN 2.1 मॉडल Openai के सोरा AI मॉडल को स्थिरता, दृश्य उत्पादन की गुणवत्ता, एकल वस्तु सटीकता और स्थानिक स्थिति में बेहतर प्रदर्शन करते हैं।
ये मॉडल अपाचे 2.0 लाइसेंस के तहत उपलब्ध हैं। हालांकि यह अकादमिक और अनुसंधान उद्देश्यों के लिए अप्रतिबंधित उपयोग की अनुमति देता है, वाणिज्यिक उपयोग कई प्रतिबंधों के साथ आता है।