अलीबाबा टीम ने एक चित्र वीडियो जनरेशन फ्रेमवर्क EMO जारी किया है, जो समृद्ध चेहरे के भाव और सिर की स्थिति के साथ ध्वनि चित्र वीडियो उत्पन्न कर सकता है। EMO संदर्भ नेटवर्क का उपयोग करके संदर्भ छवियों और क्रियाकलाप फ्रेम से विशेषताएँ निकालता है, ध्वनि को पूर्व-प्रशिक्षित ऑडियो एन्कोडर के माध्यम से संसाधित करता है और सम्मिलित करता है, कई फ्रेम शोर और चेहरे के क्षेत्र के मास्क के संयोजन के माध्यम से वीडियो उत्पन्न करता है। प्रयोगात्मक परिणाम बताते हैं कि EMO अभिव्यक्ति और वास्तविकता के मामले में मौजूदा तरीकों से बेहतर है। इस मॉडल के संभावित अनुप्रयोग दिशा डिजिटल मीडिया और आभासी सामग्री उत्पादन प्रौद्योगिकी के स्तर को बढ़ाएगी, लेकिन इसका उपयोग अपराध उपकरण के रूप में भी किया जा सकता है।
अली ने चित्र वीडियो निर्माण ढांचा EMO जारी किया
