मैजिशियन, Tsinghua विश्वविद्यालय की प्राकृतिक भाषा प्रसंस्करण प्रयोगशाला द्वारा विकसित एक बहु-मोडल बड़ा भाषा मॉडल है, जो बहु-छवि स्थानीयकरण कार्यों पर केंद्रित है। इस मॉडल ने एक अभिनव प्रशिक्षण ढाँचे और बड़े पैमाने पर डेटासेट MGrounding-630k को शामिल करके बहु-छवि परिदृश्यों में सटीक स्थानीयकरण क्षमता में उल्लेखनीय सुधार किया है। यह न केवल मौजूदा बहु-मोडल बड़े भाषा मॉडल से आगे निकल गया है, बल्कि प्रदर्शन में 70B से भी बड़े मॉडल को भी पार कर गया है। मैजिशियन का मुख्य लाभ इसकी जटिल बहु-छवि कार्यों को संभालने और मुक्त-रूप स्थानीयकरण निर्देश प्रदान करने की क्षमता है, जिससे बहु-छवि समझ क्षेत्र में इसका महत्वपूर्ण अनुप्रयोग संभावनाएँ हैं। यह मॉडल वर्तमान में हगिंग फेस पर खुला-स्रोत है, और शोधकर्ताओं और डेवलपर्स द्वारा उपयोग के लिए उपलब्ध है।