लेख में बाइटडांस द्वारा पेश किए गए BuboGPT मॉडल का परिचय दिया गया है, जो पाठ, छवि और ऑडियो तीन प्रकार के मोड के बहु-मोडल संयुक्त समझ का समर्थन करता है, और पहली बार दृश्य स्थान निर्धारण तकनीक को पेश करता है, जो छवि में वस्तुओं को सटीक रूप से स्थान निर्धारित करने में सक्षम है। शोधकर्ताओं ने बहु-मोडल निर्देश समायोजन प्रशिक्षण योजना को अपनाकर BuboGPT को बहु-मोडल कार्यों पर अच्छे परिणाम प्राप्त करने में सक्षम बनाया है। इस मॉडल को ओपन-सोर्स किया गया है और एक खेलने योग्य डेमो पृष्ठ प्रदान किया गया है।