एक्विला-वीएल-2बी मॉडल एललावा-वन-विजन ढांचे पर प्रशिक्षित एक दृश्य भाषा मॉडल (वीएलएम) है, जो क्वेन2.5-1.5बी-इंस्ट्रक्ट मॉडल को भाषा मॉडल (एलएलएम) के रूप में उपयोग करता है, और सिग्लिप-एसओ400एम-पैच14-384 को दृश्य टॉवर के रूप में उपयोग करता है। यह मॉडल स्व-निर्मित इन्फिनिटी-एमएम डेटासेट पर प्रशिक्षित है, जिसमें लगभग 40 मिलियन छवि-पाठ जोड़े हैं। इस डेटासेट में इंटरनेट से एकत्रित ओपन-सोर्स डेटा और ओपन-सोर्स वीएलएम मॉडल का उपयोग करके उत्पन्न सिंथेटिक निर्देश डेटा शामिल है। एक्विला-वीएल-2बी मॉडल का ओपन-सोर्सकरण बहु-मोडल प्रदर्शन के विकास को बढ़ावा देने के लिए है, खासकर छवि और पाठ प्रसंस्करण के संयोजन में।