Alibaba Cloud hat das visuelle Sprachmodell Qwen-VL Open Source veröffentlicht. Dies ist nach den im August veröffentlichten allgemeinen Modellen Qwen-7B und dem Chat-Modell Qwen-7B-Chat ein weiteres Open-Source-Großmodell. Qwen-VL unterstützt Chinesisch und Englisch und kann für verschiedene Anwendungen wie Wissensfragen, Bildunterschriften-Generierung und Bildbeantwortung eingesetzt werden. Im Vergleich zu anderen Modellen kann Qwen-VL eine offene Domänenlokalisierung auf Chinesisch durchführen und präzise Bounding Boxes in Bildern markieren. Qwen-VL basiert auf Qwen-7B und integriert einen visuellen Encoder, der die Bildverarbeitung ermöglicht. In Tests zu verschiedenen visuellen Sprach-Aufgaben erzielte Qwen-VL die besten Ergebnisse unter vergleichbaren Modellen. Qwen-VL ist bereits auf Plattformen wie ModelScope Open Source verfügbar. Multimodale Modelle sind eine wichtige Richtung in der Entwicklung großer Sprachmodelle, stehen aber weiterhin vor einigen technischen Herausforderungen.