Alibaba Cloud veröffentlicht Qwen-VL: Ein Open-Source Multimodales großes Sprachmodell

Am 25. August stellte Alibaba Cloud das groß angelegte visuelle Sprachmodell Qwen-VL vor, das mehrere Sprachen einschließlich Chinesisch und Englisch unterstützt und über die Fähigkeit zur gemeinsamen Interpretation von Text und Bildern verfügt. Qwen-VL basiert auf dem zuvor von Alibaba Cloud open-source bereitgestellten allgemeinen Sprachmodell Qwen-7B. Im Vergleich zu anderen visuellen Sprachmodellen bietet Qwen-VL zusätzliche Funktionen wie visuelle Lokalisierung und das Verständnis von chinesischen Schriftzeichen in Bildern. Qwen-VL hat auf GitHub bereits über 3400 Sterne und über 400.000 Downloads erhalten. Visuelle Sprachmodelle gelten als wichtiger Entwicklungsschritt für die allgemeine KI. Die Branche ist der Ansicht, dass Modelle, die Multimodal-Eingaben unterstützen, die Fähigkeit verbessern, die Welt zu verstehen und die Anwendungsszenarien erweitern. Durch das Open-Source-Angebot von Qwen-VL fördert Alibaba Cloud den Fortschritt der allgemeinen KI-Technologie weiter.

KI-Nachrichten und -Informationen

Alibaba Cloud veröffentlicht Qwen-VL: Ein Open-Source Multimodales großes Sprachmodell

亿邦动力