Qwen-VL: Alibabas neues visuell-sprachliches KI-Modell versteht jetzt Bilder!

AI前线

Veröffentlicht amKI-Nachrichten und -Informationen · 2 Minuten Lesezeit · Aug 25, 2023

Alibaba Cloud hat das visuelle Sprachmodell Qwen-VL Open Source veröffentlicht. Dies ist nach den im August veröffentlichten allgemeinen Modellen Qwen-7B und dem Chat-Modell Qwen-7B-Chat ein weiteres Open-Source-Großmodell. Qwen-VL unterstützt Chinesisch und Englisch und kann für verschiedene Anwendungen wie Wissensfragen, Bildunterschriften-Generierung und Bildbeantwortung eingesetzt werden. Im Vergleich zu anderen Modellen kann Qwen-VL eine offene Domänenlokalisierung auf Chinesisch durchführen und präzise Bounding Boxes in Bildern markieren. Qwen-VL basiert auf Qwen-7B und integriert einen visuellen Encoder, der die Bildverarbeitung ermöglicht. In Tests zu verschiedenen visuellen Sprach-Aufgaben erzielte Qwen-VL die besten Ergebnisse unter vergleichbaren Modellen. Qwen-VL ist bereits auf Plattformen wie ModelScope Open Source verfügbar. Multimodale Modelle sind eine wichtige Richtung in der Entwicklung großer Sprachmodelle, stehen aber weiterhin vor einigen technischen Herausforderungen.

Modèle de génération de vidéo open source Tongyi Wanxiang Wan2.1 : génération de vidéos 480P avec seulement 8,2 Go de VRAM

Tongyi a récemment annoncé la publication en open source de son dernier grand modèle Tongyi Wanxiang, Wan2.1. Wan2.1 est un modèle d'IA axé sur la génération de vidéos de haute qualité. Grâce à ses performances exceptionnelles dans le traitement de mouvements complexes, la reproduction de lois physiques réalistes, l'amélioration de la qualité cinématographique et l'optimisation du respect des instructions, il est devenu l'outil de choix pour les créateurs, les développeurs et les entreprises souhaitant adopter l'ère de l'IA.

KI-Nachrichten und -Informationen

Qwen-VL: Alibabas neues visuell-sprachliches KI-Modell versteht jetzt Bilder!

AI前线

Empfohlene verwandte KI-Nachrichten

Wan 2.1, le modèle de génération vidéo open source d'Alibaba, domine les classements dès son lancement et fonctionne de manière fluide sur une carte graphique 4070

Modèle de génération de vidéo open source Tongyi Wanxiang Wan2.1 : génération de vidéos 480P avec seulement 8,2 Go de VRAM