Das Alibaba DAMO Academy's Tongyi Qianwen-Team gab am 30. August 2024 ein bedeutendes Update seines neuesten Modells, Qwen2-VL, bekannt. Qwen2-VL zeigt signifikante Verbesserungen im Bildverständnis, der Videoverarbeitung und der Mehrsprachigkeit und setzt neue Maßstäbe bei wichtigen Leistungsindikatoren.

Zu den neuen Funktionen von Qwen2-VL gehören verbesserte Bildverarbeitungsfähigkeiten für ein genaueres Verständnis und eine präzisere Interpretation visueller Informationen; erweiterte Videoanalysefähigkeiten für die Echtzeit-Analyse dynamischer Videoinhalte; eine integrierte visuelle Agent-Funktion, die das Modell in einen leistungsstarken Agenten für komplexe Schlussfolgerungen und Entscheidungen verwandelt; und erweiterte Mehrsprachigkeit für einen einfacheren und effizienteren Zugriff in verschiedenen Sprachumgebungen.

微信截图_20240830075330.png

Auf der technischen Ebene unterstützt Qwen2-VL dynamische Auflösungen und kann Bilder beliebiger Auflösung verarbeiten, ohne sie in Segmente aufteilen zu müssen. Dies stellt die Konsistenz zwischen der Modell-Eingabe und den inhärenten Informationen des Bildes sicher. Darüber hinaus ermöglicht die innovative Multimodal Rotary Position Embedding (M-ROPE) die gleichzeitige Erfassung und Integration von 1D-Text-, 2D-Bild- und 3D-Videopositionsinformationen.

Das Qwen2-VL-7B-Modell bewahrt selbst mit 7 Milliarden Parametern die Unterstützung für Bild-, Mehrbild- und Videoeingaben und zeichnet sich durch hervorragende Leistungen bei Dokumentenverständnisaufgaben und mehrsprachigen Bildtextverständnisaufgaben aus.

Gleichzeitig wurde ein für den mobilen Einsatz optimiertes 2B-Modell vorgestellt, das trotz seiner geringeren Parameterzahl (2 Milliarden) beeindruckende Ergebnisse im Bild-, Video- und mehrsprachigen Verständnis liefert.

Modell-Links:

Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct