Die Cloud-Computing-Abteilung von Alibaba hat gerade ein brandneues KI-Modell veröffentlicht – Qwen2-VL. Die Stärke dieses Modells liegt in seinem Verständnis von visuellen Inhalten, einschließlich Bildern und Videos. Es kann sogar Videos mit einer Länge von bis zu 20 Minuten in Echtzeit analysieren – beeindruckend!
Produktzugang: https://qwenlm.github.io/blog/qwen2-vl/
Im Vergleich zu anderen führenden, modernen Modellen (wie Metas Llama3.1, OpenAIs GPT-4o, Anthropics Claude3Haiku und Googles Gemini-1.5Flash) schneidet es in Drittanbieter-Benchmark-Tests hervorragend ab.
Alibaba bewertet die visuellen Fähigkeiten des Modells anhand von sechs Schlüsseldimensionen: Lösung komplexer Probleme auf Universitätsniveau, mathematische Fähigkeiten, Verständnis von Dokumenten und Tabellen, mehrsprachiges Text-Bild-Verständnis, allgemeine Szenario-Fragenbeantwortung, Videoverständnis und agentenbasierte Interaktion. Das 72B-Modell zeigt bei den meisten Kennzahlen Top-Performance und übertrifft sogar Closed-Source-Modelle wie GPT-4o und Claude 3.5-Sonnet. Besonders hervorzuheben ist seine bemerkenswerte Leistung im Bereich Dokumentenverständnis.
Überragende Fähigkeit zur Analyse von Bildern und Videos
Qwen2-VL zielt darauf ab, unser Verständnis und unsere Verarbeitung visueller Daten zu verbessern. Es kann nicht nur statische Bilder analysieren, sondern auch Videoinhalte zusammenfassen, dazugehörige Fragen beantworten und sogar in Echtzeit Online-Chat-Support bieten.
Wie das Qwen-Forschungsteam in seinem Blogbeitrag auf GitHub zu den neuen Qwen2-VL-Modellreihen schreibt: „Neben statischen Bildern erweitert Qwen2-VL seine Fähigkeiten auf die Analyse von Videoinhalten. Es kann Videoinhalte zusammenfassen, dazugehörige Fragen beantworten und einen kontinuierlichen Dialogfluss in Echtzeit aufrechterhalten, um Echtzeit-Chat-Support zu bieten. Diese Funktion ermöglicht es ihm, als persönlicher Assistent zu fungieren und den Benutzern durch die Bereitstellung von Erkenntnissen und Informationen, die direkt aus den Videoinhalten extrahiert werden, zu helfen.“
Noch wichtiger ist, dass es laut offizieller Aussage Videos mit einer Länge von über 20 Minuten analysieren und Fragen zu den Inhalten beantworten kann. Das bedeutet, dass Qwen2-VL ein wertvoller Assistent sein kann, egal ob es sich um Online-Lernen, technischen Support oder andere Anwendungen handelt, die ein Verständnis von Videoinhalten erfordern. Das Unternehmen zeigte ein Beispiel des neuen Modells, das ein Video korrekt analysiert und beschrieben hat:
Darüber hinaus ist Qwen2-VL auch sprachlich sehr leistungsstark und unterstützt Englisch, Chinesisch und mehrere europäische Sprachen sowie Japanisch, Koreanisch, Arabisch und Vietnamesisch, sodass es weltweit von Nutzern einfach verwendet werden kann. Um das Verständnis seiner Fähigkeiten zu verbessern, hat Alibaba auch relevante Anwendungsbeispiele auf seinem GitHub-Account geteilt.
Drei Versionen
Das neue Modell gibt es in drei Versionen mit unterschiedlichen Parametern: Qwen2-VL-72B (72 Milliarden Parameter), Qwen2-VL-7B und Qwen2-VL-2B. Die 7B- und 2B-Versionen werden unter der offenen Apache2.0-Lizenz bereitgestellt, sodass Unternehmen sie frei für kommerzielle Zwecke nutzen können.
Die größte 72B-Version ist derzeit jedoch nicht öffentlich zugänglich und kann nur über eine spezielle Lizenz und API abgerufen werden.
Darüber hinaus führt Qwen2-VL einige neue technische Funktionen ein, wie z. B. die Naive Dynamic Resolution-Unterstützung, die Bilder mit unterschiedlichen Auflösungen verarbeiten kann, um die Konsistenz und Genauigkeit der visuellen Interpretation zu gewährleisten. Es gibt auch das Multimodal Rotary Position Embedding (M-ROPE)-System, das Positionsinformationen zwischen Text, Bildern und Videos synchron erfassen und integrieren kann.
Die Veröffentlichung von Qwen2-VL markiert einen weiteren Durchbruch in der Technologie der visuellen Sprachmodelle. Das Qwen-Team von Alibaba gibt an, dass es weiterhin an der Verbesserung der Funktionen dieser Modelle und der Erforschung weiterer Anwendungsszenarien arbeiten wird.
Wichtigste Punkte:
🌟 ** Leistungsstarke Videoanalysefähigkeit **: Kann Videoinhalte von über 20 Minuten in Echtzeit analysieren und dazugehörige Fragen beantworten!
✅ 🌍 ** Mehrsprachige Unterstützung **: Unterstützt mehrere Sprachen, sodass es weltweit von Nutzern einfach verwendet werden kann!
✅ 📦 ** Open-Source-Version verfügbar **: 7B- und 2B-Versionen sind Open Source, Unternehmen können sie frei verwenden – ideal für innovative Teams!