Alibaba Cloud hat das neue visuelle Modell Qwen2.5-VL von Tongyi Qianwen als Open Source veröffentlicht und bietet es in drei Größen an: 3B, 7B und 72B.

Das Flaggschiffmodell Qwen2.5-VL-72B erreichte in 13 renommierten Benchmark-Tests den ersten Platz im Bereich des visuellen Verständnisses und übertraf dabei GPT-4o und Claude3.5. Laut Alibaba Cloud kann das neue Qwen2.5-VL Bildinhalte genauer analysieren und unterstützt bahnbrechend das Verständnis von Videos mit einer Länge von über einer Stunde. Das Modell kann in Videos nach bestimmten Ereignissen suchen und die wichtigsten Punkte verschiedener Zeitabschnitte zusammenfassen, um Benutzern schnell und effizient zu helfen, wichtige Informationen aus Videos zu extrahieren.

Alibaba Cloud Tongyi Open Source Qwen2.5-VL: Stärkste visuelle KI, übertrifft GPT-4o

Darüber hinaus kann sich Qwen2.5-VL ohne Feinabstimmung in einen visuellen KI-Agenten (Visual Agents) verwandeln, der Handys und Computer steuern kann und komplexe mehrstufige Operationen ausführt, wie z. B. das Senden von Glückwünschen an bestimmte Freunde, die Bildbearbeitung am Computer oder die Buchung von Tickets auf dem Handy. Qwen2.5-VL erkennt nicht nur gängige Objekte wie Blumen, Vögel, Fische und Insekten, sondern kann auch Text, Diagramme, Symbole, Grafiken und Layouts in Bildern analysieren. Alibaba Cloud hat außerdem die OCR-Erkennungsfähigkeit von Qwen2.5-VL verbessert und die Fähigkeit zur Texterkennung und -lokalisierung in verschiedenen Szenarien, Sprachen und Richtungen verstärkt.

Alibaba Cloud Tongyi Open Source Qwen2.5-VL: Stärkste visuelle KI, übertrifft GPT-4o

Gleichzeitig wurde die Fähigkeit zur Informationsgewinnung deutlich verbessert, um den wachsenden Anforderungen an die Digitalisierung und Intelligenz in Bereichen wie der Qualifikationsüberprüfung und dem Finanzwesen gerecht zu werden.

Wichtigste Punkte:

 🌟 Alibaba Cloud Tongyi Qianwen veröffentlicht Qwen2.5-VL als Open Source in drei Versionen: 3B, 7B und 72B. 

📈 Qwen2.5-VL-72B übertrifft GPT-4o und Claude3.5 in visuellen Verständnis-Tests. 

👀 Qwen2.5-VL unterstützt das Verständnis von Videos mit einer Länge von über einer Stunde und bietet verbesserte OCR-Erkennungsfähigkeiten.