Das Alibaba DAMO Academy hat kürzlich Valley2 vorgestellt, ein multimodales großes Sprachmodell. Dieses Modell wurde speziell für E-Commerce-Szenarien entwickelt und zielt darauf ab, die Leistung in verschiedenen Bereichen durch eine skalierbare visuelle und sprachliche Architektur zu verbessern und die Anwendungsgrenzen im E-Commerce und bei Kurzvideos zu erweitern. Valley2 verwendet Qwen2.5 als LLM-Backbone, kombiniert mit einem SigLIP-384-Bildkodierer und nutzt MLP-Schichten und Faltungen für eine effiziente Merkmalsumwandlung. Innovativ sind die Einführung eines großen visuellen Vokabulars, eines Faltungsadapters (ConvAdapter) und des Eagle-Moduls, die die Flexibilität bei der Verarbeitung vielfältiger realer Eingaben und die Effizienz von Training und Inferenz verbessern.

微信截图_20250115084005.png

Die Daten für Valley2 bestehen aus Daten im OneVision-Stil, Daten aus dem E-Commerce- und Kurzvideo-Bereich sowie Daten zum Chain-of-Thought (CoT) für die Lösung komplexer Probleme. Der Trainingsprozess umfasst vier Phasen: Text-Bild-Ausrichtung, hochwertiges Wissenslernen, Anweisungs-Feinabstimmung und Chain-of-Thought-Nachtraining. In Experimenten zeigte Valley2 eine hervorragende Leistung in mehreren öffentlich zugänglichen Benchmark-Tests, insbesondere mit hohen Punktzahlen bei MMBench, MMStar und MathVista, und übertraf andere Modelle ähnlicher Größe im Ecom-VQA-Benchmark.

Zukünftig plant die Alibaba DAMO Academy die Veröffentlichung eines Allround-Modells, das Text-, Bild-, Video- und Audiomodalitäten umfasst, und die Einführung einer auf Valley basierenden multi-modalen Einbettungs-Trainingsmethode zur Unterstützung von Downstream-Retrieval- und Erkennungsanwendungen.

Die Einführung von Valley2 markiert einen wichtigen Fortschritt im Bereich der multimodalen großen Sprachmodelle und zeigt das Potenzial, die Modellleistung durch strukturelle Verbesserungen, den Aufbau von Datensätzen und die Optimierung von Trainingsstrategien zu steigern.

Modell-Link:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

Code-Link:

https://github.com/bytedance/Valley

Paper-Link:

https://arxiv.org/abs/2501.05901