Am 21. Februar 2025 gab das internationale Team von Alibaba die offizielle Open-Source-Veröffentlichung seiner neuen multimodalen, großen Sprachmodelle der Ovis2-Serie bekannt.

Ovis2 ist die neueste Version der von Alibabas internationalem Team entwickelten Ovis-Modellreihe. Im Vergleich zur Vorgängerversion 1.6 wurden bei Ovis2 sowohl die Datenkonstruktion als auch die Trainingsmethoden deutlich verbessert. Es wurde nicht nur die Leistungsdichte kleiner Modelle verstärkt, sondern auch die Fähigkeit zum Chain-of-Thought (CoT)-Schlussfolgern durch Instruktions-Feintuning und Präferenzlernen erheblich gesteigert. Darüber hinaus wurde Ovis2 um die Verarbeitung von Videos und mehreren Bildern erweitert und verfügt über verbesserte Mehrsprachigkeit und OCR-Fähigkeiten in komplexen Szenarien, was die Praktikabilität des Modells deutlich erhöht.

Die jetzt veröffentlichte Ovis2-Serie umfasst sechs Versionen mit 1B, 2B, 4B, 8B, 16B und 34B Parametern. Alle Parameterversionen erreichen den Stand der Technik (SOTA) für ihre jeweilige Größe. Ovis2-34B zeigt dabei auf der renommierten Benchmark-Plattform OpenCompass herausragende Leistungen. In der Rangliste der multimodalen Universalfähigkeiten belegt Ovis2-34B den zweiten Platz unter allen Open-Source-Modellen und übertrifft mit weniger als der Hälfte der Parameter zahlreiche Open-Source-Flaggschiffmodelle mit 70B Parametern. In der Rangliste des multimodalen mathematischen Schließens belegt Ovis2-34B sogar den ersten Platz unter allen Open-Source-Modellen, wobei auch die anderen Größenversionen bemerkenswerte Schlussfolgerungsfähigkeiten zeigen. Diese Ergebnisse belegen nicht nur die Effektivität der Ovis-Architektur, sondern auch das enorme Potenzial der Open-Source-Community bei der Weiterentwicklung multimodaler großer Sprachmodelle.

微信截图_20250221172215.png

Das Architekturdesign von Ovis2 löst geschickt die Einschränkung unterschiedlicher Einbettungsstrategien zwischen Modalitäten. Es besteht aus drei Schlüsselkomponenten: einem visuellen Tokenizer, einer visuellen Einbettungstabelle und einem LLM. Der visuelle Tokenizer unterteilt das Eingabebild in mehrere Bildabschnitte, extrahiert mithilfe eines visuellen Transformers Merkmale und ordnet diese über eine visuelle Head-Schicht „visuellen Wörtern“ zu, wodurch probabilistische visuelle Token entstehen. Die visuelle Einbettungstabelle speichert die Einbettungsvektoren für jedes visuelle Wort, während der LLM die visuellen und textuellen Einbettungsvektoren verkettet, verarbeitet und eine Textausgabe generiert, um multimodale Aufgaben zu erledigen.

Bei der Trainingsstrategie verwendet Ovis2 ein vierstufiges Trainingsverfahren, um seine multimodalen Verständnisfähigkeiten voll auszuschöpfen. In der ersten Stufe werden die meisten LLM- und ViT-Parameter eingefroren, um das visuelle Modul zu trainieren und die Umwandlung von visuellen Merkmalen in Einbettungen zu erlernen. In der zweiten Stufe wird die Merkmalsextraktionsfähigkeit des visuellen Moduls weiter verbessert, um das Verständnis von hochauflösenden Bildern, Mehrsprachigkeit und OCR-Fähigkeiten zu verbessern. In der dritten Stufe werden visuelle Caption-Daten in Dialogform verwendet, um die visuelle Einbettung und das Dialogformat des LLM aufeinander abzustimmen. Die vierte Stufe umfasst ein multimodales Instruktions-Training und Präferenzlernen, um die Befolgung von Benutzeranweisungen und die Ausgabequalität des Modells in verschiedenen Modalitäten weiter zu verbessern.

Um das Verständnis von Videos zu verbessern, wurde für Ovis2 ein innovativer Algorithmus zur Auswahl von Schlüsselbildern entwickelt. Dieser Algorithmus wählt anhand der Relevanz von Bildern und Text, der kombinatorischen Vielfalt der Bilder und der Sequenz der Bilder die nützlichsten Videobilder aus. Durch hochdimensionale bedingte Ähnlichkeitsberechnungen, deterministische Punktprozesse (DPP) und Markov-Entscheidungsprozesse (MDP) kann der Algorithmus in einem begrenzten visuellen Kontext effizient Schlüsselbilder auswählen und so die Leistung des Videoverständnisses verbessern.

Die Ovis2-Modellreihe zeigt besonders hervorragende Ergebnisse in der OpenCompass-Multimodal-Benchmark-Rangliste. Modelle unterschiedlicher Größe erzielen in mehreren Benchmarks SOTA-Ergebnisse. Beispielsweise belegt Ovis2-34B in den Ranglisten für multimodale Universalfähigkeiten und mathematisches Schließen die Plätze zwei und eins und zeigt damit seine beeindruckende Leistung. Darüber hinaus erzielt Ovis2 auch in der Rangliste für Videoverständnis Spitzenleistungen, was seine Vorteile bei multimodalen Aufgaben weiter unterstreicht.

Das internationale Team von Alibaba betont, dass Open Source ein wichtiger Faktor für den Fortschritt der KI-Technologie ist. Durch die Veröffentlichung der Forschungsergebnisse zu Ovis2 hofft das Team, mit Entwicklern weltweit zusammenzuarbeiten, um die Grenzen multimodaler großer Sprachmodelle zu erforschen und neue innovative Anwendungen anzustoßen. Der Code von Ovis2 ist jetzt auf GitHub verfügbar, die Modelle können auf Hugging Face und Modelscope abgerufen werden, und es gibt eine Online-Demo zur Nutzung. Die zugehörige Forschungsarbeit wurde auf arXiv veröffentlicht und steht Entwicklern und Forschern zur Verfügung.

Code: https://github.com/AIDC-AI/Ovis

Modell (Huggingface): https://huggingface.co/AIDC-AI/Ovis2-34B

Modell (Modelscope): https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

arXiv: https://arxiv.org/abs/2405.20797