Yi-VL Multimodales Sprachmodell

Das Yi-VL Multimodale Sprachmodell ist das neueste Mitglied der Yi-Modellfamilie von Lingyi Wanwu. Es zeichnet sich durch herausragende Fähigkeiten im Verständnis von Bildern und Texten sowie in der Dialoggenerierung aus. Yi-VL erzielte sowohl im englischen Datensatz MMMU als auch im chinesischen Datensatz CMMMU Spitzenleistungen und demonstrierte seine Stärke in komplexen, interdisziplinären Aufgaben.

Yi-VL-34B übertraf im neuen multimodalen Benchmark MMMU mit einer Genauigkeit von 41,6 % andere große multimodale Modelle und zeigte ein starkes Verständnis und die Anwendung interdisziplinären Wissens. Das Yi-VL-Modell basiert auf der Open-Source-Architektur LLaVA und umfasst einen Vision Transformer (ViT), ein Projektionsmodul und die großen Sprachmodelle Yi-34B-Chat und Yi-6B-Chat.

ViT dient zur Bildkodierung. Das Projektionsmodul ermöglicht die Ausrichtung der Bild- und Textmerkmale im Merkmalsraum. Die großen Sprachmodelle liefern ein starkes Sprachverständnis und -generierungspotenzial.