Valley-Eagle-7B ist ein von ByteDance entwickeltes multimodales großes Sprachmodell, das darauf ausgelegt ist, verschiedene Aufgaben zu bewältigen, die Text-, Bild- und Videodaten umfassen. Das Modell erzielte in internen E-Commerce- und Kurzvideo-Benchmarks beste Ergebnisse und zeigte im OpenCompass-Test eine überragende Leistung im Vergleich zu Modellen ähnlicher Größe. Valley-Eagle-7B kombiniert LargeMLP und ConvAdapter zum Aufbau von Projektoren und führt VisionEncoder ein, um die Leistung des Modells in Extremszenarien zu verbessern.