Valley ist ein von ByteDance entwickeltes multimodales großes Sprachmodell (MLLM), das darauf ausgelegt ist, verschiedene Aufgaben zu bewältigen, die Text-, Bild- und Videodaten umfassen. Das Modell erzielte in internen Benchmarks für E-Commerce und Kurzvideos die besten Ergebnisse und übertraf deutlich andere Open-Source-Modelle. Im OpenCompass-Ranking für multimodale Modelle zeigte es eine herausragende Performance mit einem Durchschnittswert von 67,40 und belegte einen der vorderen Plätze unter den bekannten Open-Source-MLLMs (<10B).