Valley ist ein hochmodernes, multimodales großes Sprachmodell von ByteDance, das verschiedene Aufgaben mit Text-, Bild- und Videodaten bewältigen kann. Das Modell erzielte in internen Benchmarks für E-Commerce und Kurzvideos Top-Ergebnisse und übertraf andere Open-Source-Modelle. Im OpenCompass-Test erreichte es einen durchschnittlichen Score von größer gleich 67,40 und belegte damit unter den Modellen mit weniger als 10 Milliarden Parametern den zweiten Platz. Die Valley-Eagle-Version basiert auf Eagle und integriert einen flexibel anpassbaren visuellen Encoder, der die Anzahl der Token steuert und parallel zum ursprünglichen visuellen Token arbeitet. Dies verbessert die Leistung des Modells in Extremszenarien.