Valley es un modelo multimodal de gran escala de vanguardia desarrollado por ByteDance, capaz de gestionar diversas tareas que involucran datos de texto, imagen y vídeo. El modelo ha obtenido los mejores resultados en pruebas internas de comercio electrónico y vídeos cortos, superando a otros modelos de código abierto. En las pruebas OpenCompass, obtuvo una puntuación media superior o igual a 67.40, ubicándose en segundo lugar entre los modelos de menos de 10B parámetros. La versión Valley-Eagle, inspirada en Eagle, incorpora un codificador visual que permite ajustar flexiblemente la cantidad de tokens y procesarlos en paralelo con los tokens visuales originales, mejorando el rendimiento del modelo en escenarios extremos.