Valley est un modèle multimodal de grande taille de pointe développé par ByteDance, capable de gérer de nombreuses tâches impliquant des données textuelles, des images et des vidéos. Ce modèle a obtenu les meilleurs résultats aux tests internes d'e-commerce et de courtes vidéos, surpassant d'autres modèles open source. Lors des tests OpenCompass, son score moyen était supérieur ou égal à 67,40, se classant deuxième parmi les modèles de moins de 10 milliards de paramètres. La version Valley-Eagle, inspirée d'Eagle, intègre un encodeur visuel permettant d'ajuster de manière flexible le nombre de jetons et de traiter en parallèle les jetons visuels originaux, améliorant ainsi les performances du modèle dans des scénarios extrêmes.