Valley-Eagle-7B es un modelo multimodal de gran escala desarrollado por ByteDance, diseñado para manejar diversas tareas que involucran datos de texto, imagen y vídeo. El modelo ha obtenido los mejores resultados en pruebas internas de comercio electrónico y vídeos cortos, y ha demostrado un rendimiento excepcional en las pruebas de OpenCompass en comparación con modelos de tamaño similar. Valley-Eagle-7B combina LargeMLP y ConvAdapter para construir el proyector, e introduce VisionEncoder para mejorar el rendimiento en escenarios extremos.