Valleyは、バイトダンスが開発した最先端のマルチモーダル大規模言語モデルであり、テキスト、画像、動画データを含む様々なタスクを処理できます。内部のECサイトと短編動画のベンチマークテストで最良の結果を達成し、他のオープンソースモデルを上回っています。OpenCompassテストでは、同規模のモデルと比較して平均スコアが67.40以上であり、10B未満のモデルの中では2位にランクインしています。Valley-EagleバージョンはEagleを参考に、トークンの数を柔軟に調整し、元のビジュアルトークンと並列で動作するビジュアルエンコーダを導入することで、極端な状況でのモデル性能を向上させています。