Aquila-VL-2B-llava-qwen
Modèle de langage visuel combinant informations image et texte pour un traitement intelligent.
Produit OrdinaireImageModèle de langage visuelMultimodal
Aquila-VL-2B est un modèle de langage visuel (VLM) entraîné sur la base du framework Llava-one-vision. Il utilise le modèle Qwen2.5-1.5B-instruct comme modèle de langage (LLM) et siglip-so400m-patch14-384 comme tour visuelle. Ce modèle a été entraîné sur le jeu de données Infinity-MM auto-construit, comprenant environ 40 millions de paires image-texte. Ce jeu de données combine des données open source collectées sur internet et des données d'instructions synthétiques générées à l'aide de modèles VLM open source. La mise à disposition en open source d'Aquila-VL-2B vise à stimuler le développement des performances multimodales, notamment en ce qui concerne le traitement combiné d'images et de texte.
Aquila-VL-2B-llava-qwen Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44