Aquila-VL-2B-llava-qwen

Modèle de langage visuel combinant informations image et texte pour un traitement intelligent.

Produit OrdinaireImageModèle de langage visuelMultimodal

Aquila-VL-2B est un modèle de langage visuel (VLM) entraîné sur la base du framework Llava-one-vision. Il utilise le modèle Qwen2.5-1.5B-instruct comme modèle de langage (LLM) et siglip-so400m-patch14-384 comme tour visuelle. Ce modèle a été entraîné sur le jeu de données Infinity-MM auto-construit, comprenant environ 40 millions de paires image-texte. Ce jeu de données combine des données open source collectées sur internet et des données d'instructions synthétiques générées à l'aide de modèles VLM open source. La mise à disposition en open source d'Aquila-VL-2B vise à stimuler le développement des performances multimodales, notamment en ce qui concerne le traitement combiné d'images et de texte.

Best AI Websites & Tools

Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen Dernière situation du trafic

Aquila-VL-2B-llava-qwen Tendance des visites

Aquila-VL-2B-llava-qwen Distribution géographique des visites

Aquila-VL-2B-llava-qwen Sources de trafic

Aquila-VL-2B-llava-qwen Alternatives

Aquila-VL-2B-llava-qwen — Modèle de langage visuel combinant informations image et texte pour un traitement intelligent.

Phi-3.5-vision — Modèle multi-modal avancé prenant en charge la compréhension des images et du texte.

Magma-8B — Magma-8B est un modèle d'IA multimodale développé par Microsoft, capable de traiter des entrées image et texte et de générer des sorties textuelles.

SmolVLM-256M-Instruct — SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

InternVL2_5-38B-MPO — Série de modèles InternVL2.5-MPO, basée sur InternVL2.5 et l'optimisation des préférences mixtes, démontrant des performances exceptionnelles.

InternVL2_5-8B-MPO — Modèle linguistique large multi-modal, affichant des performances globales exceptionnelles.

Llama-3.1-70B-Instruct-AWQ-INT4 — Modèle de génération de texte de 70 milliards de paramètres

Valley 2.0 — Modèle linguistique de grande taille multimodale améliorant le traitement des données textuelles, images et vidéos.

InternVL 2.5 — Série de grands modèles linguistiques multimodaux open source

InternVL2_5-38B — Série de modèles linguistiques de grande taille multimodaux de pointe

Qwen2-VL-7B — Qwen2-VL-7B est le dernier modèle linguistique visuel, prenant en charge la compréhension multimodale et la génération de texte.

Qwen2-VL-2B — Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

Amazon Nova — Amazon Nova est le nouveau modèle de base d'Amazon, offrant une intelligence de pointe et un rapport qualité-prix inégalé.

OLMo-2-1124-7B-DPO — Modèle de génération de texte avancé, prenant en charge le traitement de tâches diversifiées.

OLMo-2-1124-13B-DPO — Modèle linguistique performant pour l'anglais, adapté à diverses tâches.

dolmino-mix-1124 — Ensemble de données de haute qualité, utilisé pour la deuxième phase d'entraînement d'OLMo2.

Llama-3.1-Tulu-3-8B-DPO — Modèle de génération de texte avancé, prenant en charge diverses tâches

Llama-3.1-Tulu-3-70B — Famille de modèles de pointe suivant les instructions, fournissant des données, du code et des guides open source.

Démo Qwen Turbo 1M — La démo Qwen Turbo 1M est un espace Hugging Face fourni par Qwen.

ultravox-v0_4_1-llama-3_1-70b — Modèle linguistique large multi-modal vocal

DataChain — Bibliothèque moderne de DataFrames Python, conçue pour l'intelligence artificielle.

Ferret-UI-Llama8b — Modèle linguistique de grande taille multimodale basé sur Llama-3-8B, spécialisé dans les tâches liées à l'interface utilisateur.

aya-101 — Modèle linguistique génératif multilingue

Aya Expanse 32B — Modèle linguistique multilingue de grande taille, prenant en charge 23 langues

GPTS4O.SO — Plateforme IA multimodale intégrant l'interaction texte, image et audio

Échantillonnage basé sur l'entropie — Technique d'échantillonnage basée sur l'entropie, optimisant la diversité et la précision des sorties du modèle.

Llama 3.2 — Modèle d'IA open source, adaptable, distillable et déployable.

Pixtral-12B-2409 — Modèle multimodal de 12 milliards de paramètres, combinant un encodeur visuel pour traiter les images et le texte.

pixtral-12b-240910 — Modèle linguistique large multimodal, prenant en charge la compréhension d'images et de texte.

Gemma 2 2B — Modèle de génération de texte 2B paramétrique léger et avancé.