Aquila-VL-2B-llava-qwen

视觉语言模型，结合图像和文本信息进行智能处理。

普通产品图像视觉语言模型多模态

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型（VLM），选用Qwen2.5-1.5B-instruct模型作为语言模型（LLM），并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练，包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源，旨在推动多模态性能的发展，特别是在图像和文本的结合处理方面。

Best AI Websites & Tools

Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen 最新流量情况

Aquila-VL-2B-llava-qwen 访问量趋势

Aquila-VL-2B-llava-qwen 访问地理位置分布

Aquila-VL-2B-llava-qwen 流量来源

Aquila-VL-2B-llava-qwen 替代品

InternVL2_5-1B — 多模态大型语言模型，支持图像和文本理解

Qwen2-VL-7B — Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

PaliGemma 2 — PaliGemma 2是功能强大的视觉语言模型，简单易调优。

Molmo — 先进的多模态AI模型家族

Phi-3.5-vision — 先进的多模态模型，支持图像和文本理解。

Falcon 2 — Falcon 2 是一款开源、多语言、多模态的模型，具备图像到文本转换能力。

Gemini 1.5 Flash — Google 一款轻量级、高效能的AI模型，专为大规模高频任务设计。

PaliGemma — Google的尖端开放视觉语言模型

Magma-8B — Magma-8B 是微软推出的一款多模态 AI 模型，能够处理图像和文本输入并生成文本输出。

Qwen2.5-VL — Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

Ollama OCR for web — 一个强大的OCR包，使用最先进的视觉语言模型提取图像中的文本。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

Llama-3.1-70B-Instruct-AWQ-INT4 — 70B参数的文本生成模型

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

Valley-Eagle-7B — 多模态大型模型，处理文本、图像和视频数据

Llama-lynx-70b-4bitAWQ — 70亿参数的文本生成模型

DeepSeek-VL2-Tiny — 先进的大型混合专家视觉语言模型

POINTS-Yi-1.5-9B-Chat — 视觉语言模型的最新进展，集成微信AI的新技术

POINTS-Qwen-2-5-7B-Chat — 视觉语言模型的最新进展

InternVL 2.5 — 开源多模态大型语言模型系列

OLMo-2-1124-7B-RM — 大型语言模型，用于文本生成和分类

InternViT-6B-448px-V2_5 — 基于InternViT-6B-448px-V1-5的增强版视觉模型

InternVL2_5-38B — 先进的多模态大型语言模型系列

InternVL2_5-78B — 先进多模态大型语言模型系列