LLaVA

大型语言和视觉助手，实现多模态聊天和科学问答

普通产品图像多模态聊天

LLaVA是一种新型的端到端训练的大型多模态模型，将视觉编码器和Vicuna相结合，实现了令人印象深刻的聊天能力，模仿多模态GPT-4的精神，并在科学问答方面取得了新的最高准确率。LLaVA的使用场景包括日常用户应用的多模态聊天和科学领域的多模态推理。LLaVA的数据、代码和检查点仅限于研究用途，并遵循CLIP、LLaMA、Vicuna和GPT-4的许可协议。

Best AI Websites & Tools

LLaVA

LLaVA 最新流量情况

LLaVA 访问量趋势

LLaVA 访问地理位置分布

LLaVA 流量来源

LLaVA 替代品

GPT4o (Omni) — GPT4 Omni是一款更多功能的语音助手。

ChatGPT Sidebar & GPT-4 Vision Image & Gemini — 聊天与文件上传助手

PocketAI — 使用WhatsApp轻松创建SEO优化内容

GPT4 Vision Chatbot — GPT-4 Vision AI的无代码聊天机器人构建器

Automatically use GPT-4 in ChatGPT — 自动在ChatGPT中使用GPT-4

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

Magma — Magma 是一个能够理解和执行多模态输入的基础模型，可用于复杂任务和环境。

Grok 3 — xAI推出的最新旗舰AI模型Grok 3，具备强大的推理和多模态处理能力。

CLaMP 3 — CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。

Rizz App AI — AI聊天助手，帮你创建完美的开场白和互动对话，提升约会体验。

小艺 — 小艺是华为推出的智能助手，提供聊天、写作、编程等多种AI服务。

Gemini Pro Chatbot — 一个可以方便使用 Google Gemini Pro 2.0 的移动客户端，支持实时对话和多AI代理。

Krea Chat — Krea Chat 是一个由 DeepSeek 提供支持的 AI 聊天工具，将 Krea 的所有功能集成到聊天界面中。

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

MedRAX — MedRAX是一个用于胸部X光片解读的医疗推理AI代理，整合多种分析工具，无需额外训练即可处理复杂医疗查询。

Qwen2.5-VL — Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

Gemini 2.0 Family — Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型，包含 Flash、Flash-Lite 和 Pro 版本。

Gemini 2.0 Pro — Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型，专注于复杂任务处理和编程性能。

Exa & Deepseek Chat App — 一个开源的聊天应用，使用Exa的API进行网络搜索，结合Deepseek R1进行推理。

OmniHuman-1 — OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。

rag-chat-component — 一个为RAG（检索增强生成）AI助手设计的React组件，可快速集成到Next.js应用中。

MILS — LLMs 无需任何培训就能看见和听见

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

CUA — CUA 是一种能够通过图形界面与数字世界交互的通用接口。

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

SmolVLM-500M-Instruct — SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。