AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Llama-3.2-11B-Vision

多模态大型语言模型，支持图像和文本处理。

普通产品生产力多模态图像处理

Llama-3.2-11B-Vision 是 Meta 发布的一款多模态大型语言模型（LLMs），它结合了图像和文本处理的能力，旨在提高视觉识别、图像推理、图像描述和回答有关图像的一般问题的性能。该模型在常见的行业基准测试中的表现超过了众多开源和封闭的多模态模型。

Llama-3.2-11B-Vision

Llama-3.2-11B-Vision 最新流量情况

月总访问量

27175375

跳出率

44.30%

平均页面访问数

5.8

平均访问时长

00:04:57

Llama-3.2-11B-Vision 访问量趋势

Llama-3.2-11B-Vision 访问地理位置分布

Llama-3.2-11B-Vision 流量来源

Llama-3.2-11B-Vision 替代品

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

•多模态•大型语言模型

Llama-3.2-11B-Vision — 多模态大型语言模型，支持图像和文本处理。

•多模态•图像处理

Pixtral 12B

Pixtral 12B — 首个多模态 Mistral 模型，支持图像和文本的混合任务处理。

•多模态•AI模型

OneLLM — 一框架，统一所有语言模态

•多模态•图像处理

InternVL3 — InternVL3开源：7种尺寸覆盖文、图、视频处理，多模态能力扩展至工业图像分析

•多模态•图像处理

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

•多模态•文本处理

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

•视觉生成•视觉理解

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

•多模态•图像处理

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

•多模态•大型语言模型

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

•多模态•大型语言模型

InternVL2_5-4B-MPO — 多模态大型语言模型，展示卓越的整体性能

•多模态•大型语言模型

Valley-Eagle-7B — 多模态大型模型，处理文本、图像和视频数据

•多模态•大型模型

Valley — 多模态大型模型，处理文本、图像和视频数据

•多模态•大型模型

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO — 先进的多模态大型语言模型

•多模态•大型语言模型

Janus-1.3B — 多模态理解和生成的统一模型

•多模态•自回归框架

Spirit LM — 多模态语言模型，融合文本和语音

•多模态•语言模型

Pixtral-12B-2409

Pixtral-12B-2409 — 多模态12B参数模型，结合视觉编码器处理图像和文本。

•多模态•图像处理

pixtral-12b-240910 — 多模态大型语言模型，支持图像和文本理解。

•多模态•图像处理

Show-o — 统一多模态理解和生成的单一变换器

•多模态•深度学习

LLaVA-OneVision — 多模态视觉任务的高效转换模型

•多模态•视觉识别

Mini-Gemini — 多模态AI模型，图像理解与生成兼备

•AI模型•图像处理

MouSi — 多模态视觉语言模型

•多模态•视觉语言模型

1min.AI — 多功能AI应用，一分钟让你高效

•图像处理•语音转换

UniVG — 统一多模态视频生成系统

•视频生成•多模态

Kosmos-2 — 面向世界的多模式大型语言模型

•自然语言处理•多模态

Argil — 无代码 AI 自动化工具

•无代码•AI 自动化

InstantCharacter — InstantCharacter 是一种基于扩散变换器的角色个性化框架。

•角色生成•图像处理

Liquid — 一个集成视觉理解和生成的多模态生成模型。

•多模态•生成模型

Pusa — Pusa 是一个新颖的视频扩散模型，支持多种视频生成任务。

•视频生成•开源