AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

SlowFast-LLaVA

视频理解与推理的免训练大型语言模型。

普通产品生产力视频问答多模态学习

SlowFast-LLaVA是一个无需训练的多模态大型语言模型，专为视频理解和推理设计。它无需在任何数据上进行微调，就能在多种视频问答任务和基准测试中达到与最先进视频大型语言模型相当甚至更好的性能。

SlowFast-LLaVA

SlowFast-LLaVA 最新流量情况

月总访问量

474564576

跳出率

36.20%

平均页面访问数

6.1

平均访问时长

00:06:34

SlowFast-LLaVA 访问量趋势

SlowFast-LLaVA 访问地理位置分布

SlowFast-LLaVA 流量来源

SlowFast-LLaVA 替代品

SlowFast-LLaVA

SlowFast-LLaVA — 视频理解与推理的免训练大型语言模型。

•视频问答•多模态学习

DeepSeek-VL2-Small

DeepSeek-VL2-Small — 先进的大型混合专家视觉语言模型

•视觉问答•光学字符识别

MMAudio

MMAudio — MMAudio根据视频和/或文本输入生成同步音频。

•音频合成•视频处理

InternViT-300M-448px-V2_5

InternViT-300M-448px-V2_5 — 基于InternViT-300M-448px的增强版本，提升视觉特征提取能力。

•视觉特征提取•多模态学习

Florence-VL

Florence-VL — 视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

•视觉语言模型•多模态学习

Qwen2-VL-72B

Qwen2-VL-72B — 最新的视觉语言模型，支持多语言和多模态理解

•视觉理解•视频问答

LLaVA-o1

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

•视觉语言模型•逐步推理

PPLLaVA

PPLLaVA — 视频序列理解的GPU实现模型

•视频理解•大型语言模型

Agent S

Agent S — Agent S：一个开放的代理框架，让计算机像人类一样使用计算机。

•自动化•人机交互

FakeShield

FakeShield — 基于多模态大语言模型的可解释图像检测与定位

•图像检测•多模态学习

LLaVA-Video

LLaVA-Video — 视频指令调优与合成数据研究

•视频理解•多模态学习

NVLM

NVLM — 前沿级多模态大型语言模型，实现视觉-语言任务的先进性能。

•多模态学习•大型语言模型

LongLLaVA

LongLLaVA — 高效扩展多模态大型语言模型至1000图像

•多模态学习•图像处理

EAGLE

EAGLE — 多模态大型语言模型设计空间探索

•多模态学习•大型语言模型

Llama3-s v0.2

Llama3-s v0.2 — 最新多模态检查点，提升语音理解能力。

•语音识别•自然语言处理

llama3-s

llama3-s — 一个正在训练中的开源语言模型，具备“听力”能力。

•自然语言处理•机器学习

MAVIS

MAVIS — 数学视觉指令调优模型

•机器学习•多模态学习

LongVA

LongVA — 从语言到视觉的长上下文转换模型

•长上下文•视觉模型

MG-LLaVA

MG-LLaVA — 多粒度视觉指令调优的创新MLLM

•机器学习•视觉处理

4M — 多模态和多任务模型训练框架

•多模态学习•Transformer模型

Stable Diffusion 3 免费在线

Stable Diffusion 3 免费在线 — 先进文本生成图像模型

•AI图像生成•文本到图像

VideoLLaMA2-7B-Base

VideoLLaMA2-7B-Base — 大型视频语言模型，提供视觉问答和视频字幕生成。

•视频分析•多模态学习

VideoLLaMA2-7B-16F-Base

VideoLLaMA2-7B-16F-Base — 大型视频语言模型，用于视觉问答和视频字幕生成。

•视频问答•视频字幕

emo-visual-data

emo-visual-data — 表情包视觉标注数据集

•数据集•多模态学习

llama3v

llama3v — 基于llama3 8B的SOTA视觉模型

•视觉模型•多模态学习

CuMo

CuMo — 一种用于扩展多模态大型语言模型（LLMs）的先进架构。

•多模态学习•大型语言模型

Bunny

Bunny — 轻量级但功能强大的多模态模型家族。

•多模态学习•机器学习

llava-llama-3-8b-v1_1

llava-llama-3-8b-v1_1 — 一款由XTuner优化的LLaVA模型，结合了图像和文本处理能力。

•多模态学习•深度学习

MyGO

MyGO — 多模态知识图谱补全工具

•知识图谱•多模态学习

Stable Diffusion 3 API

Stable Diffusion 3 API — 先进的文本到图像生成系统

•AI生成•图像生成