AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Florence-VL

视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

普通产品编程视觉语言模型多模态学习

Florence-VL是一个视觉语言模型，通过引入生成式视觉编码器和深度广度融合技术，增强了模型对视觉和语言信息的处理能力。该技术的重要性在于其能够提升机器对图像和文本的理解，进而在多模态任务中取得更好的效果。Florence-VL基于LLaVA项目进行开发，提供了预训练和微调的代码、模型检查点和演示。

Florence-VL

Florence-VL 最新流量情况

月总访问量

474564576

跳出率

36.20%

平均页面访问数

6.1

平均访问时长

00:06:34

Florence-VL 访问量趋势

Florence-VL 访问地理位置分布

Florence-VL 流量来源

Florence-VL 替代品

Florence-VL

Florence-VL — 视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

•视觉语言模型•多模态学习

VLM-R1

VLM-R1 — VLM-R1 是一个稳定且通用的强化视觉语言模型，专注于视觉理解任务。

•视觉语言模型•强化学习

OpenGVLab InternVL

OpenGVLab InternVL — 一款AI视觉语言模型，提供图像分析和描述服务。

•图像识别•深度学习

PaliGemma 2

PaliGemma 2 — PaliGemma 2是功能强大的视觉语言模型，简单易调优。

•视觉语言模型•机器学习

LLaVA-o1

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

•视觉语言模型•逐步推理

Bunny

Bunny — 轻量级但功能强大的多模态模型家族。

•多模态学习•机器学习

llava-llama-3-8b-v1_1

llava-llama-3-8b-v1_1 — 一款由XTuner优化的LLaVA模型，结合了图像和文本处理能力。

•多模态学习•深度学习

MoE-LLaVA

MoE-LLaVA — 基于大规模视觉-语言模型的专家混合模型

•大规模模型•多模态学习

QVQ-Max

QVQ-Max — 一款先进的视觉推理模型，能分析图片和视频内容。

•视觉推理•深度学习

BizGen

BizGen — 一款用于生成信息图表的视觉文本渲染工具。

•信息图表•视觉文本

Video-T1

Video-T1 — 通过测试时间缩放显著提升视频生成质量。

•视频生成•测试时间缩放

RF-DETR

RF-DETR — RF-DETR 是由 Roboflow 开发的实时目标检测模型。

•目标检测•深度学习

混元T1

混元T1 — 业界首个超大规模混合 Mamba 推理模型，强推理能力。

•推理模型•深度学习

InfiniteYou

InfiniteYou — 实现灵活且高保真度的图像生成，同时保持身份特征。

•图像生成•身份保护

Pruna

Pruna — Pruna 是一个模型优化框架，帮助开发者快速高效交付模型。

•模型优化•机器学习

长上下文调优（LCT）

长上下文调优（LCT） — 一种提升场景级视频生成能力的技术。

•视频生成•深度学习

Thera

Thera — 一种无混叠的任意尺度超分辨率方法。

•超分辨率•图像处理

IMM

IMM — Inductive Moment Matching 是一种新型的生成模型，用于高质量图像生成。

•生成模型•图像生成

MIDI

MIDI — 通过多实例扩散模型将单张图像生成高保真度的3D场景。

•3D建模•图像处理

R1-Omni

R1-Omni — R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

•多模态•情绪识别

VideoPainter

VideoPainter — VideoPainter 是一款支持任意长度视频修复和编辑的工具，采用文本引导的插件式框架。

•视频修复•文本引导

Bytedance Flux

Bytedance Flux — Flux 是一个用于 GPU 上张量/专家并行的快速通信重叠库。

•深度学习•并行计算

HunyuanVideo-I2V

HunyuanVideo-I2V — HunyuanVideo-I2V 是腾讯推出的基于 HunyuanVideo 的图像到视频生成框架。

•视频生成•深度学习

Aya Vision 8B

Aya Vision 8B — 8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

•多语言•视觉语言模型

QwQ-32B

QwQ-32B — QwQ-32B 是一款强大的推理模型，专为复杂问题解决和文本生成设计，性能卓越。

•推理•文本生成

CogView4-6B

CogView4-6B — CogView4-6B 是一个强大的文本到图像生成模型，专注于高质量图像生成。

•文本到图像•深度学习

UniTok

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

•视觉生成•视觉理解

PhotoDoodle

PhotoDoodle — PhotoDoodle 是一个基于少量样本对数据学习艺术图像编辑的代码实现。

•图像编辑•深度学习

Profiling Data in DeepSeek Infra

Profiling Data in DeepSeek Infra — 分析 V3/R1 中的计算与通信重叠策略，提供深度学习框架的性能分析数据。

•深度学习•性能分析

EPLB

EPLB — 一个用于专家并行负载均衡的开源算法，旨在优化多GPU环境下的专家分配和负载平衡。

•深度学习•负载均衡