AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Stable Diffusion 3.5 Medium

基于文本生成图像的多模态扩散变换器模型

普通产品图像文本到图像生成模型

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器，通过QK-规范化提高训练稳定性，并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium 最新流量情况

月总访问量

29742941

跳出率

44.20%

平均页面访问数

5.9

平均访问时长

00:04:44

Stable Diffusion 3.5 Medium 访问量趋势

Stable Diffusion 3.5 Medium 访问地理位置分布

Stable Diffusion 3.5 Medium 流量来源

Stable Diffusion 3.5 Medium 替代品

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium — 基于文本生成图像的多模态扩散变换器模型

•文本到图像•生成模型

stable-diffusion-3.5-large-turbo

stable-diffusion-3.5-large-turbo — 高效能的文本到图像生成模型

•文本到图像•生成模型

FlexRAG

FlexRAG — 一个用于信息检索和生成的灵活高性能框架

•信息检索•生成模型

stable-diffusion-3.5-large

stable-diffusion-3.5-large — 高性能的文本到图像生成模型

•图像生成•文本到图像

AuraFlow

AuraFlow — 开源的基于流的文本到图像生成模型

•文本到图像•生成模型

PROTEUS

PROTEUS — 实时表情生成人类模型

•实时•生成模型

Lumina-T2X

Lumina-T2X — 一个统一的文本到任意模态生成框架

•文本到图像•文本到视频

Trajectory Consistency Distillation (TCD)

Trajectory Consistency Distillation (TCD) — 提高文本到图像合成质量的一致性蒸馏技术

•图像合成•一致性蒸馏

Orthogonal Finetuning (OFT)

Orthogonal Finetuning (OFT) — OFT可有效稳定微调文本到图像扩散模型

•文本到图像•图像合成

CogView

CogView — 基于Transformer的通用领域文本到图像生成

•Transformer•文本到图像

Gemini 2.5

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

•编程•推理

Mistral Small 3.1

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

•多模态•文本处理

MistralOCR.net

MistralOCR.net — Mistral OCR 是一款强大的文档理解 OCR 产品，能够以极高的准确性从 PDF 和图像中提取文本、图像、表格和方程式。

•文档处理•OCR

Gemini Robotics

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

•机器人•多模态

IMM

IMM — Inductive Moment Matching 是一种新型的生成模型，用于高质量图像生成。

•生成模型•图像生成

MIDI

MIDI — 通过多实例扩散模型将单张图像生成高保真度的3D场景。

•3D建模•图像处理

R1-Omni

R1-Omni — R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

•多模态•情绪识别

GO-1

GO-1 — 智元发布首个通用具身基座大模型GO-1，开创性提出ViLLA架构，推动具身智能发展。

•具身智能•多模态

OpenAI Agents SDK

OpenAI Agents SDK — OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包，简化多智能体工作流的编排。

•智能体•自动化

SmolVLM2

SmolVLM2 — SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。

•视频分析•文本生成

Inception Labs

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

•语言模型•扩散模型

Aya Vision

Aya Vision — Aya Vision 是 Cohere 推出的多语言多模态视觉模型，旨在提升多语言场景下的视觉和文本理解能力。

•多语言•多模态

SRM

SRM — 通过去噪生成模型进行空间推理，解决复杂分布下的视觉任务。

•空间推理•去噪模型

CogView4-6B

CogView4-6B — CogView4-6B 是一个强大的文本到图像生成模型，专注于高质量图像生成。

•文本到图像•深度学习

CogView4

CogView4 — CogView4 是一个支持中文和英文的高分辨率文本到图像生成模型。

•文本到图像•高分辨率

EgoLife

EgoLife — EgoLife是一个长期、多模态、多视角的日常生活AI助手项目，旨在推进长期上下文理解研究。

•多模态•多视角

UniTok

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

•视觉生成•视觉理解

ViDoRAG

ViDoRAG — ViDoRAG 是一个结合视觉文档检索增强生成的动态迭代推理代理框架。

•多模态•检索增强生成

Migician

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

•多模态•图像定位

Mochii AI

Mochii AI — Mochii AI 是一款由尖端模型支持的个性化人工智能生态系统，助力人类与 AI 协作的未来。

•生产力工具•多模态