AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Phi-3-vision-128k-instruct

微软轻量级、先进的多模态模型，专注于文本和视觉的高质量推理密集数据。

优质新品生产力多模态高质量

Phi-3 Vision是一个轻量级、最先进的开放多模态模型，基于包括合成数据和经过筛选的公开可用网站在内的数据集构建，专注于文本和视觉的非常高质量的推理密集数据。该模型属于Phi-3模型家族，多模态版本支持128K上下文长度（以token计），经过严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵循和强大的安全措施。

Phi-3-vision-128k-instruct

Phi-3-vision-128k-instruct 最新流量情况

月总访问量

885397

跳出率

28.13%

平均页面访问数

9.1

平均访问时长

00:08:31

Phi-3-vision-128k-instruct 访问量趋势

Phi-3-vision-128k-instruct 访问地理位置分布

Phi-3-vision-128k-instruct 流量来源

Phi-3-vision-128k-instruct 替代品

Phi-3-vision-128k-instruct

Phi-3-vision-128k-instruct — 微软轻量级、先进的多模态模型，专注于文本和视觉的高质量推理密集数据。

•多模态•高质量

Gemini 2.5

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

•编程•推理

Grok 3

Grok 3 — xAI推出的最新旗舰AI模型Grok 3，具备强大的推理和多模态处理能力。

•推理•多模态

MedRAX

MedRAX — MedRAX是一个用于胸部X光片解读的医疗推理AI代理，整合多种分析工具，无需额外训练即可处理复杂医疗查询。

•医疗•胸部X光

UI-TARS

UI-TARS — UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。

•自动化•GUI

Gemini 2.0 Flash Thinking Experimental

Gemini 2.0 Flash Thinking Experimental — Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型，能够展示其思考过程以提升性能和可解释性。

•推理•多模态

Kimi k1.5

Kimi k1.5 — Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

•强化学习•多模态

InternVL2_5-78B-MPO

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

•多模态•大型语言模型

InternVL2-8B-MPO

InternVL2-8B-MPO — 多模态大语言模型，提升多模态推理能力

•多模态•大语言模型

Gemini 2.0

Gemini 2.0 — Google新一代AI模型，开启智能助理新时代。

•智能助理•多模态

MAmmoTH-VL

MAmmoTH-VL — 大规模多模态推理与指令调优平台

•多模态•推理

LLaMA-Omni

LLaMA-Omni — 低延迟、高质量的端到端语音交互模型

•语音交互•端到端模型

Fireworks AI

Fireworks AI — 基于开发者构建的生产 AI 平台

•开发者•模型

Google Gemini

Google Gemini — 基于多模态的 AI 模型，无缝进行图像、视频、音频和代码的推理

•多模态•推理

o1-pro

o1-pro — o1-pro 模型通过强化学习提升复杂推理能力，提供更优答案。

•自然语言处理•文本生成

Mistral Small 3.1

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

•多模态•文本处理

MistralOCR.net

MistralOCR.net — Mistral OCR 是一款强大的文档理解 OCR 产品，能够以极高的准确性从 PDF 和图像中提取文本、图像、表格和方程式。

•文档处理•OCR

Gemini Robotics

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

•机器人•多模态

R1-Omni

R1-Omni — R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

•多模态•情绪识别

GO-1

GO-1 — 智元发布首个通用具身基座大模型GO-1，开创性提出ViLLA架构，推动具身智能发展。

•具身智能•多模态

OpenAI Agents SDK

OpenAI Agents SDK — OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包，简化多智能体工作流的编排。

•智能体•自动化

SmolVLM2

SmolVLM2 — SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。

•视频分析•文本生成

LanPaint

LanPaint — 无需额外训练的高质量图像修复插件，适用于所有稳定扩散模型。

•图像修复•稳定扩散

Inception Labs

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

•语言模型•扩散模型

Aya Vision

Aya Vision — Aya Vision 是 Cohere 推出的多语言多模态视觉模型，旨在提升多语言场景下的视觉和文本理解能力。

•多语言•多模态

QwQ-32B

QwQ-32B — QwQ-32B 是一款强大的推理模型，专为复杂问题解决和文本生成设计，性能卓越。

•推理•文本生成

EgoLife

EgoLife — EgoLife是一个长期、多模态、多视角的日常生活AI助手项目，旨在推进长期上下文理解研究。

•多模态•多视角

UniTok

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

•视觉生成•视觉理解

ViDoRAG

ViDoRAG — ViDoRAG 是一个结合视觉文档检索增强生成的动态迭代推理代理框架。

•多模态•检索增强生成

Migician

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

•多模态•图像定位