AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Mini-Omni

开源多模态大型语言模型，支持实时语音输入和流式音频输出。

普通产品生产力多模态语音识别

Mini-Omni是一个开源的多模态大型语言模型，能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能，无需额外的ASR或TTS模型。此外，它还可以在思考的同时进行语音输出，支持文本和音频的同时生成。Mini-Omni通过'Audio-to-Text'和'Audio-to-Audio'的批量推理进一步增强性能。

Mini-Omni

Mini-Omni 最新流量情况

月总访问量

474564576

跳出率

36.20%

平均页面访问数

6.1

平均访问时长

00:06:34

Mini-Omni 访问量趋势

Mini-Omni 访问地理位置分布

Mini-Omni 流量来源

Mini-Omni 替代品

Mini-Omni — 开源多模态大型语言模型，支持实时语音输入和流式音频输出。

•多模态•语音识别

Any GPT — 多模态大型语言模型

•多模态•聊天机器人

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。

•多模态•语音识别

ultravox-v0_4_1-llama-3_1-70b — 多模态语音大型语言模型

•语音识别•文本生成

GLM-4-Voice — 端到端中英语音对话模型

•语音识别•语音合成

Spirit LM — 多模态语言模型，融合文本和语音

•多模态•语言模型

EMOVA

EMOVA — 情感丰富的多模态语言模型

•多模态•语音识别

Deepgram Voice Agent API — 实时对话式人工智能，一键式API接入。

•语音识别•语音合成

讯飞虚拟人

讯飞虚拟人 — 全栈式虚拟人多场景应用服务

•AI虚拟形象•语音识别

speech-to-speech

speech-to-speech — 开源的语音到语音转换模块

•语音识别•自然语言处理

FunAudioLLM — 自然交互的语音理解和生成基础模型

•语音识别•语音合成

Azure 认知服务语音 — 让应用通过语音与文本的转换实现智能交互。

•语音识别•语音合成

GPT4o.so — 革命性AI技术，多模态智能互动

•多模态•语音识别

sherpa-onnx — 支持多种语音识别和语音合成功能的开源项目

•语音识别•语音合成

StreamSpeech — 实时语音翻译，跨语言沟通的桥梁。

•实时翻译•多任务学习

Gemini 1.5 Flash — Google 一款轻量级、高效能的AI模型，专为大规模高频任务设计。

•机器学习•多模态

讯飞A.I.智能客服解决方案 — 基于科大讯飞语音技术，实现智能客服的多渠道解决方案。

•智能客服•语音识别

讯飞开放平台 — 基于语音交互的人工智能开放平台

•开发编程•Ai开放平台

SeamlessM4T — 一款基于多模态模型的语音翻译产品，支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。

•语音翻译•文本翻译

What Would They Say — 智能语言助手，让沟通更简单

•翻译•语音识别

AI Prompt Randomizer — 智能语音助手，简化生活

•语音识别•语音合成

Speechllect — 实时AI语音转文字/文字转语音解决方案

•语音合成•语音识别

Podcast — 让你的声音变成语音助手

•智能语音•语音助手

TTSLabs — 在线语音合成与语音识别服务

•语音合成•语音识别

Neon AI — 易用的对话式人工智能，满足企业和家庭需求

•对话式人工智能•语音识别

DreamActor-M1 — 基于 DiT 的人类图像动画框架，实现精细控制与长效一致性。

•人类动画•视频生成

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

•编程•推理

OpenAI.fm — 开发者可互动体验 OpenAI API 中的新语音模型gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。

•语音合成•开发者工具

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

•文本转语音•开源

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

•多模态•文本处理