AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

FireRedASR

开源的工业级普通话自动语音识别模型，支持多种应用场景。

普通产品生产力语音识别开源

FireRedASR 是一个开源的工业级普通话自动语音识别模型，采用 Encoder-Decoder 和 LLM 集成架构。它包含两个变体：FireRedASR-LLM 和 FireRedASR-AED，分别针对高性能和高效能需求设计。该模型在普通话基准测试中表现出色，同时在方言和英文语音识别上也有良好表现。它适用于需要高效语音转文字的工业级应用，如智能助手、视频字幕生成等。模型开源，便于开发者集成和优化。

FireRedASR

FireRedASR 最新流量情况

月总访问量

968

跳出率

42.98%

平均页面访问数

1.4

平均访问时长

00:03:01

FireRedASR 访问量趋势

FireRedASR 访问地理位置分布

FireRedASR 流量来源

FireRedASR 替代品

FireRedASR — 开源的工业级普通话自动语音识别模型，支持多种应用场景。

•语音识别•开源

Amazon Nova Sonic — 亚马逊全新基础模型理解语气、语调与节奏，提升人机对话自然度。

•语音识别•自然语言处理

Fin-R1 — 通过强化学习驱动的金融推理大模型。

•金融•语言模型

Reka Flash 3 — 一款 21B 通用推理模型，适合低延迟应用。

•自然语言处理•开源

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

•文本转语音•开源

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

•多模态•文本处理

Light-R1 — Light-R1 是一个专注于长链推理（Long COT）的开源项目，通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

•长链推理•开源

Sesame CSM — 一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

•语音合成•开源

IMM — Inductive Moment Matching 是一种新型的生成模型，用于高质量图像生成。

•生成模型•图像生成

Instella — Instella 是由 AMD 开发的高性能开源语言模型，专为加速开源语言模型的发展而设计。

•开源•语言模型

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

•多模态•图像定位

IndexTTS — 工业级可控高效的零样本文本到语音系统

•语音合成•自然语言处理

QwQ-Max-Preview — QwQ-Max-Preview 是 Qwen 系列的最新成果，基于 Qwen2.5-Max 构建，具备强大的推理和多领域应用能力。

•深度学习•推理

AlphaMaze-v0.2-1.5B — 一种通过文本迷宫解决任务来增强大型语言模型视觉推理能力的创新方法

•语言模型•视觉推理

The Ultra-Scale Playbook — 一个专注于超大规模系统设计和优化的工具，提供高效解决方案。

•超大规模系统•优化

SkyReels-V1-Hunyuan-I2V — SkyReels V1 是一个开源的人类中心视频基础模型，专注于高质量影视级视频生成。

•视频生成•开源模型

OpenThinker-32B — OpenThinker-32B 是一款强大的开源推理模型，专为提升开放数据推理能力而设计。

•推理模型•开源

OLMoE app — Ai2 OLMoE 是一款可在 iOS 设备上运行的开源语言模型应用

•开源•语言模型

Huginn-0125 — Huginn-0125是一个35亿参数的潜变量循环深度模型，擅长推理和代码生成。

•深度学习•推理

FireRedASR-AED-L — 开源工业级自动语音识别模型，支持普通话、方言和英语，性能卓越。

•语音识别•开源

RAG-FiT

RAG-FiT — RAG-FiT是一个用于提升LLMs利用外部信息能力的库，通过特别创建的RAG增强数据集对模型进行微调。

•自然语言处理•模型微调

Codename Goose — 本地运行的人工智能代理，无缝自动化工程任务。

•编程辅助•自动化

Open-source DeepResearch — 开源的深度研究工具，旨在通过开源框架复现类似Deep Research的功能

•开源•代理框架

Tülu 3 405B — Tülu 3 405B 是一个大规模开源语言模型，通过强化学习提升性能。

•自然语言处理•开源

SpeechGPT 2.0-preview — 首个面向语境智能的人类级实时交互系统，支持多情感、多风格语音交互。

•语音交互•自然语言处理

leapfusion-hunyuan-image2video — 一种新颖的图像到视频采样技术，基于Hunyuan模型实现高质量视频生成。

•视频生成•深度学习

Baichuan-M1-14B — 百川智能开发的专为医疗场景优化的开源大语言模型，具备卓越的通用能力和医疗领域性能。

•大语言模型•医疗

FilmAgent

FilmAgent — FilmAgent是一个基于LLM的多智能体协作框架，用于虚拟3D空间中的端到端电影自动化制作。

•电影制作•多智能体协作

DeepSeek-R1 — DeepSeek-R1 是一款高性能推理模型，支持多种语言和任务，适用于研究和商业应用。

•推理模型•强化学习

RealtimeSTT — 一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。

•语音识别•实时转录