美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据,相比于 OpenAI 的 Whisper,它在计算资源的使用上更为经济,处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造,具有灵活的架构。与 Whisper 将音频分为固定的30秒片段处理不同,Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色,减少了由于零填充而产生的处理开销。Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万,
法国初创公司Gladia提供了一种语音识别应用程序编程接口(API),在A轮融资中筹集了1600万美元。本质上,Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。虽然亚马逊、微软和谷歌都作为其云托管产品套件的一部分提供了语音转文本API,但它们的表现并不如一些专业初创公司提供的新型模型。尤其是自OpenAI发布Whisper模型以来,这一领域在过去几年取得了巨大进步。Gladia与AssemblyAI、Deepgram和Speechmatics等资金充足的公司竞争。图源备注:图片由AI生成,图片授权服务商MidjourneyGl
近日,FunASR推出了一款功能强大的多语言离线文件转录软件包,为用户提供了高效、精准的语音转文本解决方案。这款软件包的核心优势在于其离线文件转录能力。它能够轻松处理长达数小时的音频或视频文件,并生成带有标点符号的转录文本。这一功能对于需要处理大量音频材料的专业人士来说,无疑是一大福音。FunASR的多语言支持也令人印象深刻。目前,该软件包已经支持中文、英语、日语、粤语和韩语等多种语言,展现了卓越的语音识别能力。更值得一提的是,它还能提供词级时间
摩尔线程宣布开源其音频理解大模型MooER,成为首个基于国产全功能GPU的大型开源语音模型。MooER支持中英文语音识别与翻译,采用三部分模型结构,展现强大多语言处理能力。已开源推理代码与5000小时数据训练的模型,计划进一步开源训练代码与8万小时数据训练的增强版。在对比测试中,MooER-5K表现出色,中文CER为4.21%,英文WER为17.98%,特别是在Covost2zh2en测试集上,BLEU分数高达25.2,领先其他开源模型。基于8万小时数据训练的MooER-80k模型,中文CER降至3.50%,英文WER优化到12.66%,显示了巨大性能提升潜力。此次开源不仅展示了国产GPU在AI领域的应用实力,也为全球音频AI技术发展注入活力,期待MooER在语音识别、翻译等领域带来更多创新突破。