Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。主要亮点:处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上,使用Nexa SDK并采用FP16GGUF格式时,模型可实现每秒35.23个令牌的处理速度,而在Q4_K_M GGUF格式下,
美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据,相比于 OpenAI 的 Whisper,它在计算资源的使用上更为经济,处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造,具有灵活的架构。与 Whisper 将音频分为固定的30秒片段处理不同,Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色,减少了由于零填充而产生的处理开销。Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万,
法国初创公司Gladia提供了一种语音识别应用程序编程接口(API),在A轮融资中筹集了1600万美元。本质上,Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。虽然亚马逊、微软和谷歌都作为其云托管产品套件的一部分提供了语音转文本API,但它们的表现并不如一些专业初创公司提供的新型模型。尤其是自OpenAI发布Whisper模型以来,这一领域在过去几年取得了巨大进步。Gladia与AssemblyAI、Deepgram和Speechmatics等资金充足的公司竞争。图源备注:图片由AI生成,图片授权服务商MidjourneyGl
近日,FunASR推出了一款功能强大的多语言离线文件转录软件包,为用户提供了高效、精准的语音转文本解决方案。这款软件包的核心优势在于其离线文件转录能力。它能够轻松处理长达数小时的音频或视频文件,并生成带有标点符号的转录文本。这一功能对于需要处理大量音频材料的专业人士来说,无疑是一大福音。FunASR的多语言支持也令人印象深刻。目前,该软件包已经支持中文、英语、日语、粤语和韩语等多种语言,展现了卓越的语音识别能力。更值得一提的是,它还能提供词级时间