AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-11-05 10:30:08.AIbase

新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍

美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据，相比于 OpenAI 的 Whisper，它在计算资源的使用上更为经济，处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造，具有灵活的架构。与 Whisper 将音频分为固定的30秒片段处理不同，Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色，减少了由于零填充而产生的处理开销。Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万，

新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍

2024-08-22 08:34:49.AIbase

字节豆包语音模型和视觉模型再升级综合能力提升20.3%

在2024年8月21日的火山引擎AI创新巡展上海站上，火山引擎展示了豆包大模型的全面升级，包括豆包·文生图模型对长文本有更精准的图文匹配能力，豆包·语音识别模型在多个公开测试集中的错误率最高降低40%，以及豆包·语音合成模型升级了流式语音合成能力，能够实时响应、精准断句。火山引擎还发布了对话式AI实时交互解决方案，整合豆包大模型和实时音视频技术，提供端到端的大模型实时对话方案，让AI交互体验更强。此外，火山引擎与多点DMALL联合成立零售大模型生态联盟，与汽车大模型生态联盟增加新成员，旨在推动零售和汽车行业的智能化升级。

字节豆包语音模型和视觉模型再升级综合能力提升20.3%

2024-08-21 10:15:24.AIbase

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

字节跳动推出的Seed-ASR引擎，通过海量训练数据，实现了对普通话、13种中国方言及7种外语的高精度识别，显著提升了跨语言交流的便利性。其关键优势在于出色的上下文感知能力，能结合历史信息准确识别人名、地名和关键词，尤其在特定场景下表现优异，提升识别精度。无论是在日常对话、复杂会议还是多人交谈、背景噪音环境中，Seed-ASR均能精准转录。它还能识别各种专业领域术语，适用于智能助手、语音搜索等场景，大幅改善用户体验。

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

2024-08-07 09:11:21.AIbase

以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

以色列AI公司aiOla发布了一款名为Whisper Medusa的开源语音识别模型，该模型基于改进的架构设计，引入多头注意力机制，使其处理速度比OpenAI的Whisper模型快50%。Whisper Medusa通过并行预测十个tokens，而非传统的一次一个，显著提高了语音识别速度，同时保持了性能不减。其创新的训练方法采用弱监督学习，冻结主干系统并使用模型生成的音频转录作为标签训练其他模块。这一开源模型的发布，将为语音识别技术的发展带来深远影响，推动更快速、高效的语音处理应用，并可能在智能助手、实时翻译和语音控制系统等领域实现性能提升。

以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

2024-08-02 09:21:02.AIbase

aiOla推超高速开源语音识别模型Whisper-Medusa，比OpenAI的Whisper快50%

以色列AI初创公司aiOla发布了一款名为Whisper-Medusa的开源语音识别模型，比OpenAI的Whisper快50%。该模型基于Whisper构建，采用了创新的“多头注意力”架构，能一次预测更多代币，速度提升显著而准确性不变。Whisper-Medusa已在Hugging Face上以麻省理工学院许可发布，允许研究和商业使用。aiOla通过弱监督机器学习方法训练模型，冻结了Whisper的主要组件，并使用模型生成的音频转录作为标签来训练额外的token预测模块。该模型在真实企业数据用例上测试过，能在实际场景准确运行，有望在语音应用中加快响应速度，提升效率和降低成本。

aiOla推超高速开源语音识别模型Whisper-Medusa，比OpenAI的Whisper快50%