以色列公司推出速度提升50%的开源语音识别模型Whisper Medusa

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 7, 2024

232

以色列人工智能公司 aiOla 近日在语音识别技术领域取得重大突破，推出了名为 Whisper Medusa 的开源语音识别模型。这款新模型的处理速度比 OpenAI 的 Whisper 模型快50%，引起了业界广泛关注。

Whisper Medusa 的核心创新在于其改进的架构设计。aiOla 公司对 Whisper 的原有架构进行了修改，引入了多头注意力机制。这一机制允许模型通过并行使用多个"注意力头"，同时关注来自不同表示子空间的信息。这种创新使得模型能够每次预测十个 tokens，而不是传统的一次预测一个 token，从而显著提高了语音预测速度和生成运行时间。

QQ截图20240807091000.png

值得注意的是，Whisper Medusa 在提高速度的同时并未牺牲性能。这得益于其主干系统仍然建立在 Whisper 的基础之上，保证了模型的准确性和稳定性。在训练过程中，aiOla 采用了一种称为弱监督的机器学习方法。具体而言，他们冻结了 Whisper 的主要组件，并使用模型生成的音频转录作为标签来训练其他 token 预测模块。这种创新的训练方法进一步提高了模型的学习效率和准确性。

QQ截图20240807091013.png

Whisper Medusa 的开源发布可能对语音识别技术的发展产生深远影响。它不仅为研究人员和开发者提供了一个强大的新工具，还可能推动更快速、更高效的语音处理应用的发展。在日益增长的语音交互需求背景下，这一技术突破无疑将为人工智能在语音识别领域的应用开辟新的可能性。

随着 Whisper Medusa 的推出，我们可以期待看到更多基于此模型的创新应用，从智能助手到实时翻译，再到语音控制系统，都可能因此获得显著的性能提升。这一进展不仅标志着语音识别技术的一个重要里程碑，也为人工智能与人类交互的未来描绘了一幅更加高效、流畅的蓝图。

项目地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1

aiOla WhisperMedusa 语音识别多头注意力机制

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

百度文小言全面升级，推出多模型融合调度与新语音大模型

在刚刚结束的百度 AI DAY 上，百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象，更重要的是引入了多模型融合调度技术，这将极大增强其语音识别和图片问答的能力。文小言的多模型融合调度是本次升级的核心亮点。通过整合百度自研的文心 X1、文心4.5等模型，并引入了诸如 DeepSeek-R1和可灵等第三方优质模型，用户可以根据需求灵活选择使用最适合的模型。用户只需轻松点击 “自动模式”，系统就会智能选择最佳模型组合，显著提高响应速度与任务处

2025年3月31号 16:32

2.8k

阿里通义实验室语音团队负责人鄢志杰离职

据tech星球消息，阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职，其职级为阿里原P序列体系中的P10 级别。鄢志杰是智能语音领域专家， 2003 年进入中科大语音实验室攻读博士，师从科大讯飞创始人王仁华教授。 2008 年获博士学位后，他在微软亚洲研究院语音组担任主管研究员至 2015 年，主要研究语音识别、语音合成等领域。学术上，他发表多篇顶级论文，拥有多项专利。图源备注：图片由AI生成，图片授权服务商Midjourney2015 年加入阿里巴巴后，鄢志杰曾担任IDST智能语音交互

2025年3月14号 14:05

3.4k

一加13手机推新ColorOS 15.0.0.701，首发AIGC合成语音识别功能

一加13手机迎来了 ColorOS15.0.0.701版本的重大升级。这次更新的系统包大小约为1.33GB，除了诸多优化和修复，还引入了行业首发的 AIGC 合成语音识别功能，为用户的安全与便利提供了全新保障。此次更新中，桌面功能得到了显著改善，用户现在可以通过拖拽的方式轻松调整文件夹的大小至1×2或2×1的尺寸。同时，在桌面四列布局下，用户可以在 dock 栏中放置多达五个应用，使得手机的操作更加灵活方便。此外，通知和控制中心的动画流畅度也进行了优化，让用户的操作体验更加丝滑顺畅。在安

2025年3月10号 11:02

2.0k

小红书开源的语音识别模型FireRedASR，中文识别准确率优越

在语音识别领域，中文识别的技术发展一直备受关注。近日，小红书的 FireRed 团队发布了一个全新的开源语音识别模型 ——FireRedASR。这个基于大模型的语音识别系统在多个标准测试集上取得了优异的成绩，标志着中文语音识别技术的一次重大突破。FireRedASR 的核心指标是字错误率（CER），该指标越低，表示模型的识别效果越好。在最近的公开测试中，FireRedASR 的 CER 达到了3.05%，较之前的最佳模型 Seed-ASR 降低了8.4%。这一结果显示出 FireRed 团队在语音识别技术上的创新能力。FireRedASR 模型分

2025年2月12号 9:14

4.5k

中文视觉语音开源模型VITA-1.5发布具备类GPT 4o高级语音和视觉能力

最近，多模态大型语言模型（MLLM）取得了显著进展，特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及，语音模态的重要性也日益凸显，尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介，还能显著提高交互的自然性和便利性。然而，由于视觉和语音数据在本质上的差异，将它们整合到 MLLM 中并非易事。例如，视觉数据传达空间信息，而语音数据则传达时间序列中的动态变化。这些根本性的差异给两种模态的同步优化带来了挑战，常常导致训练过程中的冲突。此

2025年1月7号 9:37

1.7k

豆包大模型发布2024年8个关键瞬间：从AI新星到全面突破

今日，豆包大模型官方发布豆包大模型的8个关键时刻!自2024年5月15日首次亮相以来，豆包大模型已破土而出，历经230天加速成长。从初步的学语，到懵懂的世界探索，再到为创作者绘制奇幻梦境，这一路的每一步都充满了挑战与成就。1. 语音识别与情感表达的突破豆包大模型在7月实现了语音识别领域的一大突破:能听懂超过20种方言的混合对话，并且具备边听边思考的能力。不仅如此，它还学会了在对话中表达情感，能在交互中自如地插话，甚至保留吞音和口音等人类语言习惯。这背后的核

2024年12月30号 14:04

4.8k

Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型，旨在满足边缘设备的高效部署需求。与传统的将自动语音识别（ASR）和语言模型分开的架构不同，OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中，这一设计消除了传统系统中各个组件链接所带来的低效率和延迟，特别适用于计算资源有限的设备。主要亮点:处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上，使用Nexa SDK并采用FP16GGUF格式时，模型可实现每秒35.23个令牌的处理速度，而在Q4_K_M GGUF格式下，

2024年12月16号 14:41

2.4k

aiOla开源AI音频转录模型Whisper-NER 实时保护敏感信息

近日，aiOla 宣布推出一款开源的 AI 音频转录模型Whisper-NER ，该模型在转录过程中能够实时遮蔽敏感信息。aiOla 的新 Whisper-NER 构建在 OpenAI 的行业标准开源模型 Whisper 之上，本身是完全开源的，现在可以在 Hugging Face 和 Github 上获得，供企业、组织和个人使用、使用、适应、修改和部署。该音频转录模型具备灵活的配置选项，用户可以根据需求选择是否对敏感信息进行遮蔽。当用户选择遮蔽功能时，模型会自动识别并隐藏如个人姓名、地址、电话号码等敏感信息，有效防止在转录文本中泄露

2024年11月21号 10:47

2.0k

新开源语音识别模型Moonshine：速度比OpenAI Whisper快五倍

美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据，相比于 OpenAI 的 Whisper，它在计算资源的使用上更为经济，处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造，具有灵活的架构。与 Whisper 将音频分为固定的30秒片段处理不同，Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色，减少了由于零填充而产生的处理开销。Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万，

2024年11月5号 10:30

3.4k

Gladia语音识别API获1600万美元A轮融资，挑战亚马逊、微软和谷歌

法国初创公司Gladia提供了一种语音识别应用程序编程接口（API），在A轮融资中筹集了1600万美元。本质上，Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。虽然亚马逊、微软和谷歌都作为其云托管产品套件的一部分提供了语音转文本API，但它们的表现并不如一些专业初创公司提供的新型模型。尤其是自OpenAI发布Whisper模型以来，这一领域在过去几年取得了巨大进步。Gladia与AssemblyAI、Deepgram和Speechmatics等资金充足的公司竞争。图源备注：图片由AI生成，图片授权服务商MidjourneyGl

2024年10月16号 17:13

1.4k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图