以色列人工智能公司 aiOla 近日在语音识别技术领域取得重大突破,推出了名为 Whisper Medusa 的开源语音识别模型。这款新模型的处理速度比 OpenAI 的 Whisper 模型快50%,引起了业界广泛关注。

Whisper Medusa 的核心创新在于其改进的架构设计。aiOla 公司对 Whisper 的原有架构进行了修改,引入了多头注意力机制。这一机制允许模型通过并行使用多个"注意力头",同时关注来自不同表示子空间的信息。这种创新使得模型能够每次预测十个 tokens,而不是传统的一次预测一个 token,从而显著提高了语音预测速度和生成运行时间。

QQ截图20240807091000.png

值得注意的是,Whisper Medusa 在提高速度的同时并未牺牲性能。这得益于其主干系统仍然建立在 Whisper 的基础之上,保证了模型的准确性和稳定性。在训练过程中,aiOla 采用了一种称为弱监督的机器学习方法。具体而言,他们冻结了 Whisper 的主要组件,并使用模型生成的音频转录作为标签来训练其他 token 预测模块。这种创新的训练方法进一步提高了模型的学习效率和准确性。

QQ截图20240807091013.png

Whisper Medusa 的开源发布可能对语音识别技术的发展产生深远影响。它不仅为研究人员和开发者提供了一个强大的新工具,还可能推动更快速、更高效的语音处理应用的发展。在日益增长的语音交互需求背景下,这一技术突破无疑将为人工智能在语音识别领域的应用开辟新的可能性。

随着 Whisper Medusa 的推出,我们可以期待看到更多基于此模型的创新应用,从智能助手到实时翻译,再到语音控制系统,都可能因此获得显著的性能提升。这一进展不仅标志着语音识别技术的一个重要里程碑,也为人工智能与人类交互的未来描绘了一幅更加高效、流畅的蓝图。

项目地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1