A empresa israelense de inteligência artificial aiOla recentemente alcançou um grande avanço na área de reconhecimento de voz, lançando um modelo de código aberto chamado Whisper Medusa. Este novo modelo é 50% mais rápido que o modelo Whisper da OpenAI, chamando a atenção da indústria.
A inovação central do Whisper Medusa reside em seu design de arquitetura aprimorado. A aiOla modificou a arquitetura original do Whisper, introduzindo um mecanismo de atenção multi-cabeça. Esse mecanismo permite que o modelo, usando vários "cabeças de atenção" em paralelo, preste atenção simultaneamente às informações de diferentes subespaços de representação. Essa inovação permite que o modelo preveja dez tokens de cada vez, em vez de um token por vez, como é tradicional, aumentando significativamente a velocidade de previsão de voz e o tempo de execução de geração.
É importante notar que o Whisper Medusa não sacrificou o desempenho para aumentar a velocidade. Isso se deve ao fato de seu sistema principal ainda ser baseado no Whisper, garantindo a precisão e a estabilidade do modelo. Durante o treinamento, a aiOla utilizou um método de aprendizado de máquina chamado supervisão fraca. Especificamente, eles congelaram os principais componentes do Whisper e usaram as transcrições de áudio geradas pelo modelo como rótulos para treinar outros módulos de previsão de tokens. Esse método de treinamento inovador melhorou ainda mais a eficiência e a precisão do aprendizado do modelo.
O lançamento de código aberto do Whisper Medusa pode ter um impacto profundo no desenvolvimento da tecnologia de reconhecimento de voz. Ele não apenas fornece uma ferramenta poderosa para pesquisadores e desenvolvedores, mas também pode impulsionar o desenvolvimento de aplicativos de processamento de voz mais rápidos e eficientes. No contexto da crescente demanda por interação de voz, esse avanço certamente abrirá novas possibilidades para o uso da inteligência artificial no campo do reconhecimento de voz.
Com o lançamento do Whisper Medusa, podemos esperar ver mais aplicativos inovadores baseados neste modelo, desde assistentes inteligentes e tradução em tempo real até sistemas de controle de voz, todos podendo obter melhorias significativas de desempenho. Esse avanço não apenas marca um marco importante na tecnologia de reconhecimento de voz, mas também descreve um futuro mais eficiente e fluido para a interação entre inteligência artificial e humanos.
Endereço do projeto:https://github.com/aiola-lab/whisper-medusa
Huggingface:https://huggingface.co/aiola/whisper-medusa-v1