A startup israelense de inteligência artificial, aiOla, anunciou recentemente o lançamento de um novo modelo de reconhecimento de voz de código aberto, o Whisper-Medusa.
Este modelo não é apenas mais rápido, mas 50% mais rápido do que o famoso Whisper da OpenAI! Construído sobre o Whisper, ele utiliza uma nova arquitetura de "atenção multi-cabeça" que permite prever um número significativamente maior de tokens do que o modelo da OpenAI. Além disso, o código e os pesos foram disponibilizados no Hugging Face sob a licença do MIT, permitindo uso para pesquisa e comercial.
Gill Hetz, vice-presidente de pesquisa da aiOla, afirmou que o código aberto incentiva a colaboração e inovação da comunidade, levando a modelos mais rápidos e aprimorados. Este trabalho pode pavimentar o caminho para sistemas de IA compostos que entendam e respondam às perguntas dos usuários em tempo quase real.
Em uma era em que modelos básicos podem gerar uma variedade de conteúdo, o reconhecimento de voz avançado continua sendo crucial. O Whisper, por exemplo, capaz de lidar com a complexidade de diferentes idiomas e sotaques, registra mais de 5 milhões de downloads por mês, fornecendo suporte a inúmeros aplicativos e estabelecendo-se como um padrão ouro no reconhecimento de voz.
Então, o que torna o Whisper-Medusa da aiOla tão especial?
A empresa modificou a arquitetura do Whisper, adicionando um mecanismo de atenção multi-cabeça que permite a previsão de 10 tokens por vez, resultando em um aumento de 50% na velocidade sem comprometer a precisão. O modelo foi treinado usando um método de aprendizado de máquina fracamente supervisionado, e versões ainda mais poderosas estão a caminho. Importantemente, como a espinha dorsal do Whisper-Medusa é construída sobre o Whisper, o aumento de velocidade não se dá às custas do desempenho.
Durante o treinamento do Whisper-Medusa, a aiOla utilizou um método de aprendizado de máquina chamado supervisão fraca. Como parte disso, ela congelou os principais componentes do Whisper e usou as transcrições de áudio geradas pelo modelo como rótulos para treinar o módulo adicional de previsão de tokens.
Quando questionado sobre se alguma empresa teve acesso antecipado ao Whisper-Medusa, Hetz disse que eles testaram o modelo em casos de uso de dados empresariais reais, demonstrando precisão em cenários do mundo real e abrindo caminho para aplicativos de voz mais responsivos. Em última análise, ele acredita que o aumento na velocidade de reconhecimento e transcrição resultará em tempos de resposta mais rápidos para aplicativos de voz e pavimentará o caminho para respostas em tempo real.
Pontos importantes:
💥50% mais rápido: O Whisper-Medusa da aiOla oferece um aumento significativo na velocidade de reconhecimento de voz em comparação com o Whisper da OpenAI.
🎯Precisão inalterada: O aumento de velocidade é alcançado sem comprometer a precisão do modelo original.
📈Amplas aplicações: Tem o potencial de acelerar as respostas em aplicativos de voz, melhorando a eficiência e reduzindo custos.