A startup americana Useful Sensors lançou um modelo de reconhecimento de voz de código aberto chamado Moonshine. O Moonshine foi projetado para processar dados de áudio de forma mais eficiente, sendo mais econômico em termos de recursos computacionais do que o Whisper da OpenAI, com uma velocidade cinco vezes maior. Este novo modelo foi criado especificamente para aplicações em tempo real em hardware com recursos limitados e possui uma arquitetura flexível.

image.png

Ao contrário do Whisper, que divide o áudio em segmentos fixos de 30 segundos para processamento, o Moonshine ajusta o tempo de processamento de acordo com o comprimento real do áudio. Isso o torna excelente no processamento de segmentos de áudio mais curtos, reduzindo a sobrecarga de processamento devido ao preenchimento com zeros.

O Moonshine tem duas versões: uma versão Tiny menor, com 27 milhões de parâmetros, e uma versão Base maior, com 61,5 milhões de parâmetros. Em comparação, os modelos semelhantes da OpenAI têm mais parâmetros: o Whisper tiny.en tem 37,8 milhões e o base.en tem 72,6 milhões.

image.png

Os resultados dos testes mostram que o modelo Tiny do Moonshine tem precisão semelhante à do Whisper, mas consome menos recursos computacionais. Em vários níveis de áudio e ruído de fundo, ambas as versões do Moonshine apresentaram taxas de erro de palavras (WER) menores que o Whisper, demonstrando um desempenho superior.

A equipe de pesquisa observou que o Moonshine ainda pode ser aprimorado no processamento de clipes de áudio extremamente curtos (menos de um segundo). Esses áudios curtos representam uma pequena porcentagem dos dados de treinamento, e o aumento de clipes de áudio desse tipo no treinamento pode melhorar o desempenho do modelo.

Além disso, a capacidade offline do Moonshine abre novos cenários de aplicação, tornando viáveis aplicações que antes eram impossíveis devido a limitações de hardware. Ao contrário do Whisper, que requer maior consumo de energia, o Moonshine é adequado para execução em smartphones e dispositivos menores (como o Raspberry Pi). A Useful Sensors está usando o Moonshine para desenvolver seu tradutor inglês-espanhol, o Torre.

O código do Moonshine já foi publicado no GitHub. Os usuários devem observar que sistemas de transcrição de IA, como o Whisper, podem apresentar erros. Alguns estudos indicam que o Whisper tem 1,4% de probabilidade de gerar informações falsas, sendo a taxa de erro ainda maior para pessoas com deficiência de linguagem.

Acesso ao projeto: https://github.com/usefulsensors/moonshine

Destaques:

🌟 Moonshine é um modelo de reconhecimento de voz de código aberto, com velocidade de processamento cinco vezes maior que o Whisper da OpenAI.

🔍 O modelo pode ajustar o tempo de processamento de acordo com o comprimento do áudio, sendo ideal para clipes de áudio curtos.

🖥️ Moonshine suporta execução offline, sendo adequado para dispositivos de hardware com recursos limitados.