A Nexa AI lançou recentemente seu novo modelo de linguagem de áudio OmniAudio-2.6B, projetado para atender às necessidades de implantação eficiente em dispositivos de borda. Diferentemente das arquiteturas tradicionais que separam o reconhecimento automático de fala (ASR) e os modelos de linguagem, o OmniAudio-2.6B integra o Gemma-2-2b, o Whisper Turbo e um projetor personalizado em uma estrutura unificada. Este design elimina a ineficiência e a latência causadas pela conexão de vários componentes em sistemas tradicionais, sendo especialmente adequado para dispositivos com recursos computacionais limitados.

Destaques principais:

Velocidade de processamento: O OmniAudio-2.6B apresenta desempenho excepcional. Em um Mac Mini M4Pro 2024, usando o Nexa SDK e o formato FP16GGUF, o modelo consegue processar 35,23 tokens por segundo. No formato Q4_K_M GGUF, ele processa 66 tokens por segundo. Em comparação, o Qwen2-Audio-7B, em hardware semelhante, processa apenas 6,38 tokens por segundo, demonstrando uma vantagem de velocidade significativa.Eficiência de recursos: O design compacto do modelo reduz efetivamente a dependência de recursos em nuvem, tornando-o ideal para dispositivos vestíveis, sistemas automotivos e dispositivos IoT com restrições de energia e largura de banda. Isso permite que ele funcione de forma eficiente com hardware limitado.Alta precisão e flexibilidade: Embora o OmniAudio-2.6B se concentre em velocidade e eficiência, ele também apresenta boa precisão, sendo adequado para várias tarefas, como transcrição, tradução e resumo. Seja para processamento de voz em tempo real ou tarefas de linguagem complexas, o OmniAudio-2.6B fornece resultados precisos.

QQ20241216-144108.png

O lançamento do OmniAudio-2.6B marca mais um avanço importante da Nexa AI na área de modelos de linguagem de áudio. Sua arquitetura otimizada não apenas melhora a velocidade e a eficiência do processamento, mas também oferece mais possibilidades para dispositivos de computação de borda. Com a crescente popularidade da Internet das Coisas e dispositivos vestíveis, o OmniAudio-2.6B deve desempenhar um papel importante em vários cenários de aplicação.

Endereço do modelo: https://huggingface.co/NexaAIDev/OmniAudio-2.6B

Endereço do produto: https://nexa.ai/blogs/omniaudio-2.6b