Nexa AI ha lanzado recientemente su nuevo modelo de lenguaje de audio OmniAudio-2.6B, diseñado para una implementación eficiente en dispositivos de borde. A diferencia de las arquitecturas tradicionales que separan el reconocimiento automático del habla (ASR) y los modelos de lenguaje, OmniAudio-2.6B integra Gemma-2-2b, Whisper Turbo y un proyector personalizado en un marco unificado. Este diseño elimina la ineficiencia y la latencia causadas por la conexión de componentes individuales en sistemas tradicionales, lo que lo hace especialmente adecuado para dispositivos con recursos computacionales limitados.
Puntos clave:
Velocidad de procesamiento: OmniAudio-2.6B ofrece un rendimiento excepcional. En un Mac Mini M4 Pro 2024, utilizando el SDK de Nexa y el formato FP16GGUF, el modelo alcanza una velocidad de procesamiento de 35.23 tokens por segundo. En el formato Q4_K_M GGUF, procesa 66 tokens por segundo. En comparación, Qwen2-Audio-7B en un hardware similar solo procesa 6.38 tokens por segundo, lo que demuestra una ventaja de velocidad significativa.Eficiencia de recursos: El diseño compacto del modelo reduce eficazmente la dependencia de los recursos en la nube, convirtiéndolo en una opción ideal para dispositivos portátiles, sistemas de automóviles y dispositivos IoT con limitaciones de potencia y ancho de banda. Esto permite un funcionamiento eficiente con hardware limitado.Alta precisión y flexibilidad: Aunque OmniAudio-2.6B se centra en la velocidad y la eficiencia, también ofrece una precisión notable, siendo adecuado para diversas tareas como transcripción, traducción y resumen. Tanto para el procesamiento de voz en tiempo real como para tareas lingüísticas complejas, OmniAudio-2.6B proporciona resultados precisos.
El lanzamiento de OmniAudio-2.6B marca otro avance importante de Nexa AI en el campo de los modelos de lenguaje de audio. Su arquitectura optimizada no solo mejora la velocidad y la eficiencia del procesamiento, sino que también ofrece más posibilidades para los dispositivos de computación de borde. Con la creciente popularidad de la Internet de las cosas y los dispositivos portátiles, OmniAudio-2.6B tiene el potencial de desempeñar un papel importante en múltiples escenarios de aplicación.
Dirección del modelo: https://huggingface.co/NexaAIDev/OmniAudio-2.6B
Dirección del producto: https://nexa.ai/blogs/omniaudio-2.6b