Nexa AI lance OmniAudio-2.6B : un modèle linguistique audio rapide pour le déploiement en périphérie

Nexa AI vient de lancer son nouveau modèle linguistique audio OmniAudio-2.6B, conçu pour une implémentation efficace sur les appareils périphériques. Contrairement aux architectures traditionnelles qui séparent la reconnaissance automatique de la parole (ASR) et les modèles linguistiques, OmniAudio-2.6B intègre Gemma-2-2b, Whisper Turbo et un projecteur personnalisé dans un cadre unifié. Cette conception élimine les inefficacités et les latences liées aux connexions entre les différents composants des systèmes traditionnels, ce qui est particulièrement avantageux pour les appareils aux ressources de calcul limitées.

Points forts :

Vitesse de traitement : OmniAudio-2.6B offre des performances exceptionnelles. Sur un Mac Mini M4 Pro 2024, en utilisant le SDK Nexa et le format FP16GGUF, le modèle peut traiter 35,23 jetons par seconde. Avec le format Q4_K_M GGUF, il traite 66 jetons par seconde. En comparaison, Qwen2-Audio-7B ne traite que 6,38 jetons par seconde sur un matériel similaire, démontrant un avantage de vitesse significatif.Efficacité des ressources : La conception compacte du modèle réduit efficacement la dépendance aux ressources cloud, ce qui en fait un choix idéal pour les appareils portables, les systèmes automobiles et les appareils IoT aux capacités de puissance et de bande passante limitées. Il permet ainsi un fonctionnement efficace avec des ressources matérielles limitées.Haute précision et flexibilité : Bien qu’OmniAudio-2.6B se concentre sur la vitesse et l’efficacité, il offre également une bonne précision et convient à de nombreuses tâches, telles que la transcription, la traduction et la synthèse. Que ce soit pour le traitement vocal en temps réel ou des tâches linguistiques complexes, OmniAudio-2.6B fournit des résultats précis.

Le lancement d’OmniAudio-2.6B marque une nouvelle avancée importante de Nexa AI dans le domaine des modèles linguistiques audio. Son architecture optimisée améliore non seulement la vitesse et l’efficacité de traitement, mais ouvre également de nouvelles possibilités pour les appareils de calcul en périphérie. Avec la croissance constante de l’Internet des objets et des appareils portables, OmniAudio-2.6B devrait jouer un rôle important dans de nombreux scénarios d’application.

Adresse du modèle : https://huggingface.co/NexaAIDev/OmniAudio-2.6B

Adresse du produit : https://nexa.ai/blogs/omniaudio-2.6b

Actualités IA

Nexa AI lance OmniAudio-2.6B : un modèle linguistique audio rapide pour le déploiement en périphérie

AIbase基地

Recommandations d'actualités IA connexes

Seed-ASR, le modèle de reconnaissance vocale automatique de ByteDance, comprend tous les accents et dialectes !