Nexa AIは、エッジデバイスへの効率的な展開を目的とした、新しいOmniAudio-2.6Bオーディオ言語モデルを発表しました。従来の自動音声認識(ASR)と言語モデルを別々に扱うアーキテクチャとは異なり、OmniAudio-2.6BはGemma-2-2b、Whisper Turbo、そしてカスタムプロジェクターを統合フレームワークに統合しています。この設計により、従来システムの各コンポーネント間の接続による非効率性と遅延が解消され、特に計算リソースが限られたデバイスに最適です。

主な特徴:

処理速度: OmniAudio-2.6Bは優れた性能を発揮します。2024 Mac Mini M4 Proで、Nexa SDKを使用し、FP16 GGUF形式を採用した場合、モデルは毎秒35.23トークンの処理速度を実現します。一方、Q4_K_M GGUF形式では、毎秒66トークンを処理できます。これに対し、同様のハードウェア上でQwen2-Audio-7Bは毎秒6.38トークンしか処理できないため、顕著な速度優位性が示されています。リソース効率: このモデルのコンパクトな設計により、クラウドリソースへの依存を効果的に削減し、電力と帯域幅が制限されたウェアラブルデバイス、車載システム、IoTデバイスに最適です。この特徴により、限られたハードウェア条件下でも効率的な動作を実現します。高精度と柔軟性: OmniAudio-2.6Bは速度と効率に重点を置いていますが、精度においても優れた性能を発揮し、転写、翻訳、要約など、さまざまなタスクに適用できます。リアルタイム音声処理から複雑な言語タスクまで、OmniAudio-2.6Bは正確な結果を提供します。

QQ20241216-144108.png

OmniAudio-2.6Bの発表は、Nexa AIによるオーディオ言語モデル分野における重要な進歩を示しています。最適化されたアーキテクチャは、処理速度と効率を向上させるだけでなく、エッジコンピューティングデバイスの可能性を広げます。IoTとウェアラブルデバイスの普及が進むにつれて、OmniAudio-2.6Bは多くのアプリケーションシナリオで重要な役割を果たすと期待されます。

モデルアドレス:https://huggingface.co/NexaAIDev/OmniAudio-2.6B

製品アドレス:https://nexa.ai/blogs/omniaudio-2.6b