Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月16号 14:41

205

Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型，旨在满足边缘设备的高效部署需求。与传统的将自动语音识别（ASR）和语言模型分开的架构不同，OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中，这一设计消除了传统系统中各个组件链接所带来的低效率和延迟，特别适用于计算资源有限的设备。

主要亮点:

处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上，使用Nexa SDK并采用FP16GGUF格式时，模型可实现每秒35.23个令牌的处理速度，而在Q4_K_M GGUF格式下，可处理每秒66个令牌。与之对比，Qwen2-Audio-7B在相似硬件上只能处理每秒6.38个令牌，展示出显著的速度优势。资源效率: 该模型的紧凑设计有效减少了对云资源的依赖，使其成为功率和带宽受限的可穿戴设备、汽车系统及物联网设备的理想选择。这一特点使其能够在有限的硬件条件下实现高效运行。高准确性和灵活性: 尽管OmniAudio-2.6B专注于速度和效率，其在准确性方面也表现不俗，适用于转录、翻译、摘要等多种任务。无论是实时语音处理还是复杂的语言任务，OmniAudio-2.6B都能够提供精准的结果。

OmniAudio-2.6B的推出标志着Nexa AI在音频语言模型领域的又一重要进步，其优化的架构不仅提升了处理速度和效率，也为边缘计算设备带来了更多可能。随着物联网和可穿戴设备的不断普及，OmniAudio-2.6B有望在多个应用场景中发挥重要作用。

模型地址：https://huggingface.co/NexaAIDev/OmniAudio-2.6B

产品地址：https://nexa.ai/blogs/omniaudio-2.6b

法国AI创企Les Ministraux发布全新轻量级模型，性能超越Llama 3！

法国AI初创公司Les Ministraux 推出两款全新轻量级模型Ministral3B和Ministral8B，专为边缘设备设计，参数分别为30亿和80亿。这两款模型在指令跟随基准测试中表现出色，Ministral3B超越了Llama38B和Mistral7B，Ministral8B则在除代码能力外其他方面均优于这两个模型。测试结果显示，Ministral3B和Ministral8B的性能可媲美Gemma2和Llama3.1等开源模型。这两款模型都支持高达128k的上下文，并在知识、常识、推理、函数调用和效率方面为低于10B参数的模型树立了新的标杆。 Ministral8B还配备了滑动窗口注意机制，以实现

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

字节跳动推出的Seed-ASR引擎，通过海量训练数据，实现了对普通话、13种中国方言及7种外语的高精度识别，显著提升了跨语言交流的便利性。其关键优势在于出色的上下文感知能力，能结合历史信息准确识别人名、地名和关键词，尤其在特定场景下表现优异，提升识别精度。无论是在日常对话、复杂会议还是多人交谈、背景噪音环境中，Seed-ASR均能精准转录。它还能识别各种专业领域术语，适用于智能助手、语音搜索等场景，大幅改善用户体验。

亚马逊推出全新ASR系统，支持100多语言

["亚马逊发布新一代ASR系统，覆盖100多语言，提供全面自动语音识别服务。","语音基础模型提升20%至50%准确度，在电话语音等挑战领域提高30%至70%准确度。","系统支持多项特性，包括自动标点、自定义词汇、自动语言识别、说话人分离等。","成千上万企业利用Amazon Transcribe解锁音频内容见解，提高可访问性和可发现性。"]

AI新闻资讯

Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

AIbase基地

相关AI新闻推荐

法国AI创企Les Ministraux发布全新轻量级模型，性能超越Llama 3！

字节跳动自动语音识别模型Seed-ASR,各种口音和方言统统能听懂！

亚马逊推出全新ASR系统，支持100多语言