Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。主要亮点:处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上,使用Nexa SDK并采用FP16GGUF格式时,模型可实现每秒35.23个令牌的处理速度,而在Q4_K_M GGUF格式下,
腾讯云近日宣布推出人工智能编码助手——腾讯云AI代码助手,该工具旨在通过预测和提供代码建议来辅助程序员编写代码,显著提升开发效率。这款AI代码助手的核心优势在于其深入理解代码上下文环境的能力,提供逻辑和语法上更精准的代码补全建议,超越了传统基于关键词匹配的补全方式。它还能学习并适应程序员的编码风格和历史代码模式,提供定制化的代码补全,使代码更加贴合个人习惯。
美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据,相比于 OpenAI 的 Whisper,它在计算资源的使用上更为经济,处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造,具有灵活的架构。与 Whisper 将音频分为固定的30秒片段处理不同,Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色,减少了由于零填充而产生的处理开销。Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万,
法国初创公司Gladia提供了一种语音识别应用程序编程接口(API),在A轮融资中筹集了1600万美元。本质上,Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。虽然亚马逊、微软和谷歌都作为其云托管产品套件的一部分提供了语音转文本API,但它们的表现并不如一些专业初创公司提供的新型模型。尤其是自OpenAI发布Whisper模型以来,这一领域在过去几年取得了巨大进步。Gladia与AssemblyAI、Deepgram和Speechmatics等资金充足的公司竞争。图源备注:图片由AI生成,图片授权服务商MidjourneyGl