今日,豆包大模型官方发布豆包大模型的8个关键时刻!自2024年5月15日首次亮相以来,豆包大模型已破土而出,历经230天加速成长。从初步的学语,到懵懂的世界探索,再到为创作者绘制奇幻梦境,这一路的每一步都充满了挑战与成就。1. 语音识别与情感表达的突破豆包大模型在7月实现了语音识别领域的一大突破:能听懂超过20种方言的混合对话,并且具备边听边思考的能力。不仅如此,它还学会了在对话中表达情感,能在交互中自如地插话,甚至保留吞音和口音等人类语言习惯。这背后的核
Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo以及定制的投影仪集成到一个统一框架中,这一设计消除了传统系统中各个组件链接所带来的低效率和延迟,特别适用于计算资源有限的设备。主要亮点:处理速度: OmniAudio-2.6B在性能上表现出色。在2024Mac Mini M4Pro上,使用Nexa SDK并采用FP16GGUF格式时,模型可实现每秒35.23个令牌的处理速度,而在Q4_K_M GGUF格式下,
美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据,相比于 OpenAI 的 Whisper,它在计算资源的使用上更为经济,处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造,具有灵活的架构。与 Whisper 将音频分为固定的30秒片段处理不同,Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色,减少了由于零填充而产生的处理开销。Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万,
法国初创公司Gladia提供了一种语音识别应用程序编程接口(API),在A轮融资中筹集了1600万美元。本质上,Gladia的API能够将任何音频文件以高准确度和低延迟转换成文本。虽然亚马逊、微软和谷歌都作为其云托管产品套件的一部分提供了语音转文本API,但它们的表现并不如一些专业初创公司提供的新型模型。尤其是自OpenAI发布Whisper模型以来,这一领域在过去几年取得了巨大进步。Gladia与AssemblyAI、Deepgram和Speechmatics等资金充足的公司竞争。图源备注:图片由AI生成,图片授权服务商MidjourneyGl