Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
在今年的三星开发者大会上,三星正式发布了全新 Gauss2AI 模型,标志着其在人工智能领域的又一次重大进步。Gauss2在性能和效率上全面升级,应用范围从智能手机到家用电器,覆盖了多种智能设备。Gauss2具备多模态能力,可以同时处理图像、文本和代码,使人工智能更好地融入各类设备生态中。三星为其开发了三种版本,分别为 Compact、Balanced 和 Supreme,以满足不同使用场景:Compact 模型:可在离线设备上运行,适合无网络环境的应用。Balanced 模型:在需要时使用在线资源,兼顾性能与效率。S
近日,华盛顿大学的研究团队发布了一个名为 SAMURAI 的新型视觉追踪模型。该模型基于沿的 Segment Anything Model2(SAM2),旨在解决在复杂场景中进行视觉对象追踪时所遇到的挑战,尤其是在处理快速移动和自遮挡物体时。SAM2在物体分割任务中表现出色,但在视觉追踪方面却存在一些限制。例如,在拥挤的场景中,固定窗口的记忆方式未能考虑到所选记忆的质量,这可能导致错误在视频序列中不断传播。为了解决这一问题,研究团队提出了 SAMURAI,通过引入时间运动线索以及运动感知记忆选择
在开源AI领域,与大型科技公司的差距不仅仅体现在算力上。AI2(前Allen人工智能研究所)正通过一系列开创性举措缩小这一鸿沟,其最新发布的Tülu3后训练方案,让"原始"大语言模型转化为实用AI系统变得触手可及。与普遍认知不同,基础语言模型在预训练后并不能直接投入使用。事实上,后训练过程才是决定模型最终价值的关键环节。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。长期以来,各大公司对后训练方案讳莫如深。虽然任何