Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
在今年的三星开发者大会上,三星正式发布了全新 Gauss2AI 模型,标志着其在人工智能领域的又一次重大进步。Gauss2在性能和效率上全面升级,应用范围从智能手机到家用电器,覆盖了多种智能设备。Gauss2具备多模态能力,可以同时处理图像、文本和代码,使人工智能更好地融入各类设备生态中。三星为其开发了三种版本,分别为 Compact、Balanced 和 Supreme,以满足不同使用场景:Compact 模型:可在离线设备上运行,适合无网络环境的应用。Balanced 模型:在需要时使用在线资源,兼顾性能与效率。S
人工智能正在悄然改变心理健康领域的诊断方式。来自考纳斯理工大学的研究团队开发出一种revolutionary的抑郁症诊断模型,通过语音和脑电图数据的多模态分析,为精准识别心理健康问题开辟了全新路径。这项研究的核心在于打破传统单一数据诊断的局限。研究团队选择语音作为关键数据源,因为它能微妙地反映情绪状态。语速、语调、情感能量都可能成为抑郁症的潜在信号。图源备注:图片由AI生成,图片授权服务商Midjourney通过将脑电图和语音数据转化为可视化的光谱图,研究团队使用
近日,北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型,据称这是首个能够进行自发、系统推理的视觉语言模型,堪比 GPT-o1。该模型在六个具有挑战性的多模态基准测试中表现优异,其11B 参数的版本超越了其他竞争者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基于 Llama-3.2-Vision 模型,采用了 “慢思考” 推理机制,能够自主进行更加复杂的推理过程,超越了传统的思维链提示方法。在多模态推理基准测试中,LLaVA-o1的表现超出了其基础模型8.9%。该模型的