Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
在今年的三星开发者大会上,三星正式发布了全新 Gauss2AI 模型,标志着其在人工智能领域的又一次重大进步。Gauss2在性能和效率上全面升级,应用范围从智能手机到家用电器,覆盖了多种智能设备。Gauss2具备多模态能力,可以同时处理图像、文本和代码,使人工智能更好地融入各类设备生态中。三星为其开发了三种版本,分别为 Compact、Balanced 和 Supreme,以满足不同使用场景:Compact 模型:可在离线设备上运行,适合无网络环境的应用。Balanced 模型:在需要时使用在线资源,兼顾性能与效率。S
人工智能正在悄然改变心理健康领域的诊断方式。来自考纳斯理工大学的研究团队开发出一种revolutionary的抑郁症诊断模型,通过语音和脑电图数据的多模态分析,为精准识别心理健康问题开辟了全新路径。这项研究的核心在于打破传统单一数据诊断的局限。研究团队选择语音作为关键数据源,因为它能微妙地反映情绪状态。语速、语调、情感能量都可能成为抑郁症的潜在信号。图源备注:图片由AI生成,图片授权服务商Midjourney通过将脑电图和语音数据转化为可视化的光谱图,研究团队使用
最近,AI 大型语言模型(LLM)在各种任务中表现出色,写诗、写代码、聊天都不在话下,简直是无所不能!但是,你敢相信吗?这些“天才”AI 居然是“数学菜鸟”!它们在处理简单的算术题时经常翻车,让人大跌眼镜。一项最新的研究揭开了 LLM 算术推理能力背后的“奇葩”秘诀:它们既不依赖强大的算法,也不完全依靠记忆,而是采用了一种被称为“启发式大杂烩”的策略! 这就好比一个学生,没有认真学习数学公式和定理,而是靠着一些“小聪明”和“经验法则”来蒙答案。研究人员以算