Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
在今年的三星开发者大会上,三星正式发布了全新 Gauss2AI 模型,标志着其在人工智能领域的又一次重大进步。Gauss2在性能和效率上全面升级,应用范围从智能手机到家用电器,覆盖了多种智能设备。Gauss2具备多模态能力,可以同时处理图像、文本和代码,使人工智能更好地融入各类设备生态中。三星为其开发了三种版本,分别为 Compact、Balanced 和 Supreme,以满足不同使用场景:Compact 模型:可在离线设备上运行,适合无网络环境的应用。Balanced 模型:在需要时使用在线资源,兼顾性能与效率。S
人工智能正在悄然改变心理健康领域的诊断方式。来自考纳斯理工大学的研究团队开发出一种revolutionary的抑郁症诊断模型,通过语音和脑电图数据的多模态分析,为精准识别心理健康问题开辟了全新路径。这项研究的核心在于打破传统单一数据诊断的局限。研究团队选择语音作为关键数据源,因为它能微妙地反映情绪状态。语速、语调、情感能量都可能成为抑郁症的潜在信号。图源备注:图片由AI生成,图片授权服务商Midjourney通过将脑电图和语音数据转化为可视化的光谱图,研究团队使用
微软最近在企业 AI 智能体领域取得了显著进展,已经建立起全球最大的企业 AI 智能体生态系统。自推出 Co pilot Studio 以来,已有超过10万个组织参与了 AI 智能体的创建和编辑。这一里程碑标志着微软在企业科技领域的领先地位。微软高管查尔斯・拉曼纳表示,这一增长速度超出预期,比公司之前发布的任何尖端技术的接受速度都要快。他在最近的 Ignite 大会上宣布,微软将允许企业使用 Azure 目录中的1800个大型语言模型(LLM),这一举措显著增强了企业的智能体能力。此外,微软还推出了