Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
在今年的三星开发者大会上,三星正式发布了全新 Gauss2AI 模型,标志着其在人工智能领域的又一次重大进步。Gauss2在性能和效率上全面升级,应用范围从智能手机到家用电器,覆盖了多种智能设备。Gauss2具备多模态能力,可以同时处理图像、文本和代码,使人工智能更好地融入各类设备生态中。三星为其开发了三种版本,分别为 Compact、Balanced 和 Supreme,以满足不同使用场景:Compact 模型:可在离线设备上运行,适合无网络环境的应用。Balanced 模型:在需要时使用在线资源,兼顾性能与效率。S
近日,谷歌和 OpenAI 之间的竞争再次升温。在新版 GPT-4o 刚刚登顶 AI 竞技榜后仅一天,谷歌便推出了最新的试验版模型 Gemini-Exp-1121,迅速夺回了冠军宝座。就在一周前,谷歌刚发布了 Gemini-Exp-1114,这似乎表明谷歌对 OpenAI 的动态反应非常迅速。谷歌 DeepMind 的首席科学家 Jack Rae 对此表示,这是一场 “闪电战”,暗示着后期训练的迭代速度比预训练更为迅速。根据官方信息,Gemini-Exp-1121在多个方面进行了显著提升,主要体现在代码能力、推理能力和视觉理解能力的增强。此外,该模型在复杂
OpenAI 宣布对其旗舰模型 GPT-4o 进行了重大升级,进一步提升了其在推理、跨媒体和对话能力等方面的表现。此次更新被称为 ChatGPT-4o(20241120),旨在为用户提供更自然、引人入胜的文本生成体验。在升级之前,OpenAI 对 GPT-4o 进行了严格的性能测试,这一过程在一个名为 “Chatbot Arena” 的大型语言模型(LLM)评估平台上进行。通过与其他模型进行对比,用户们在不知道模型名称的情况下,使用两个模型进行对话,最终 GPT-4o 在各项指标中脱颖而出,位列第一,超越了 Gemini-Exp-1114。此外,Open