李飞飞团队推出了一种新的多模态模型,该模型能够理解和生成人类的动作,并通过结合语言模型,实现了对口头和非口头语言的统一处理。 这一突破性的研究,使得机器不仅可以理解人类的指令,还能读懂动作中蕴含的情绪,从而更自然地进行人机交互。该模型的核心在于其多模态语言模型框架,能够接收音频、动作和文本等多种形式的输入,并输出所需的模态数据。 结合生成式预训练策略,该模型在多个任务上展现出卓越的性能。 例如,在协同语音手势生成方面,该模型不仅超越了
北京智谱华章科技有限公司宣布,其旗下的智谱开放平台BigModel上线了首个免费的多模态API——GLM-4V-Flash。这一新模型基于4V系列模型的优秀能力,在图像处理方面实现了精确度的提升,进一步降低了开发者在各领域深入挖掘大模型的门槛。
亚马逊近日在其 AWS re:Invent 大会上宣布了一系列新的 AI 基础模型,采用全新的 “Nova” 品牌。这些模型将作为亚马逊 Bedrock 模型库的一部分提供,标志着亚马逊在人工智能领域的进一步发展。Amazon 在一篇博文中表示,现在有三种“理解”模型可用:Nova Micro,这是一款专为速度和成本优化的文本模型。 Nova Lite,这是一款 “非常低成本” 的多模态模型,可以同时处理图像、视频和文本,并生成相应的文本内容。 Nova Pro,这是一款 “高能力” 的多模态模型,适合更复杂的任务。此外,亚马逊
智谱科技近日宣布开源其端侧大语言和多模态模型GLM-Edge系列,这一举措标志着公司在端侧真实落地使用场景中的一次重要尝试。GLM-Edge系列由四种不同尺寸的模型组成,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B,分别针对手机、车机等移动平台以及PC等桌面平台进行了优化。