近年来,人工智能技术取得了显著进展,但在计算效率与多功能性之间仍然存在挑战。许多先进的多模态模型,如 GPT-4,通常需要大量的计算资源,这限制了它们在高端服务器上的使用,导致智能技术难以在智能手机和平板电脑等边缘设备上得到有效利用。此外,实时处理视频分析或语音转文本等任务仍面临技术障碍,突显出对高效、灵活的 AI 模型的需求,以便在有限的硬件条件下实现无缝运作。为了解决这些问题,OpenBMB 最近推出了 MiniCPM-o2.6,这款具有80亿参数架构的模型,旨在支持视
李飞飞团队推出了一种新的多模态模型,该模型能够理解和生成人类的动作,并通过结合语言模型,实现了对口头和非口头语言的统一处理。 这一突破性的研究,使得机器不仅可以理解人类的指令,还能读懂动作中蕴含的情绪,从而更自然地进行人机交互。该模型的核心在于其多模态语言模型框架,能够接收音频、动作和文本等多种形式的输入,并输出所需的模态数据。 结合生成式预训练策略,该模型在多个任务上展现出卓越的性能。 例如,在协同语音手势生成方面,该模型不仅超越了
北京智谱华章科技有限公司宣布,其旗下的智谱开放平台BigModel上线了首个免费的多模态API——GLM-4V-Flash。这一新模型基于4V系列模型的优秀能力,在图像处理方面实现了精确度的提升,进一步降低了开发者在各领域深入挖掘大模型的门槛。
亚马逊近日在其 AWS re:Invent 大会上宣布了一系列新的 AI 基础模型,采用全新的 “Nova” 品牌。这些模型将作为亚马逊 Bedrock 模型库的一部分提供,标志着亚马逊在人工智能领域的进一步发展。Amazon 在一篇博文中表示,现在有三种“理解”模型可用:Nova Micro,这是一款专为速度和成本优化的文本模型。 Nova Lite,这是一款 “非常低成本” 的多模态模型,可以同时处理图像、视频和文本,并生成相应的文本内容。 Nova Pro,这是一款 “高能力” 的多模态模型,适合更复杂的任务。此外,亚马逊