全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会(GDC)上,阿里云魔搭社区重磅宣布,首发上线阶跃星辰最新开源的两款多模态模型,包括
图源备注:图片由AI生成,图片授权服务商Midjourney
全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会(GDC)上,阿里云魔搭社区重磅宣布,首发上线阶跃星辰最新开源的两款多模态模型,包括
图源备注:图片由AI生成,图片授权服务商Midjourney
今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。评测结果显示,Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色,显著超越市面上既有的最佳开源视频模型。
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答
近年来,人工智能技术取得了显著进展,但在计算效率与多功能性之间仍然存在挑战。许多先进的多模态模型,如 GPT-4,通常需要大量的计算资源,这限制了它们在高端服务器上的使用,导致智能技术难以在智能手机和平板电脑等边缘设备上得到有效利用。此外,实时处理视频分析或语音转文本等任务仍面临技术障碍,突显出对高效、灵活的 AI 模型的需求,以便在有限的硬件条件下实现无缝运作。为了解决这些问题,OpenBMB 最近推出了 MiniCPM-o2.6,这款具有80亿参数架构的模型,旨在支持视
李飞飞团队推出了一种新的多模态模型,该模型能够理解和生成人类的动作,并通过结合语言模型,实现了对口头和非口头语言的统一处理。 这一突破性的研究,使得机器不仅可以理解人类的指令,还能读懂动作中蕴含的情绪,从而更自然地进行人机交互。该模型的核心在于其多模态语言模型框架,能够接收音频、动作和文本等多种形式的输入,并输出所需的模态数据。 结合生成式预训练策略,该模型在多个任务上展现出卓越的性能。 例如,在协同语音手势生成方面,该模型不仅超越了