商汤科技发布可控人物视频生成算法模型Vimi

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月4号 10:39

158

商汤科技正式推出了其首个具有里程碑意义的“Vimi”可控人物视频生成大模型。

微信截图_20240704103446.png

Vimi作为商汤科技基于其强大的日日新大模型能力研发的产物，实现了前所未有的视频生成灵活性。它能够灵活接收来自动作视频、精美动画、丰富声音素材乃至文字描述的多元化输入，作为驱动元素，精准地操控并转化人物类图片，最终生成与目标动作完美匹配的人物视频。这一过程不仅展现了AI技术对于复杂场景的高度适应性，也体现了商汤在视频生成技术上的深厚积累。

微信截图_20240704103219.png

尤为值得一提的是，Vimi在可控性上的卓越表现。它超越了传统图片表情控制技术的局限，不仅能够细腻地调整人物的表情变化，更实现了对肢体动作的精准操控。这一突破性的能力使得Vimi能够生成出既符合逻辑又生动自然的视频内容，同时，在头发、服饰、背景等细节处理上也达到了前所未有的精细度，支持光影的自然变化，为观众带来沉浸式的视觉体验。

在视频生成的稳定性与时长上，Vimi同样展现出了非凡的实力。它能够稳定地生成长达1分钟的单镜头人物视频，这一成就突破了现有大模型AI视频生成在时长上的限制。更重要的是，随着视频时长的增加，Vimi生成的视频画面质量始终保持如一，不会出现劣化或失真的情况，确保了视频内容的连贯性和高质量。

申请体验地址：https://www.wjx.cn/vm/mhSxfGv.aspx

阿里的AI视频模型通义万相Wan推出独立网站

阿里巴巴旗下“通义”品牌宣布，其AI视频生成模型“通义万相Wan”正式推出独立网站，标志着其生成式AI技术的重大进展。新网站现已开放，用户可直接登录体验“文本生成视频”和“图像生成视频”功能，无需本地部署，极大降低了使用门槛。此外，每天登录网站还可获赠积分，激励用户持续探索。“通义万象Wan”自2023年7月亮相以来不断优化，其最新版本Wan2.1在VBench排行榜上以84.7%的得分位居首位，擅长动态场景和多对象交互。依托阿里云自研的扩散变换器（DiT）架构，该模型支持中

腾讯混元发布图生视频模型HunyuanVideo-I2V，并上线对口型等玩法

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展，旨在推动开放源代码社区的深入探索。HunyuanVideo-I2V 结合了先进的视频生成技术，能够将静态图像转换为生动的视频内容，为创作者提供了更多的可能性。HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器，显著增强了模型对输入图像语义内容的理解能力。这意味着，用户输入的图像能够通过模型生成语义图像标记，这些标记与视频潜在标记相结

爱诗科技完成A5轮融资，剑指AI视频生成领域新高地

据硅星人消息，3月5日，爱诗科技宣布完成A5轮融资，由靖亚资本独家投资，光源资本担任独家财务顾问。据内部人士透露，爱诗科技累计融资额已超4亿元，成为AI视频生成领域的明星企业。据悉，爱诗科技成立于2023年，由前字节跳动视觉技术负责人王长虎创立，团队成员多来自字节、微软亚洲研究院等知名机构。公司成立以来，凭借强大的技术实力和字节系背景，迅速获得蚂蚁集团、顺禧基金等投资者的青睐。本轮融资将主要用于加速模型与产品研发，以及引进高端人才。爱诗科技致力

官宣！可灵 AI 安卓应用正式上线

日前，可灵 AI 官方宣布，备受期待的安卓应用终于上线。这款应用将用户所喜爱的 Kling AI 功能集中于一处，用户只需轻轻点击，即可体验丰富多样的功能，包括 Frames、Elements 等。根据官方页面介绍，KLING AI 的核心功能包括 AI 视频生成和 AI 图像生成。用户可以输入文本提示或上传参考图像，轻松制作出分辨率高达1080P 的视频。这款应用支持用户生成长达3分钟的创意视频，方便用户将想法转化为生动的影像。此外，用户也可以利用文本或图像生成多种风格和尺寸的创意图像，并能够一键将

AI新闻资讯