突破性开源项目：手机也能运行的轻量级数字人来了

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Oct 29, 2024

996

近日，一个名为Ultralight-Digital-Human的开源项目在开发者社区引发广泛关注。这个项目成功解决了数字人技术在移动端的部署难题，让普通智能手机也能实时运行数字人应用，为相关技术的普及带来新的可能。

这款超轻量级数字人模型采用了创新的深度学习技术，通过算法优化和模型压缩，成功将庞大的数字人系统"瘦身"到可以在移动设备上流畅运行的程度。系统支持实时处理视频和音频输入，并能快速合成数字人形象，响应及时，运行流畅。

在技术实现上，该项目集成了Wenet和Hubert两种音频特征提取方案，开发者可以根据具体应用场景灵活选择。同时，通过引入同步网络（syncnet）技术，显著提升了数字人的唇形同步效果。为了确保在移动设备上的流畅运行，开发团队在训练和部署过程中采用了参数剪枝技术，有效降低了计算资源需求。

该项目的另一大亮点是提供了完整的训练流程文档。开发者只需准备3-5分钟的高质量人脸视频，就能按照指南开始训练自己的数字人模型。系统对视频要求也很明确，Wenet模式需要20fps的帧率，而Hubert模式则需要25fps。

为确保训练效果，项目团队特别提醒开发者注意以下关键环节:首选预训练模型作为基础;确保训练数据质量;定期监控训练过程;适时调整训练参数。这些细节都会直接影响最终的数字人效果。

目前，这个开源项目已经在社交应用、移动游戏和虚拟现实等领域展现出巨大潜力。与传统数字人技术相比，它不仅降低了硬件门槛，还实现了跨平台兼容，可以在各类智能手机上稳定运行。

项目地址:https://github.com/anliyuan/Ultralight-Digital-Human

Ultralight-Digital-Human 深度学习数字人同步网络

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

MIT 与哈佛联合推出 Lyra：一种高效的生物序列建模新方法

在生物序列建模领域，深度学习技术的进步令人瞩目，但高昂的计算需求和对大数据集的依赖让许多研究者感到困扰。最近，麻省理工学院（MIT）、哈佛大学和卡内基梅隆大学的研究团队推出了一种名为 Lyra 的新型生物序列建模方法。这种方法不仅参数显著减少到仅有传统模型的12万分之一，而且能够在短短两小时内使用两块 GPU 进行训练，极大地提升了模型的效率。Lyra 的设计灵感来源于生物学中的上位效应（即序列内突变间的相互作用），它通过一个次二次架构来有效理解生物序列与其

2025年3月28号 16:59

2.2k

人工智能安全与应用迎来新规范，市场监管总局加快标准研制

在今天的例行发布会上，市场监管总局宣布，将加快推进人工智能（AI）领域国家标准的研制工作。这一举措旨在引领行业发展方向，优化技术应用，提升产业生态，推动AI技术的高效、可靠应用。首先，市场监管总局将重点关注算力平台的标准建设。计划加快推动深度学习编译器、高质量数据集以及计算调度与协同等关键技术标准的制定。通过优化AI数据服务和计算资源整合，提升人工智能领域的资源利用效率。图源备注：图片由AI生成，图片授权服务商Midjourney在大模型技术领域，将加速

2025年3月28号 14:29

1.5k

DomoAI推出语音图像生成数字人功能：数字内容创作迎来新突破

人工智能创意平台DomoAI近日宣布推出了一项令人兴奋的新功能:通过上传语音和图像即可生成会说话的数字人。这一功能的亮相迅速在X平台上引发热烈讨论，被视为数字内容创作领域的一次重要革新。据X平台上的最新信息，这一新功能允许用户将任意图像与语音文件结合，快速生成具有自然语言表达能力的虚拟人物。生成的数字人不仅能根据上传的语音内容进行口型同步，还支持多种时长选择，从5秒短视频到最长60秒的完整片段，满足不同场景需求。用户反馈显示，该功能的生成速度远超

2025年3月21号 10:05

3.1k

京东斩获中国AI最高奖项的唯一特等奖

京东“黑板报”今日发布重磅消息，宣布京东科技人工智能团队凭借其“多模态交互式数字人关键技术及产业应用”项目，荣获中国智能科学技术领域的最高荣誉——吴文俊人工智能科学技术奖特等奖。据悉，这是本年度该奖项的唯一一个特等奖。这并非京东首次在该奖项中斩获殊荣。此前，京东分别在 2021 年和 2022 年因“商品智能匹配关键技术及在营销中的应用”以及“任务型智能对话交互关键技术及大规模产业应用”而获奖。此次再次获得最高奖项，充分体现了京东在人工智能技术领

2025年3月19号 21:01

3.5k

视频局部编辑技术VideoPainter：输入提示词自动识别修改，支持长视频

VideoPainter是一款基于深度学习的编辑神器，犹如一位灵巧的魔术师，能够通过简单的提示词，自动识别并修改视频内容，尤其适合长视频处理。输入提示词，自动识别内容想象一下，您正在观看一段精彩的视频，突然发现某个细节让您感到不满。以往，您可能需要费尽周折，逐帧调整，甚至重拍整个片段。但现在，有了 VideoPainter，您只需输入简短的提示词，这个系统就能自动识别需要修改的内容，并完成编辑。就像是在对一位艺术家发出指令:“把这块背景换成星空!” 于是，瞬间，您眼

2025年3月12号 9:46

1.8k

Nvidia与犹他州启动人工智能教育计划，培养未来AI人才

近日，Nvidia与犹他州政府宣布建立战略合作伙伴关系，共同推出全面的人工智能教育计划，旨在提升该州劳动力技能并促进经济增长。这项公私合作将为犹他州的大学、社区学院和成人教育项目提供发展生成式人工智能技能的关键资源。作为计划核心部分，教育工作者可通过Nvidia深度学习学院大学大使计划获得专业认证，享有高质量教学套件、研讨会内容以及云端Nvidia GPU加速工作站的访问权限。犹他州州长Spencer Cox表示:"人工智能将影响犹他州经济的每个领域。与Nvidia合作是帮助我们在短

2025年3月11号 9:21

1.1k

AI数字人新突破！Hedra推出Character-3模型和Hedra Studio：对图像、文本和音频进行联合推理

根据Hedra 在X平台上的最新消息，Hedra Studio正式推出了其全新AI模型——Character-3，这一模型被认为是数字人视频生成技术的一次重大飞跃。Hedra通过整合尖端AI技术，为内容创作者和企业营销人员提供了更高效、更具创意的内容生成工具，标志着AI驱动的叙事方式迈向了新的高度。Character- 3 模型：多模态融合的创新Character- 3 模型具备同时处理多种输入类型的能力，包括图像、文本和音频，并能将这些元素无缝融合，生成高质量的视频内容。用户只需上传一张人物照片，输入一段文本或音频，

2025年3月10号 10:13

4.2k

即梦AI全量上线数字人-大师模式（OmniHuman-1）可根据音频生成生动数字人

还在对着照片让AI“张张嘴”?那你就Out了! AI数字人领域迎来王炸级更新!字节跳动旗下即梦AI平台重磅宣布， “数字人-大师模式”功能全线引爆上线! 这项黑科技，直接将数字人制作门槛拉低到前所未有的程度——只需上传一张照片，再配上一段音频，AI就能瞬间为你打造出一个“高阶数字人”视频! 创作门槛瞬间“骨折”，自由度却直线飙升!更让人惊艳的是，新一代数字人动效逼真到令人咋舌，彻底甩开了以往那些“僵硬”模型的几条街!彻底告别“照片说话”的尴尬! “大师模式”最令人

2025年3月6号 16:47

9.0k

即梦AI推全新“动作模仿” 功能：人物图片+参考视频生成同款动作视频

即梦 AI 发布了一项全新的 “动作模仿” 功能，旨在为用户提供更加生动和真实的 AI 视频创作体验。这项功能由字节跳动的智能创作数字人团队提供技术支持，允许用户只需通过即梦 AI 的数字人入口，上传一张人物图片和一条参考视频，即可生成动态视频，让图片中的人物能够模仿参考视频中的动作，并准确还原情绪。根据即梦 AI 的官方介绍，该 “动作模仿” 功能支持肖像、半身及全身等多种画幅类型，能够同步还原不同画幅下的肢体动作和人脸表情。在人脸表情的控制上，即梦 AI 采

2025年3月5号 21:12

3.1k

平安健康推出 AI 助手 “平安芯医”，提供 24 小时智能医疗咨询服务

日前，平安健康医疗科技有限公司正式推出其名医 AI 助理服务 “平安芯医”，这一服务将在平安健康 App 上全面上线，为用户提供全天候的健康咨询。该数字助手通过先进的数字人技术和医疗大数据，结合自然语言处理和机器学习等技术，能够高效模拟真实医生的专业知识和经验。图源备注：图片由AI生成，图片授权服务商Midjourney用户可以通过平安健康 App 直接访问名医 AI 助理，无需预约，便可以通过图文、语音或视频的形式获得医疗健康建议。该服务覆盖了全科及多种专科，包括妇科、

2025年2月25号 15:42

2.1k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图