新加坡南洋理工大学的研究团队近日公开了一项名为SOLAMI的AI技术,它能创造出活灵活现的3D虚拟角色,不仅能在VR世界里跟你实时互动,还能理解你的语音和动作,陪你聊天、跳舞甚至打拳击! 这简直是游戏、虚拟社交和单身狗的福音啊!
SOLAMI是一个端到端的社会视觉-语言-动作(VLA)建模框架,它利用深度学习技术,将用户的语音和动作转换为虚拟角色可以理解的“语言”,并生成相应的语音和动作回应。说人话就是它能把你的语音和动作翻译成AI听得懂的语言,然后让虚拟角色做出相应的反应,就像真人一样自然流畅,告别以往AI角色的呆板和机械感。
为了训练这个AI“社交高手”,研究团队也是煞费苦心。
他们创建了一个名为SynMSI的合成数据集,里面包含了海量的对话、动作和语音数据。这些数据可不是随便收集的,而是利用现有的动作数据库和强大的语言模型,经过精心设计和处理生成的。
更厉害的是,SOLAMI还搭载了一个VR界面,让你能身临其境地和虚拟角色互动。
你戴上VR设备,就能看到虚拟角色站在你面前,跟你聊天、做动作,仿佛置身于真实的社交场景中。
研究团队表示,SOLAMI技术应用前景非常广阔,未来可能颠覆游戏、虚拟社交和教育培训等多个领域。
比如,游戏里的NPC角色可以变得更智能,更像真人一样和你互动;虚拟社交平台上的虚拟化身可以更个性化,让你在虚拟世界里也能找到志同道合的朋友;甚至还能创造出虚拟老师,让学习变得更生动有趣。
当然,SOLAMI目前还处于研究阶段,但它展现出的巨大潜力已经让科技圈为之振奋。
研究团队通过一系列实验,证明了SOLAMI在动作质量、语音质量和反应速度上都比现有的方法更胜一筹。 更重要的是,用户测试结果显示,大家对SOLAMI创造的虚拟角色都非常满意,看来“AI老婆/老公”的时代真的要来了!
SOLAMI技术的核心亮点:
端到端VLA模型: 将用户的语音和动作直接转化为虚拟角色的语音和动作回应,实现自然流畅的互动体验。
SynMSI合成数据集: 利用现有的动作数据集和大型语言模型,自动生成大量多轮多模态对话数据,解决训练数据缺乏的问题。
沉浸式VR界面: 用户可以通过VR设备与虚拟角色进行面对面的交流,体验更真实的互动感受。
更智能、更人性化: SOLAMI可以创建出更智能、更逼真的虚拟角色,让虚拟互动体验更具“人情味”。
研究团队表示,SOLAMI技术的应用前景十分广阔,它可以用于游戏、虚拟社交、教育培训等多个领域。 例如,在游戏中,SOLAMI可以创建出更智能、更逼真的NPC角色,提升玩家的游戏体验; 在虚拟社交中,SOLAMI可以帮助用户创建更个性化的虚拟化身,增强虚拟社交的沉浸感; 在教育培训中,SOLAMI可以创建出更生动的虚拟教师,提升教学效果。
研究团队还进行了一系列实验,结果表明,SOLAMI技术在动作质量、语音质量和推理延迟方面均优于现有的其他方法。 用户研究也表明,用户对SOLAMI技术构建的3D虚拟角色的满意度非常高。
目前,SOLAMI技术仍处于研究阶段,但其未来发展潜力巨大,有望为我们带来更智能、更人性化的虚拟互动体验。
项目主页:https://solami-ai.github.io/
技术报告:https://arxiv.org/abs/2412.00174
完整介绍视频:https://www.bilibili.com/video/BV1D6zpYHEyc/