阿里巴巴团队发布了肖像视频生成框架 EMO,能够生成具有丰富面部表情和头部姿势的声音肖像视频。EMO利用参考网络从参考图像和动作帧中提取特征,通过预训练的音频编码器处理声音并嵌入,结合多帧噪声和面部区域掩码生成视频。实验结果表明,EMO在表现力和真实感方面优于现有方法。该模型潜在应用方向将提高数字媒体和虚拟内容生成技术水平,但也可能被用作犯罪工具。
阿里巴巴团队发布了肖像视频生成框架 EMO,能够生成具有丰富面部表情和头部姿势的声音肖像视频。EMO利用参考网络从参考图像和动作帧中提取特征,通过预训练的音频编码器处理声音并嵌入,结合多帧噪声和面部区域掩码生成视频。实验结果表明,EMO在表现力和真实感方面优于现有方法。该模型潜在应用方向将提高数字媒体和虚拟内容生成技术水平,但也可能被用作犯罪工具。
埃隆·马斯克旗下xAI公司宣布,其人工智能聊天机器人Grok3的语音功能已正式上线。这一备受期待的功能现已通过Grok应用程序向用户开放,目前支持英语交互。根据X平台上的最新消息,用户只需更新Grok应用,即可在界面右上角“新对话”按钮旁发现新增的语音标志,点击即可体验这一全新功能。据xAI透露,Grok3语音功能提供多达10种不同的模式,其中包括两种标记为“18禁”的选项,引发了用户的广泛讨论。尽管具体模式细节尚未完全公开,但这一设计显示出Grok3在交互多样性上的突破,延
2月24日,LiblibAI(哩布哩布AI)宣布在短短一年内连续完成四轮融资,创下国内AI应用赛道融资速度的新纪录。继2024年7月披露的数亿元融资后,LiblibAI再次成功斩获数亿元资金。最新两轮融资由渶策资本、顺为资本领投,明势创投等老股东超额跟投
国内 AI 应用赛道再添重磅融资事件! AI 内容创作平台 LiblibAI-哩布哩布AI 今日正式宣布, 在短短一年时间内 惊人地 连续完成四轮融资, 创下国内 AI 应用领域 前所未有的 融资速度纪录。 继2024年7月 披露的数亿元融资之后, LiblibAI 再次成功 斩获 数亿元巨额资金, 发展势头 持续 强劲, 引发业界 高度 关注。据悉, LiblibAI 最新 两轮 融资 由 渶策资本 和 顺为资本 联合领投, 明势创投 等 老股东 超额 跟投, 互联网巨头 巨人网络 以 产业投资方 身份 强势 入局, 远识资本 继续 担任 独家 财
近日,Meta AI 团队推出了视频联合嵌入预测架构(V-JEPA)模型,这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息,进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则,认为连续感官输入的表示应该能够相互预测。早期的研究方法通过慢特征分析和谱技术来保持时间一致性,防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模,确保表示能