在这个个性化至上的时代,AI如何更懂你?想象一下,当你在聊天软件中输入“我通过了,很开心!”时,一个懂得你心意的AI,不仅识别出你的兴奋情绪,还记起你偏爱笑脸猫的表情,于是,它为你量身打造了一系列独特的笑脸猫表情包。
在人工智能的个性化生成领域,华为与清华大学强强联手,打造了一项名为PMG(Personalized Multimodal Generation)的新技术。这项技术能够根据用户的历史行为和偏好,生成符合用户个性化需求的多模态内容,如表情包、T恤设计图、电影海报等。
PMG的工作原理是什么?它通过分析用户的观影和对话历史,结合大语言模型的推理能力,提取出用户的偏好。这一过程包括显式的关键词生成和隐式的用户偏好向量生成,两者相结合,为多模态内容的生成提供了丰富的信息基础。
在实际应用中,PMG技术能够实现如下功能:
关键词生成:构造提示词指导大模型提取用户偏好为关键词。
隐向量生成:结合用户偏好关键词和目标项关键词,使用P-Tuning V2微调的偏差校正大模型,学习多模态生成能力。
用户偏好和目标项的平衡:通过计算个性化水平和准确度,量化衡量生成效果,并优化生成内容。
研究团队通过电商服装图片生成、电影海报场景和表情生成三个应用场景验证了PMG技术的有效性。实验结果表明,PMG能够生成反映用户偏好的个性化内容,并且在图像相似度指标LPIPS和SSIM上表现出色。
这项技术不仅在理论上具有创新性,而且在实际应用中展现出巨大的潜力和商业价值。随着个性化需求的日益增长,PMG技术有望在未来迎来爆发式增长,为用户带来更加丰富、个性化的体验。
项目地址:https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG