Des chercheurs de l'Université de Hong Kong et de Tencent ont proposé un nouveau paradigme de système de recommandation multimodale, DiffMM, visant à améliorer la précision des recommandations de courtes vidéos. Ce système crée un graphe contenant des informations sur les utilisateurs et les vidéos, et utilise des techniques de diffusion de graphe et d'apprentissage contrastif pour mieux comprendre la relation entre les utilisateurs et les vidéos, permettant ainsi des recommandations plus précises.
La méthode de modélisation de DiffMM comprend trois parties principales : un modèle de diffusion de graphe multimodale, une agrégation de graphe multimodale et un renforcement contrastif intermodal. Le modèle de diffusion de graphe multimodale, grâce à un modèle probabiliste de diffusion de bruit sensible au mode, unifie les signaux de collaboration utilisateur-objet avec des informations multimodales, résolvant efficacement les effets négatifs dans les systèmes de recommandation multimodaux. Simultanément, grâce au paradigme de diffusion probabiliste de graphe et à l'optimisation de la diffusion de graphe sensible au mode, il réalise la génération et l'optimisation d'un graphe utilisateur-objet sensible au mode.
En ce qui concerne le renforcement contrastif intermodal, DiffMM utilise des vues contrastives sensibles au mode et des méthodes de renforcement contrastif pour capturer la cohérence des modes d'interaction utilisateur sur différents modes d'objets, améliorant ainsi les performances du système de recommandation.
Article : https://arxiv.org/abs/2406.1178
Points clés :
⭐ L'Université de Hong Kong et Tencent proposent un nouveau paradigme DiffMM pour améliorer les performances des systèmes de recommandation multimodaux.
⭐ DiffMM utilise des techniques de diffusion de graphe et d'apprentissage contrastif pour mieux comprendre la relation entre les utilisateurs et les vidéos.
⭐ La méthode de renforcement contrastif intermodal améliore la précision et les performances du système de recommandation.