Forscher der Universität Hongkong und Tencent haben ein völlig neues Paradigma für multimodale Empfehlungssysteme vorgestellt – DiffMM – mit dem Ziel, die Genauigkeit von Kurzvideo-Empfehlungen zu verbessern. Das System erstellt einen Graphen, der Informationen über Nutzer und Videos enthält, und nutzt Graph-Diffusion und kontrastives Lernen, um die Beziehungen zwischen Nutzern und Videos besser zu verstehen und so genauere Empfehlungen zu ermöglichen.
Die Modellmethode von DiffMM besteht hauptsächlich aus drei Teilen: einem multimodalen Graph-Diffusionsmodell, multimodaler Graph-Aggregation und kontrastiv verstärkter Cross-Modalität. Das multimodale Graph-Diffusionsmodell verwendet ein modalitätsbewusstes rauschunterdrückendes Diffusionswahrscheinlichkeitsmodell, um Nutzer-Objekt-Kooperationssignale und multimodale Informationen zu vereinheitlichen und negative Auswirkungen in multimodalen Empfehlungssystemen effektiv zu lösen. Gleichzeitig wird durch das Graph-Wahrscheinlichkeitsdiffusionsparadigma und die modalitätsbewusste Graph-Diffusionsoptimierung die Erzeugung und Optimierung modalitätsbewusster Nutzer-Objekt-Graphen realisiert.
Im Bereich der kontrastiv verstärkten Cross-Modalität nutzt DiffMM modalitätsbewusste kontrastive Ansichten und kontrastive Verstärkungsmethoden, um die Konsistenz der Nutzerinteraktionsmuster auf verschiedenen Objektmodalitäten zu erfassen und die Leistung des Empfehlungssystems zu verbessern.
Forschungsarbeit: https://arxiv.org/abs/2406.1178
Wichtigste Punkte:
⭐ Die Universität Hongkong und Tencent stellen das neue Paradigma DiffMM vor, um die Leistung multimodaler Empfehlungssysteme zu verbessern.
⭐ DiffMM nutzt Graph-Diffusion und kontrastives Lernen, um die Beziehungen zwischen Nutzern und Videos besser zu verstehen.
⭐ Die kontrastiv verstärkte Cross-Modalität verbessert die Genauigkeit und Leistung des Empfehlungssystems.