Investigadores de la Universidad de Hong Kong y Tencent han propuesto un nuevo paradigma de sistema de recomendación multimodal, DiffMM, diseñado para mejorar la precisión de las recomendaciones de videos cortos. Este sistema crea un gráfico que contiene información de usuarios y videos, y utiliza técnicas de difusión de gráficos y aprendizaje contrastivo para comprender mejor la relación entre usuarios y videos, logrando así recomendaciones más precisas.

El método de modelado de DiffMM se compone principalmente de tres partes: un modelo de difusión de gráficos multimodales, agregación de gráficos multimodales y mejora contrastiva multi-modal. El modelo de difusión de gráficos multimodales, a través de un modelo de probabilidad de difusión con eliminación de ruido sensible al modo, unifica las señales de colaboración usuario-artículo con información multimodal, resolviendo eficazmente los efectos negativos en los sistemas de recomendación multimodales. Simultáneamente, a través del paradigma de difusión de probabilidad gráfica y la optimización de difusión gráfica sensible al modo, se logra la generación y optimización de gráficos usuario-artículo sensibles al modo.

image.png

En cuanto a la mejora contrastiva multimodal, DiffMM utiliza vistas contrastivas sensibles al modo y métodos de mejora contrastiva para capturar la consistencia de los patrones de interacción del usuario en diferentes modos de artículos, mejorando el rendimiento del sistema de recomendación.

Artículo: https://arxiv.org/abs/2406.1178

Puntos clave:

⭐ La Universidad de Hong Kong y Tencent presentan el nuevo paradigma DiffMM, mejorando el rendimiento de los sistemas de recomendación multimodales.

⭐ DiffMM utiliza técnicas de difusión de gráficos y aprendizaje contrastivo para comprender mejor la relación entre usuarios y videos.

⭐ El método de mejora contrastiva multimodal aumenta la precisión y el rendimiento del sistema de recomendación.