Pesquisadores da Universidade de Hong Kong e da Tencent propuseram um novo paradigma de sistema de recomendação multimodal — DiffMM — com o objetivo de melhorar a precisão das recomendações de vídeos curtos. O sistema cria um gráfico contendo informações do usuário e do vídeo e utiliza técnicas de difusão de grafos e aprendizado contrastivo para melhor compreender a relação entre usuários e vídeos, resultando em recomendações mais precisas.
A metodologia do modelo DiffMM consiste em três partes principais: modelo de difusão de grafos multimodais, agregação de grafos multimodais e aprimoramento contrastivo multimodal. O modelo de difusão de grafos multimodais, por meio de um modelo probabilístico de difusão de ruído sensível ao modo, unifica os sinais de colaboração usuário-item com informações multimodais, resolvendo efetivamente os impactos negativos nos sistemas de recomendação multimodais. Ao mesmo tempo, por meio do paradigma de difusão probabilística de grafos e otimização de difusão de grafos sensível ao modo, a geração e otimização de grafos usuário-item sensíveis ao modo são realizadas.
No que diz respeito ao aprimoramento contrastivo multimodal, o DiffMM utiliza vistas contrastivas sensíveis ao modo e métodos de aprimoramento contrastivo para capturar a consistência dos padrões de interação do usuário em diferentes modos de itens, melhorando o desempenho do sistema de recomendação.
Artigo: https://arxiv.org/abs/2406.1178
Destaques:
⭐ A Universidade de Hong Kong e a Tencent propõem o novo paradigma DiffMM, aprimorando o desempenho do sistema de recomendação multimodal.
⭐ O DiffMM utiliza técnicas de difusão de grafos e aprendizado contrastivo para melhor compreender a relação entre usuários e vídeos.
⭐ O método de aprimoramento contrastivo multimodal melhorou a precisão e o desempenho do sistema de recomendação.