En esta era de máxima personalización, ¿cómo puede la IA comprenderte mejor? Imagina que escribes en una aplicación de chat "¡Lo logré, estoy muy feliz!", una IA que te comprende no solo reconoce tu emoción, sino que también recuerda que te encantan los emojis de gatitos sonrientes. Entonces, te crea una serie única de emojis de gatitos sonrientes personalizados.
En el campo de la generación personalizada de inteligencia artificial, Huawei y la Universidad Tsinghua han unido sus fuerzas para crear una nueva tecnología llamada PMG (Generación Multimodal Personalizada). Esta tecnología puede generar contenido multimodal que se adapta a las necesidades individuales del usuario en función de su historial de comportamiento y preferencias, como emojis, diseños de camisetas y carteles de películas.
¿Cómo funciona PMG? Analiza el historial de visualización y conversación del usuario y, junto con la capacidad de razonamiento de los modelos de lenguaje grandes, extrae sus preferencias. Este proceso incluye la generación explícita de palabras clave y la generación implícita de vectores de preferencias de usuario, que, combinados, proporcionan una base de información rica para la generación de contenido multimodal.
En la aplicación práctica, la tecnología PMG puede lograr las siguientes funciones:
Generación de palabras clave: Construye indicaciones para guiar al modelo grande para extraer las preferencias del usuario como palabras clave.
Generación de vectores ocultos: Combinando las palabras clave de preferencias del usuario y las palabras clave del elemento objetivo, utiliza un modelo grande de corrección de sesgos ajustado con P-Tuning V2 para aprender la capacidad de generación multimodal.
Equilibrio entre las preferencias del usuario y los elementos objetivo: Mediante el cálculo del nivel de personalización y la precisión, se mide cuantitativamente el efecto de generación y se optimiza el contenido generado.
El equipo de investigación ha verificado la efectividad de la tecnología PMG mediante tres escenarios de aplicación: generación de imágenes de ropa de comercio electrónico, escenas de carteles de películas y generación de emojis. Los resultados experimentales muestran que PMG puede generar contenido personalizado que refleja las preferencias del usuario y tiene un excelente rendimiento en los indicadores de similitud de imagen LPIPS y SSIM.
Esta tecnología no solo es innovadora en teoría, sino que también muestra un enorme potencial y valor comercial en la aplicación práctica. Con el creciente aumento de las necesidades de personalización, se espera que la tecnología PMG experimente un crecimiento explosivo en el futuro, brindando a los usuarios una experiencia más rica y personalizada.
Dirección del proyecto: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG