Nesta era de personalização extrema, como a IA pode entendê-lo melhor? Imagine que, ao digitar "Eu passei, estou feliz!" em um aplicativo de bate-papo, uma IA que entende seus sentimentos não apenas reconhece sua alegria, mas também se lembra de sua preferência por emojis de gatinhos sorridentes. Então, ela cria uma série única de emojis de gatinhos sorridentes personalizados para você.
Na área de geração personalizada de inteligência artificial, a Huawei e a Universidade Tsinghua uniram forças para criar uma nova tecnologia chamada PMG (Personalized Multimodal Generation). Essa tecnologia pode gerar conteúdo multimídia personalizado de acordo com o histórico de comportamento e preferências do usuário, como emojis, designs de camisetas e pôsteres de filmes.
Como funciona o PMG? Ele analisa o histórico de visualização de filmes e conversas do usuário e, em conjunto com a capacidade de raciocínio de modelos de linguagem grandes, extrai as preferências do usuário. Esse processo inclui a geração de palavras-chave explícitas e a geração de vetores de preferências de usuário implícitos. A combinação de ambos fornece uma base rica de informações para a geração de conteúdo multimídia.
Na prática, a tecnologia PMG pode realizar as seguintes funções:
Geração de palavras-chave: construir prompts para orientar o modelo grande na extração das preferências do usuário como palavras-chave.
Geração de vetores ocultos: combinando palavras-chave de preferências do usuário e palavras-chave de itens de destino, usando o modelo de linguagem grande com correção de viés ajustado com P-Tuning V2, para aprender a capacidade de geração multimídia.
Equilíbrio entre preferências do usuário e itens de destino: quantificando a medição dos resultados de geração por meio do cálculo do nível de personalização e precisão, e otimizando o conteúdo gerado.
A equipe de pesquisa validou a eficácia da tecnologia PMG por meio de três cenários de aplicação: geração de imagens de roupas de comércio eletrônico, cenas de pôsteres de filmes e geração de emojis. Os resultados experimentais mostram que o PMG pode gerar conteúdo personalizado que reflete as preferências do usuário e apresenta excelente desempenho nos indicadores de similaridade de imagem LPIPS e SSIM.
Esta tecnologia não apenas apresenta inovação teórica, mas também demonstra um enorme potencial e valor comercial em aplicações práticas. Com o aumento da demanda por personalização, a tecnologia PMG deve experimentar um crescimento explosivo no futuro, proporcionando aos usuários experiências mais ricas e personalizadas.
Endereço do projeto: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG