Im Zeitalter der Individualisierung: Wie versteht Sie KI besser? Stellen Sie sich vor: Sie schreiben in einem Chatprogramm „Ich habe es geschafft, ich freue mich!“. Eine KI, die Ihre Wünsche versteht, erkennt nicht nur Ihre Freude, sondern erinnert sich auch an Ihre Vorliebe für Smile-Cat-Emojis. Daher erstellt sie für Sie eine Reihe einzigartiger Smile-Cat-Emojis.
Im Bereich der personalisierten KI-Generierung haben Huawei und die Tsinghua-Universität gemeinsam eine neue Technologie namens PMG (Personalized Multimodal Generation) entwickelt. Diese Technologie kann basierend auf dem bisherigen Verhalten und den Vorlieben des Nutzers multimodalen Content generieren, der den individuellen Bedürfnissen entspricht, wie z. B. Emojis, T-Shirt-Designs oder Filmplakate.
Wie funktioniert PMG? Es analysiert die Film- und Chat-Historie des Nutzers und extrahiert mithilfe der Inferenzfähigkeit von großen Sprachmodellen dessen Vorlieben. Dieser Prozess umfasst die explizite Generierung von Keywords und die implizite Generierung von User-Präferenzvektoren. Die Kombination beider liefert eine umfassende Informationsbasis für die Generierung multimodaler Inhalte.
In der Praxis kann die PMG-Technologie folgende Funktionen erfüllen:
Keyword-Generierung: Erstellung von Prompts, um das große Sprachmodell zur Extraktion von Nutzerpräferenzen als Keywords anzuleiten.
Implizite Vektor-Generierung: Unter Verwendung eines durch P-Tuning V2 feinabgestimmten, bias-korrigierten großen Sprachmodells werden Nutzerpräferenz-Keywords und Ziel-Keywords kombiniert, um die Fähigkeit zur multimodalen Generierung zu erlernen.
Ausgleich von Nutzerpräferenzen und Zielobjekten: Durch die Berechnung des Personalisierungsgrades und der Genauigkeit wird die Generierungsleistung quantifiziert und der generierte Content optimiert.
Das Forschungsteam hat die Effektivität der PMG-Technologie anhand von drei Anwendungsfällen getestet: Generierung von E-Commerce-Bekleidungsbildern, Filmplakat-Szenen und Emoji-Generierung. Die Ergebnisse zeigen, dass PMG personalisierte Inhalte generieren kann, die die Nutzerpräferenzen widerspiegeln, und dabei hervorragende Ergebnisse in Bezug auf die Bildähnlichkeitsindizes LPIPS und SSIM erzielt.
Diese Technologie ist nicht nur theoretisch innovativ, sondern zeigt auch ein enormes Potenzial und einen hohen kommerziellen Wert in der Praxis. Mit dem zunehmenden Bedarf an Personalisierung dürfte die PMG-Technologie in Zukunft einen explosionsartigen Anstieg erleben und den Nutzern ein reichhaltigeres und personalisierteres Erlebnis bieten.
Projekt-Adresse: https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG