L'université de Pékin, Stanford et Pika Labs ont uni leurs forces pour lancer RPG, un nouveau framework open source de génération d'images à partir de texte. En exploitant les capacités des modèles linguistiques multimodaux (LLM), ce framework résout avec succès deux défis majeurs de la génération d'images à partir de texte.
Grâce à des stratégies clés telles que la décomposition des invites textuelles, la division de l'espace image et la génération indépendante d'images pour les sous-régions, le framework a obtenu des résultats de recherche significatifs, marquant une avancée majeure dans le domaine de la génération d'images à partir de texte.