A Universidade de Pequim, Stanford e Pika Labs uniram forças para lançar o RPG, um novo framework de código aberto para geração de imagens a partir de texto. Aproveitando a capacidade dos modelos de linguagem de grande porte (LLMs) multimodais, o RPG resolve com sucesso dois grandes desafios na geração de imagens a partir de texto.
Através de estratégias centrais como a decomposição de prompts de texto, a divisão do espaço da imagem e a geração independente de imagens em sub-regiões, o framework alcançou resultados de pesquisa notáveis, trazendo uma nova inovação para o campo da geração de imagens a partir de texto.