北京大学、スタンフォード大学、そしてPika Labsが共同で、新しいオープンソースのテキストから画像生成フレームワーク「RPG」を発表しました。これは、マルチモーダルLLMの能力を活用することで、テキストから画像生成における2つの大きな課題を解決することに成功しました。

このフレームワークは、テキストプロンプトの分解、画像空間の分割、そしてサブ領域画像の独立した生成といったコア戦略を通じて、顕著な研究成果を上げており、テキストから画像生成の分野に新たなブレークスルーをもたらしています。