Generative Powers of Ten est une méthode de génération de contenu cohérent multi-échelle à partir de texte vers image. Elle permet un zoom sémantique extrême sur une scène, par exemple, d'une vue grand angle d'une forêt à un gros plan d'un insecte sur une branche. Cette représentation permet de générer des vidéos avec zoom continu ou d'explorer interactivement les différentes échelles d'une scène. Nous y parvenons grâce à une méthode d'échantillonnage par diffusion multi-échelle conjointe qui encourage la cohérence entre les différentes échelles tout en préservant l'intégrité de chaque processus d'échantillonnage individuel. Chaque échelle générée étant guidée par une invite textuelle différente, notre méthode permet un zoom plus profond que les méthodes de sur-résolution traditionnelles, qui peuvent avoir du mal à créer de nouvelles structures contextuelles à des échelles totalement différentes. Nous avons comparé qualitativement notre méthode à la sur-résolution de Stable Diffusion et aux techniques alternatives d'extrapolation, montrant que notre approche est la plus efficace pour générer un contenu multi-échelle cohérent.