UNO est un modèle génératif d'images conditionnelles multi-images basé sur un transformateur de diffusion. Grâce à l'introduction d'un alignement progressif intermodal et d'un encodage de position rotatif universel, il permet une génération d'images hautement cohérente. Son principal avantage réside dans l'amélioration du contrôle de la génération de sujets uniques ou multiples, ce qui le rend adapté à diverses tâches de génération d'images créatives.