StreamV2V est un modèle de diffusion qui permet la traduction vidéo-vidéo (V2V) en temps réel grâce à des invites utilisateur. Contrairement aux méthodes par lots traditionnelles, StreamV2V utilise un traitement en continu pour gérer des vidéos avec un nombre illimité d'images. Son cœur repose sur la maintenance d'une banque de caractéristiques qui stocke les informations des images précédentes. Pour les nouvelles images, StreamV2V intègre des caractéristiques passées similaires à la sortie via l'attention auto-régressive étendue et la fusion directe de caractéristiques. La banque de caractéristiques est continuellement mise à jour en fusionnant les caractéristiques stockées et les nouvelles, restant ainsi compacte et riche en informations. StreamV2V se distingue par son adaptabilité et son efficacité, s'intégrant parfaitement aux modèles de diffusion d'images sans nécessiter de réglage fin.