VLOGGER ist ein Verfahren zur Erzeugung von text- und audiogesteuerten sprechenden menschlichen Videos aus einem einzigen Eingabebild einer Person. Es baut auf den jüngsten Erfolgen von generativen Diffusionsmodellen auf. Unsere Methode umfasst 1) ein stochastisches Mensch-zu-3D-Bewegungs-Diffusionsmodell und 2) eine neuartige diffusionsbasierte Architektur, die text-zu-Bild-Modelle durch zeitliche und räumliche Steuerung verbessert. Diese Methode ermöglicht die Erzeugung hochwertiger Videos variabler Länge und bietet eine einfache Steuerung durch fortgeschrittene Darstellung von menschlichen Gesichtszügen und Körperhaltung. Im Gegensatz zu früheren Arbeiten benötigt unsere Methode kein Training für jede einzelne Person und ist nicht auf Gesichtserkennung und -zuschnitt angewiesen. Es werden vollständige Bilder generiert (nicht nur Gesicht oder Lippen), wobei ein breites Spektrum an Szenarien berücksichtigt wird, die für die authentische Darstellung menschlicher Kommunikation notwendig sind (z. B. sichtbarer Oberkörper oder diverse Körpermerkmale).