VideoWorld ist ein tiefgehendes generatives Modell, das sich darauf konzentriert, komplexes Wissen aus rein visuellen Eingaben (unbeschriftete Videos) zu lernen. Durch die Technik der autoregressiven Videogenerierung wird erforscht, wie allein anhand von visuellen Informationen Aufgabenregeln, Schlussfolgerungen und Planungsfähigkeiten erlernt werden können. Der Kernvorteil des Modells liegt in seinem innovativen latenten dynamischen Modell (LDM), das mehrstufige visuelle Veränderungen effizient darstellen kann und so die Lerneffizienz und die Wissensgewinnung deutlich verbessert. VideoWorld zeigt in Aufgaben wie Video-Go und Roboterkontrolle herausragende Leistungen und demonstriert seine starke Generalisierungsfähigkeit und seine Fähigkeit zum Lernen komplexer Aufgaben. Der Forschungsansatz basiert auf der Nachahmung biologischer Organismen, die Wissen durch Sehen und nicht durch Sprache erlernen, und zielt darauf ab, neue Wege für den Wissenserwerb in der künstlichen Intelligenz zu eröffnen.