Bootstrap3D es un marco para mejorar la creación de contenido 3D que aborda la escasez de activos 3D de alta calidad mediante la generación de datos sintéticos. Utiliza modelos de difusión 2D y de vídeo para generar imágenes multiperspectivas basadas en indicaciones de texto, y un modelo MV-LLaVA con percepción 3D para filtrar datos de alta calidad y reescribir títulos inexactos. El marco ha generado 1 millón de imágenes sintéticas multiperspectivas de alta calidad con títulos descriptivos densos para abordar la escasez de datos 3D de alta calidad. Además, propone una estrategia de reprogramación del paso de tiempo de entrenamiento (TTR) que aprovecha el proceso de eliminación de ruido para aprender la consistencia multiperspectiva mientras se mantiene el conocimiento previo de difusión 2D original.