Bootstrap3Dは、合成データ生成技術を用いて高品質な3Dアセット不足の問題を解決する、3Dコンテンツ作成を改善するためのフレームワークです。2Dおよびビデオ拡散モデルを利用してテキストプロンプトに基づいて多視点画像を生成し、3D認識MV-LLaVAモデルを用いて高品質なデータをスクリーニングし、不正確なタイトルを書き換えます。このフレームワークは、高品質な合成多視点画像100万枚を生成し、それらには詳細な説明的なタイトルが付けられています。これにより、高品質な3Dデータの不足問題を解決します。さらに、ノイズ除去プロセスで多視点の一貫性を学習しながら、元の2D拡散事前知識を維持する、Training Timestep Reschedule (TTR)戦略を提案しています。