Long-LRMは、一連の入力画像から大規模シーンを再構築するための3Dガウス再構築モデルです。このモデルは、960x540ピクセルの解像度を持つ32枚のソース画像を1.3秒で処理し、単一のA100 80G GPU上で動作します。最新のMamba2モジュールと従来のTransformerモジュールを組み合わせ、効率的なトークンマージとガウシアン刈り込みの手順により、品質を維持しながら効率性を向上させています。従来のフィードフォワードモデルと比較して、Long-LRMはシーンの一部ではなく、一度にシーン全体を再構築できます。DL3DV-140やTanks and Templesなどの大規模シーンデータセットでは、Long-LRMの性能は最適化ベースの方法と匹敵し、同時に効率性は2桁向上しています。