Forscher der Eidgenössischen Technischen Hochschule Zürich (ETH Zürich) haben durch Modifikation des Open-Source Stable Diffusion Modells Marigold eine innovative Einzelbild-Tiefenschätzung realisiert. Das Modell erzielt hervorragende Ergebnisse, ohne dass dafür tatsächliche Tiefenbild-Trainingsdaten benötigt werden. Durch Feinabstimmung des Rauschentfernungs-U-Net-Moduls konnte eine bemerkenswerte Leistung erreicht werden.
Durch Training mit synthetischen Daten lernt Marigold eine Vielzahl von Szenarien und verbessert so seine Generalisierungsfähigkeit auf unbekannten Datensätzen. Die Kernidee besteht in der Nutzung des Vorwissens von Stable Diffusion und der Anwendung einer affininvarianten Tiefensschätzungsmethode, um Fehler in der Tiefenschätzung zu reduzieren, die durch Unsicherheiten der inneren Kameraparameter entstehen.