DocLayout-YOLO ist ein Deep-Learning-Modell zur Dokumentlayoutanalyse. Es verbessert die Genauigkeit und Geschwindigkeit der Dokumentlayoutanalyse durch diverse synthetische Daten und eine global bis lokal adaptive Wahrnehmung. Das Modell generiert mithilfe des Mesh-candidate BestFit-Algorithmus einen umfangreichen und diversen Datensatz (DocSynth-300K), der die Feinabstimmung verschiedener Dokumenttypen deutlich verbessert. Darüber hinaus wird ein global bis lokal steuerbares Empfangsfeldbmodul eingeführt, um die mehrskaligen Variationen von Dokumentelementen besser zu handhaben. DocLayout-YOLO zeigt hervorragende Ergebnisse auf verschiedenen Downstream-Datensätzen verschiedener Dokumenttypen und bietet sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit erhebliche Vorteile.