Im Bereich der Videoverarbeitung stellt die effiziente Verfolgung dreidimensionaler Bewegungen aus Einzelkamera-Videos eine anhaltende Herausforderung dar, insbesondere bei der pixelgenauen Verfolgung langer Sequenzen. Traditionelle Methoden stehen vor mehreren Herausforderungen und können oft nur eine geringe Anzahl von Schlüsselpunkten verfolgen, was ein umfassendes Verständnis der Szene verhindert.
Darüber hinaus haben bestehende Technologien einen hohen Rechenaufwand, der die Effizienz bei der Verarbeitung langer Videos beeinträchtigt. Langzeitverfolgungen sind zudem anfällig für Kamerabewegungen und Objektokklusionen, was zu Verfolgungsfehlern führen kann.
Derzeitige Methoden zur Bewegungsschätzung in Videoserien haben jeweils Vor- und Nachteile. Optischer Fluss liefert eine dichte Pixelverfolgung, zeigt aber in komplexen Szenen, insbesondere bei langen Sequenzen, Schwächen.
Scene Flow erweitert den optischen Fluss durch die Verwendung von RGB-D-Daten oder Punktwolken zur Schätzung dichter dreidimensionaler Bewegungen, ist aber in langen Sequenzen immer noch schwer effizient anzuwenden. Punktverfolgungsmethoden können zwar Bewegungstrajektorien erfassen und kombinieren räumliche und zeitliche Aufmerksamkeit für eine glattere Verfolgung, sind aber aufgrund der hohen Rechenkosten für eine dichte Überwachung ungeeignet. Wiederaufbau-basierte Verfolgungsmethoden nutzen Verformungsfelder zur Bewegungsschätzung, sind aber in Echtzeitanwendungen wenig praktikabel.
Ein Forschungsteam der University of Massachusetts Amherst, des MIT-IBM Watson AI Lab und von Snap Inc. hat kürzlich DELTA (Dense Efficient Long-range 3D Tracking for Any video) vorgestellt, eine Methode, die speziell für die effiziente Verfolgung jedes Pixels im dreidimensionalen Raum entwickelt wurde. DELTA beginnt mit einer Verfolgung niedriger Auflösung, verwendet einen räumlich-zeitlichen Aufmerksamkeitsmechanismus und wendet einen aufmerksamkeitsbasierten Upsampler an, um eine hohe Genauigkeit in hoher Auflösung zu erreichen. Zu den wichtigsten Innovationen gehören ein Upsampler für scharfe Bewegungsränder, eine effiziente räumliche Aufmerksamkeitsarchitektur und eine logarithmische Tiefenrepräsentation zur Verbesserung der Verfolgungsleistung.
DELTA erzielte auf den Datensätzen CVO und Kubric3D Spitzenergebnisse und verbesserte Kennzahlen wie den durchschnittlichen Jaccard-Index (AJ) und die durchschnittliche dreidimensionale Positionsdifferenz (APD3D) um über 10 %. Auch bei den 3D-Punktverfolgungs-Benchmarks TAP-Vid3D und LSFOdyssey zeigte es sich hervorragend. Im Gegensatz zu bestehenden Methoden ermöglicht DELTA eine dichte 3D-Verfolgung im großen Maßstab und ist über 8-mal schneller als bisherige Methoden, bei gleichzeitig branchenführender Genauigkeit.
Experimente zeigen, dass DELTA bei 3D-Verfolgungsaufgaben sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit bestehende Methoden übertrifft. DELTA wurde auf dem Kubric-Datensatz mit über 5600 Videos trainiert; seine Verlustfunktion kombiniert 2D-Koordinaten-, Tiefen- und Sichtbarkeitsverluste.
In Benchmarks erzielte DELTA die höchsten Punktzahlen bei der Langstrecken-2D-Verfolgung und der dichten 3D-Verfolgung in CVO bzw. Kubric3D und war dabei deutlich schneller als andere Methoden. Die Designentscheidungen von DELTA, wie die logarithmische Tiefenrepräsentation, die räumliche Aufmerksamkeit und der aufmerksamkeitsbasierte Upsampler, verbessern die Genauigkeit und Effizienz in verschiedenen Verfolgungsszenarien deutlich.
DELTA ist eine effiziente Methode zur Verfolgung jedes Pixels in Videobildern und erreicht sowohl bei dichter 2D- als auch 3D-Verfolgung eine hohe Genauigkeit bei gleichzeitig kürzeren Laufzeiten. Die Methode kann bei lang anhaltenden Oklusionen Herausforderungen haben; die beste Leistung zeigt sie bei kurzen Videos mit nicht mehr als einigen hundert Bildern. Die Genauigkeit der 3D-Verfolgung von DELTA hängt von der Genauigkeit und zeitlichen Stabilität der verwendeten monokularen Tiefenabschätzung ab. Es wird erwartet, dass Fortschritte in der monokularen Tiefenabschätzung die Leistung dieser Methode weiter verbessern werden.
Projektseite: https://snap-research.github.io/DELTA/
Highlights:
🌟 DELTA ist eine neuartige Methode, die speziell für die effiziente Verfolgung jedes Pixels in Einzelkamera-Videos entwickelt wurde.
⚡ DELTA erzielt auf den Datensätzen CVO und Kubric3D führende Ergebnisse und ist 8-mal schneller als herkömmliche Methoden.
🔍 Die Methode kann bei lang anhaltenden Oklusionen Herausforderungen haben, zeigt aber bei kurzen Videos hervorragende Ergebnisse.