Forscher von Apple und der Eidgenössischen Technischen Hochschule Lausanne (EPFL) haben gemeinsam ein einziges Modell für beliebige zu beliebige Modalitäten entwickelt, das auf Dutzenden von hochdiversen Modalitäten trainiert werden kann und ein gemeinsames Training auf einem umfangreichen multimodalen Datensatz und Textkorpus ermöglicht. Das Modell, genannt 4M-21, wurde in 21 verschiedenen Modalitäten trainiert und bewältigt mindestens dreimal so viele Aufgaben wie bestehende Modelle, ohne dabei an Leistung einzubüßen.

image.png

Die Studie verwendete das 4M-Pretraining-Schema. Durch die Vergrößerung des Modells und des Datensatzes, die Erhöhung der Anzahl und Arten der beteiligten Modalitäten und das gemeinsame Training auf mehreren Datensätzen konnte die Leistung und Anpassungsfähigkeit des Modells verbessert werden. Die Forscher verwendeten verschiedene Tokenisierungsmethoden, um Modalitäten mit unterschiedlichen Merkmalen zu diskretisieren, wie z. B. globale Bild-Einbettungen, Körperhaltungen und semantische Instanzen. Bei der Architekturwahl wurde eine Transformer-basierte 4M-Encoder-Decoder-Architektur verwendet, und zusätzliche Modalitäts-Einbettungen wurden hinzugefügt, um neue Modalitäten zu berücksichtigen.

image.png

Das Modell kann nicht nur eine Reihe gängiger visueller Aufgaben direkt ausführen, wie z. B. DIODE-Oberflächennormalen- und Tiefenabschätzung, COCO-semantische und Instanzsegmentierung, 3DPW-3D-Körperhaltungsschätzung usw., sondern auch beliebige trainierte Modalitäten generieren, verschiedene Methoden zur Durchführung von feinkörnigen und multimodalen Generierungen unterstützen und RGB-Bilder oder andere Modalitäten mithilfe anderer Modalitäten als Abfrage abrufen. Darüber hinaus führten die Forscher multimodale Transfer-Experimente auf NYUv2, Hypersim-Semantischer Segmentierung und ARKitScenes durch.

Wichtige Merkmale:

Beliebige zu beliebige Modalitäten: Erweiterung von 7 auf 21 verschiedene Modalitäten im Vergleich zum bisherigen besten Modell für beliebige zu beliebige Modalitäten, wodurch crossmodales Retrieval, kontrollierte Generierung und leistungsstarke Out-of-the-box-Performance ermöglicht werden.

Vielfältige Unterstützung: Hinzufügen von Unterstützung für mehr strukturierte Daten, wie z. B. Körperhaltungen, SAM-Instanzen, Metadaten usw.

Tokenisierung: Untersuchung der diskreten Tokenisierung verschiedener Modalitäten mithilfe modalitätsspezifischer Methoden, z. B. globale Bild-Einbettungen, Körperhaltungen und semantische Instanzen.

Skalierung: Erweiterung der Modellgröße auf 3 Milliarden Parameter und des Datensatzes auf 0,5 Milliarden Samples.

Gemeinsames Training: Simultane Schulung auf visuellen und sprachlichen Daten.

Highlights:

- Forscher von Apple und der EPFL haben ein einziges Modell für beliebige zu beliebige Modalitäten entwickelt, das in 21 verschiedenen Modalitäten trainiert werden kann.

- Das Modell kann eine Reihe gängiger visueller Aufgaben direkt ausführen, beliebige trainierte Modalitäten generieren und verschiedene Methoden zur Durchführung von feinkörnigen und multimodalen Generierungen unterstützen.

- Die Forscher führten multimodale Transfer-Experimente auf NYUv2, Hypersim-Semantischer Segmentierung und ARKitScenes durch.