Forscher von Apple und der Eidgenössischen Technischen Hochschule Lausanne (EPFL) haben gemeinsam ein großes, multimodales Computer-Sehmodell namens 4M-21 als Open Source veröffentlicht. Im Gegensatz zu anderen Modellen, die auf bestimmte Aufgaben oder Datentypen optimiert sind, zeichnet sich 4M-21 durch seine breite Anwendbarkeit und Flexibilität aus. Trotz seiner lediglich 3 Milliarden Parameter bietet es Dutzende Funktionen, darunter Bildklassifizierung, Objekterkennung, semantische Segmentierung, Instanzsegmentierung, Tiefenabschätzung und Oberflächennormalen-Schätzung.

Der Kern des Modells ist die Technologie der „diskreten Tokens“-Konvertierung. Sie ermöglicht die Umwandlung verschiedener Modalitäten von Daten in eine einheitliche Sequenz von Tokens. Egal ob Bilddaten, Feature-Maps neuronaler Netze, Vektoren, strukturierte Daten oder textuell dargestellte Daten – alles wird in dasselbe, vom Modell verarbeitbare Format umgewandelt. Diese Konvertierung vereinfacht nicht nur das Training des Modells, sondern legt auch den Grundstein für multimodales Lernen und die Verarbeitung.

image.png

Produkt-Link: https://github.com/apple/ml-4m/

Während des Trainings nutzt 4M-21 Maskiertes Modellieren für multimodales Lernen. Dabei werden zufällig Teile der Eingabe-Token-Sequenz ausgeblendet, und das Modell muss die ausgeblendeten Teile basierend auf den verbleibenden, sichtbaren Tokens vorhersagen. Diese Methode zwingt das Modell, die statistische Struktur und die latenten Beziehungen der Eingabedaten zu lernen und so die Gemeinsamkeiten und Interaktionen zwischen verschiedenen Modalitäten zu erfassen. Maskiertes Modellieren verbessert sowohl die Generalisierungsfähigkeit des Modells als auch die Genauigkeit bei Generierungsaufgaben.

Die Forscher haben 4M-21 umfassend in Bezug auf Bildklassifizierung, Objekterkennung, semantische Segmentierung, Instanzsegmentierung, Tiefenabschätzung, Oberflächennormalen-Schätzung und 3D-Körperstellungsabschätzung getestet. Die Ergebnisse zeigen, dass die multimodale Verarbeitungsfähigkeit von 4M-21 mit den modernsten Modellen vergleichbar ist und in allen Aufgaben hervorragende Leistungen erbringt.

Wichtigste Punkte:

- Apple und die EPFL haben gemeinsam ein großes, multimodales Computer-Sehmodell namens 4M-21 als Open Source veröffentlicht, das sich durch breite Anwendbarkeit und Flexibilität auszeichnet.

- 4M-21 bietet Dutzende Funktionen, darunter Bildklassifizierung, Objekterkennung, semantische Segmentierung, Instanzsegmentierung, Tiefenabschätzung und Oberflächennormalen-Schätzung.

- Die Schlüsseltechnologie von 4M-21 ist die „diskreten Tokens“-Konvertierung, die die Umwandlung verschiedener Modalitäten von Daten in eine einheitliche Sequenz von Tokens ermöglicht.