Apple hat auf Hugging Face eine Bombe platzen lassen und die Demo seines 4M-Modells aus dem letzten Jahr veröffentlicht, welches in einer Forschungsarbeit vorgestellt wurde. Dieses Modell kann verschiedene Modalitäten verarbeiten und generieren, darunter Text, Bilder und 3D-Szenen. Ein einzelnes Modell kann alle Informationen aus einem Bild extrahieren, einschließlich Tiefenkarten und Skizzen. AIbase hat es mit einem zuvor generierten Bild im chinesischen Stil getestet und war beeindruckt. Nach dem Hochladen des Bildes wurden schnell folgende Informationen extrahiert:

QQ截图20240705100442.jpg

Durch einfaches Hochladen eines Fotos erhält man alle relevanten Informationen, wie die Hauptkonturen, die vorherrschenden Farben und die Bildgröße.

Für Apple ist dies ein mutiger Schritt, der die traditionelle Geheimhaltung in der Forschung aufbricht. Das Unternehmen präsentiert nicht nur seine KI-Stärke auf der Open-Source-KI-Plattform Hugging Face, sondern wirbt auch um Entwickler, um ein Ökosystem rund um 4M aufzubauen. Die multimodale Architektur von 4M deutet auf zukünftige, kohärente und multifunktionale KI-Anwendungen im Apple-Ökosystem hin, z. B. eine intelligentere Siri für komplexe Suchanfragen oder ein Final Cut Pro, das Videos nach Sprachbefehlen automatisch bearbeitet.

Die Einführung von 4M bringt jedoch auch Herausforderungen in Bezug auf Datenpraktiken und KI-Ethik mit sich. Apple betont stets den Schutz der Nutzerdaten, doch wie wird sich die Position des Unternehmens angesichts eines so datenintensiven KI-Modells bewähren? Apple muss sorgfältig abwägen, um den technischen Fortschritt voranzutreiben und gleichzeitig das Vertrauen der Nutzer zu wahren.

Schauen wir uns die technischen Grundlagen von 4M kurz an. Das größte Highlight von 4M ist seine Trainingsmethode des "groß angelegten multi-modalen Maskierungsmodells". Diese Methode ermöglicht die gleichzeitige Verarbeitung verschiedener visueller Modalitäten. Bilder, semantische und geometrische Informationen werden in einheitliche Tokens umgewandelt, um einen nahtlosen Übergang zwischen den Modalitäten zu ermöglichen.

Während des Trainings verwendet 4M eine clevere Methode: Ein Teil der Markierungen wird zufällig als Eingabe, der andere Teil als Ziel ausgewählt. Dies ermöglicht eine skalierbare Definition des Trainingsziels. Ob Bild oder Text – für 4M ist alles nur eine Folge von numerischen Markierungen. Dieses Design erhöht die Allgemeingültigkeit des Modells erheblich.

Auch die Trainingsdaten und -methoden von 4M sind erwähnenswert. Es wurde der CC12M-Datensatz verwendet, einer der größten Open-Source-Datensätze weltweit. Obwohl dieser Datensatz reichhaltig ist, sind die Annotationen nicht vollständig. Um dieses Problem zu lösen, verwendeten die Forscher eine Methode mit schwach überwachten Pseudo-Labels. Mit Technologien wie CLIP und MaskRCNN wurden umfassende Vorhersagen für den Datensatz getroffen und die Ergebnisse in Tokens umgewandelt, was die multimodale Kompatibilität von 4M ermöglichte.

Ausgedehnte Experimente und Tests haben gezeigt, dass 4M direkt multimodale Aufgaben ausführen kann, ohne umfangreiche, aufgabenspezifische Vor- oder Feintrainings zu benötigen. Es ist, als hätte die KI ein multimodales Schweizer Taschenmesser erhalten, mit dem sie flexibel auf verschiedene Herausforderungen reagieren kann.

Demo-Adresse: https://huggingface.co/spaces/EPFL-VILAB/4M