Im Zeitalter des rasanten Fortschritts in der künstlichen Intelligenz verändert ein multimodales großes Sprachmodell namens ORYX unser Verständnis der Fähigkeit von KI, die visuelle Welt zu verstehen. Dieses von Forschern der Tsinghua-Universität, Tencent und der Nanyang Technological University gemeinsam entwickelte KI-System kann als der „Transformer“ im Bereich der Bildverarbeitung bezeichnet werden.
ORYX, die Abkürzung für Oryx Multi-Modal Large Language Models, ist ein KI-Modell, das speziell für die Verarbeitung von Bildern, Videos und dem räumlich-zeitlichen Verständnis von 3D-Szenen entwickelt wurde. Sein Hauptvorteil liegt in der Fähigkeit, visuelle Inhalte nicht nur zu verstehen, sondern auch Zusammenhänge und die dahinterliegenden Geschichten zu erkennen – ganz ähnlich wie Menschen.
Ein herausragendes Merkmal dieses KI-Systems ist seine Fähigkeit, visuelle Eingaben mit beliebiger Auflösung zu verarbeiten. Ob unscharfe alte Fotos oder hochauflösende Videos – ORYX meistert alles mit Leichtigkeit. Dies ist seinem vortrainierten Modell OryxViT zu verdanken, das Bilder unterschiedlicher Auflösung in ein für die KI verständliches einheitliches Format umwandelt.
Noch erstaunlicher ist die dynamische Komprimierungsfähigkeit von ORYX. Bei langen Videoeingaben kann es Informationen intelligent komprimieren, wobei wichtige Inhalte erhalten bleiben, ohne dass es zu Verlusten kommt. Das ist vergleichbar mit der Zusammenfassung eines dicken Buches auf eine informative Notizkarte: Die Kerninformationen bleiben erhalten, die Verarbeitungsgeschwindigkeit wird deutlich erhöht.
ORYX arbeitet hauptsächlich mit zwei Kernkomponenten: dem visuellen Encoder OryxViT und dem dynamischen Komprimierungsmodul. Ersterer verarbeitet die vielfältigen visuellen Eingaben, letzterer sorgt für eine effiziente Verarbeitung großer Datenmengen wie langer Videos.
In der Praxis zeigt ORYX ein erstaunliches Potenzial. Es kann nicht nur Videoinhalte wie Objekte, Handlungsabläufe und Aktionen tiefgehend verstehen, sondern auch die Position und die Beziehungen von Objekten im 3D-Raum präzise erfassen. Dieses umfassende visuelle Verständnis eröffnet ungeahnte Möglichkeiten für zukünftige Mensch-Computer-Interaktionen, intelligente Überwachung, autonomes Fahren und mehr.
Es ist erwähnenswert, dass ORYX in mehreren visuellen Sprach-Benchmark-Tests hervorragend abgeschnitten hat, insbesondere im Bereich des räumlichen und zeitlichen Verständnisses von Bild-, Video- und mehransichtigen 3D-Daten, wo es eine führende Position einnimmt.
Die Innovation von ORYX liegt nicht nur in seiner leistungsstarken Verarbeitungsfähigkeit, sondern auch in der Eröffnung neuer Paradigmen für das visuelle Verständnis durch KI. Es kann visuelle Eingaben in nativer Auflösung verarbeiten und gleichzeitig lange Videos durch dynamische Komprimierung effizient bearbeiten. Diese Flexibilität und Effizienz sind für andere KI-Modelle schwer zu erreichen.
Mit dem fortschreitenden technologischen Fortschritt wird ORYX voraussichtlich eine immer wichtigere Rolle im zukünftigen KI-Bereich spielen. Es wird Maschinen nicht nur helfen, unsere visuelle Welt besser zu verstehen, sondern möglicherweise auch neue Ansätze für die Simulation menschlicher kognitiver Prozesse liefern.
Paper-Adresse: https://arxiv.org/pdf/2409.12961