ChinaZ.com (站长之家) meldete am 17. Juni: Ein Forschungsteam der Chinesischen Universität Hongkong und der Chinesischen Akademie der Wissenschaften stellte MiCo (Multimodal Context) vor, ein umfassendes prätrainiertes multimodalen Paradigma. Diese Methode erzielte bemerkenswerte Ergebnisse im Bereich des multi-modalen Lernens und brach 37 bestehende Bestmarken (SOTA).

1.jpg

Kernmerkmale:

  • Umfassendes Modalverständnis: MiCo zielt darauf ab, eine multimodale Intelligenz zu schaffen, die jede Modalität versteht und allgemeine Repräsentationen lernt.

  • Groß angelegtes Pretraining: Durch die Einbeziehung weiterer Modalitäten, größerer Datenmengen und mehr Modellparametern simuliert MiCo während des Pretrainings den multi-modalen kognitiven Prozess des menschlichen Gehirns.

  • Design der neuronalen Netzwerkstruktur: MiCo unterteilt verschiedene Modalitäten in „Wissensmodalitäten“ und „Schnittstellenmodalitäten“ und entwirft eine entsprechende Architektur für multi-modales Lernen, wobei die Ausrichtung durch eine generative Inferenzmethode erfolgt.

  • Multimodaler Kontext und Skalengesetz: MiCo nutzt multi-modalen Kontext, um die gegenseitige Verstärkung zwischen Modalitäten zu verstärken und kontextuelle Beziehungen zwischen Modalitäten aufzubauen.

Testergebnisse zeigen:

  • Bei 10 verschiedenen unimodalen Wahrnehmungstests erreichte MiCo 7 SOTA-Ergebnisse.

  • Bei 25 Aufgaben zum Verständnis über Modalitäten hinweg, darunter Retrieval, Frage-Antwort-Systeme und Beschreibungen, erzielte MiCo 20 SOTA-Ergebnisse.

  • Bei 18 Benchmarks für große multi-modale Sprachmodelle erzielte MiCo 10 SOTA-Ergebnisse.

MiCos Pretraining-Methode:

Das Team verwendete ein gemeinsames Pretraining von Videos mit passenden Audiodaten, Textbeschreibungen, Tiefen- und Normaleninformationen, um die visuelle, auditive und räumlich-zeitliche Wahrnehmung des menschlichen Gehirns zu simulieren.

Durch einen multi-modalen Encoder (z. B. ViT) werden multi-modale Merkmale extrahiert, und durch einen Text-Encoder werden Textmerkmale extrahiert, um multi-modale Kontextbeziehungen aufzubauen.

Schlussfolgerung und zukünftige Arbeit:

Das MiCo-Projekt ist ein wichtiger Versuch, die multi-modale Kognition des menschlichen Gehirns durch künstliche Intelligenz zu simulieren. Das Team hofft, dass es zukünftige Forschung inspiriert und die Entwicklung leistungsfähigerer multi-modaler Basismodelle ermöglicht.

Zukünftige Arbeitspläne umfassen die Einbeziehung weiterer Modalitäten wie optischer Fluss, IMU-Daten und Ereignisdateien, um das gemeinsame multi-modale Pretraining weiter zu verbessern.