Das Tencent AI Lab und ein Team der Chinesischen Universität Hongkong haben gemeinsam UniRepLKNet vorgestellt, eine neue Architektur, die die Vorherrschaft von Transformer-Modellen im multimodalen Bereich in Frage stellt. Diese auf großen Faltungskernen (CNN) basierende Architektur zeigt beeindruckende Ergebnisse bei Aufgaben mit Punktwolken, Audio- und Videodaten – und das ohne Anpassung der Modellstruktur.
UniRepLKNet übertrifft Transformer-Modelle bei Benchmarks wie ImageNet, COCO und ADE20K und demonstriert damit das Potenzial großer Faltungskern-CNNs für multimodale Anwendungen.