最新研究显示,卷积神经网络(ConvNets)在大规模数据集上可以与视觉变换器(Vision Transformers)相媲美,挑战了以往的观点。研究团队使用NFNet模型在巨大的JFT-4B数据集上进行训练,发现计算资源和可用数据量是模型性能的主要影响因素。NFNet架构表现出在大规模数据集上具备竞争能力。这项研究为计算机视觉研究提供了新的见解。