https://arxiv.org/abs/2201.03545 A ConvNet for the 2020sThe "Roaring 20s" of visual recognition began with the introduction of Vision Transformers (ViTs), which quickly superseded ConvNets as the state-of-the-art image classification model. A vanilla ViT, on the other hand, faces difficulties when applied to gearxiv.org2011년 입력층과 출력층 사이의 여러 은닉층을 도입한 DNN을 시작으로 2012년 AlexNet 그리고 2015년 ResNet까지 CNN..