ConvolutionNetworks 5

(논문리뷰) ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [CVPR 2023]

https://arxiv.org/abs/2301.00808 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDriven by improved architectures and better representation learning frameworks, the field of visual recognition has enjoyed rapid modernization and performance boost in the early 2020s. For example, modern ConvNets, represented by ConvNeXt, have demonstratarxiv.org최근에는 Transformer 계열이 CV로의 확장 ..

ConvolutionNetworks 2024.09.11

(논문리뷰) A ConvNet for the 2020s [CVPR2022]

https://arxiv.org/abs/2201.03545 A ConvNet for the 2020sThe "Roaring 20s" of visual recognition began with the introduction of Vision Transformers (ViTs), which quickly superseded ConvNets as the state-of-the-art image classification model. A vanilla ViT, on the other hand, faces difficulties when applied to gearxiv.org2011년 입력층과 출력층 사이의 여러 은닉층을 도입한 DNN을 시작으로 2012년 AlexNet 그리고 2015년 ResNet까지 CNN..

ConvolutionNetworks 2024.09.11

(논문 리뷰)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [ICCV 2021]

https://github.com/microsoft/Swin-Transformer GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer uThis is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows". - microsoft/Swin-Transformergithub.comhttps://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision T..

ConvolutionNetworks 2024.09.07

(논문 훑어보기) AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE [ICLR2021]

본 논문에서는 CNN기반의 이미지 처리 방식에서 탈피하여 처음부터 Transformer만으로도 좋은 성능을 보일 수 있다는 것을 보여준다.  기존 CNN은 각 layer마다 국소적인 부분의 정보를 추출하여 layer가 쌓이면서 이미지의 coarse한 정보(e,g, edge, texture)등부터 fine한 정보(복잡한 패턴)을 인식할 수 있게 된다.  Vision Transformer는 이미지를 patch 단위로 분할해 이를 Transformer의 입력으로 사용하며, 사전 학습된 대규모 데이터셋(예: ImageNet, CIFAR-100)을 통해 작은 이미지 인식 벤치마크에서도 좋은 성과를 보였다. 특히, ViT는 inductive bias가 적어, 작은 데이터셋에서는 CNN에 비해 성능이 떨어질 수 있지..

ConvolutionNetworks 2024.09.06

(논문리뷰) Masked Autoencoders Are Scalable Vision Learners[CVPR2022]

https://arxiv.org/abs/2111.06377 Masked Autoencoders Are Scalable Vision LearnersThis paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, wearxiv.org ConvNeXt v2 논문을 읽기까지 긴 여정을 시작하려고 한다. (마지막 CV 팔로업 ViT..

ConvolutionNetworks 2024.09.06