Transformer 3

EfficientML.ai Lecture 12 - Transformer and LLM (MIT 6.5940, Fall 2024)

1. Transformer basics1) Pre-Transformer* RNNsRNN 계열 모델의 경우 Bi-direction일 경우는 discriminate task로 encoding역할을 하고, Uni-direction일 경우는 generative task로 decoding의 역할을 한다.  token간의 의존성 때문에 병렬처리가 어렵다는 단점이 있었고, input size가 커질수록 정해진 hidden dim에 정보를 compressive하게 저장하는 것이 어려웠다. 또 n번째 state를 알기 위해서는 n-step의 forward process를 거쳐야하므로 parallelism의 한계점이 존재한다. * CNNs CNN의 경우는 한번의 KERNEL 연산에서 인접한 KERNEL SIZE만큼의 to..

EfficientML 2024.10.21

(논문리뷰) A ConvNet for the 2020s [CVPR2022]

https://arxiv.org/abs/2201.03545 A ConvNet for the 2020sThe "Roaring 20s" of visual recognition began with the introduction of Vision Transformers (ViTs), which quickly superseded ConvNets as the state-of-the-art image classification model. A vanilla ViT, on the other hand, faces difficulties when applied to gearxiv.org2011년 입력층과 출력층 사이의 여러 은닉층을 도입한 DNN을 시작으로 2012년 AlexNet 그리고 2015년 ResNet까지 CNN..

ConvolutionNetworks 2024.09.11

(논문 훑어보기) AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE [ICLR2021]

본 논문에서는 CNN기반의 이미지 처리 방식에서 탈피하여 처음부터 Transformer만으로도 좋은 성능을 보일 수 있다는 것을 보여준다.  기존 CNN은 각 layer마다 국소적인 부분의 정보를 추출하여 layer가 쌓이면서 이미지의 coarse한 정보(e,g, edge, texture)등부터 fine한 정보(복잡한 패턴)을 인식할 수 있게 된다.  Vision Transformer는 이미지를 patch 단위로 분할해 이를 Transformer의 입력으로 사용하며, 사전 학습된 대규모 데이터셋(예: ImageNet, CIFAR-100)을 통해 작은 이미지 인식 벤치마크에서도 좋은 성과를 보였다. 특히, ViT는 inductive bias가 적어, 작은 데이터셋에서는 CNN에 비해 성능이 떨어질 수 있지..

ConvolutionNetworks 2024.09.06