1. Transformer basics1) Pre-Transformer* RNNsRNN 계열 모델의 경우 Bi-direction일 경우는 discriminate task로 encoding역할을 하고, Uni-direction일 경우는 generative task로 decoding의 역할을 한다. token간의 의존성 때문에 병렬처리가 어렵다는 단점이 있었고, input size가 커질수록 정해진 hidden dim에 정보를 compressive하게 저장하는 것이 어려웠다. 또 n번째 state를 알기 위해서는 n-step의 forward process를 거쳐야하므로 parallelism의 한계점이 존재한다. * CNNs CNN의 경우는 한번의 KERNEL 연산에서 인접한 KERNEL SIZE만큼의 to..