이제 드디어 정말 드디어 Transformer에 다가갈 수준이 되었다. 때는 2017년 아주 제목 어그로를 기똥차게 끈 논문이 하나 등장한다. 바로 이쪽 계열 사람들이라면 안들어본 사람이 없다는 'Attention is all you need'이다. 자 본격적으로 시작하기 전에 이 논문 이전에 해왔던 것들을 다시 정리해보자. RNN을 사용했고, LSTM을 사용했다. 그리고 그걸 조금씩 발전시켰고, 다양한 데이터셋들이 등장하고, Task들이 정립되어가고 있었다. Attentive니 뭐니 이야기 했지만 결과적으로는 LSTM의 연장선이었고 성능이 좋았으나 문제점이 있었다. RNN과 LSTM 모두의 문제점은 바로 '느리다'는 것이다. 사실 느린것을 제외하더라도 vanishing or exploding gradi..