1월 마지막 주
읽은 논문
YOLACT: Real-time Instance Segmentation
세미나에서 발표함.
관련 논문으로 R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN을 읽음.
(세미나 발표 자료 링크 : https://github.com/yj-uh/vi-lab/issues/9)
실시간 instance segmentation을 위해 backbone으로 ResNet을 사용한 뒤 이를 FPN(Feature Pyramid Network)를 통해 5개의 feature map을 생성한다. 그 중에서 가장 깊은 feature map인 P3를 이용하여 공간적, 의미적으로 분할된 prototype mask를 k개 만든다. 이와 동시에 병렬적으로 5개의 feature map 모두를 사용하여 mask coefficients를 구한 뒤 이를 이용하여 각각의 instance segmentation을 구한다. 이 때 subtract연산을 이용하여 분리하는 것이 인상적이였다.
Faster NMS 또한 소개되어있다. (행렬연산으로 더 빠른 계산속도)VGAN, TGAN, MoCoGAN, TGANv2, DVD-GAN
세미나 발표 논문. - 신민정
(세미나 발표 자료 링크 : https://github.com/yj-uh/vi-lab/issues/11)
깊게 읽지는 못하였지만 대략적인 내용은 파악할 정도로 읽음.
VGAN : background, foreground를 나누어 생성. 이 때 background는 고정되어 있다는 가정을 하였다.
TGAN : temporal 과 spatial로 비디오를 나누어 생성.
MoCoGAN : video = content + motion 라 생각하여 모델링 & 한 프레임만 보는 Discriminator + 전체 프레임을 보는 Discriminator 사용
TGANv2 : latent vector를 사용하여 프레임 생성 시 이전 프레임을 그대로 사용하지 않고 이전 프레임 생성 시 사용한 백터를 사용. & Discriminator에 subsampling layer 를 사이사이에 끼워넣어 계산량을 줄임.
DVD-GAN : MoCoGAN처럼 프레임만 보는 Ds & 전체를 보는 Dt 사용. 다른점은 Dt에서의 2x2 average pooling. GRU로 프레임의 abstract representation를 autoregressive 하게 생성, 랜더링은 Separable Self-Attention 으로 parallel 모델링.Deep Residual Learning for Image Recognition
ResNet 논문.
깊은 네트워크를 사용하기 위해 residual learning 제안.
H(x)를 바로 학습하는 대신 F(x) = H(x)-x를 학습.
레이어가 깊어질수록 성능이 향상.
읽는 중인 논문
- Batch normalization: Accelerating deep network training by reducing internal covariate shift (PMLR 2015)
기본인데 제대로 읽은 적이 없어 읽는 중.
구현해볼 예정. - GAN, DCGAN, WGAN, CGAN - 논문을 읽은적이 없어 읽어보려함.
구현한 논문
- DCGAN
코드는 작성하였으나 조금 더 해봐야 함. 추후 업데이트 예정
구현할 논문
- Batch normalization
01.29~01.31 까지
- DCGAN
02.01~02.02
- WGAN
02.03 ~