6월 첫째 주
읽은 논문
Diffusion Models Beat GANs on Image Synthesis https://arxiv.org/abs/2105.05233
Denoising Diffusion Probabilistic Models https://arxiv.org/abs/2006.11239
Improved Denoising Diffusion Probabilistic Models https://arxiv.org/abs/2102.09672
ViT - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021 Oral)
SiT: Self-supervised vIsion Transformer
요녀석 재밌다. 한번에 이런저런거 다해서 SSL을 만들었다.
MoCo v3 : An Empirical Study of Training Self-Supervised Vision Transformers
queue 구조의 dictionary 삭제
SimCLR에서처럼 큰 batch size(default=4096) 사용
기존의 projection head에 더해 prediction head를 추가하여 query encoder를 구성
Query encoder와 달리 key encoder는 prediction head를 넣어주지 않았다.
무엇보다 백본으로 ViT 사용.
읽고 싶은 논문
기존 내용 접기/펼치기 버튼
글을 사진으로
노트 제목 : nlp 함치기 (03.16)
nlp 수업 듣다가 그냥 막 이것저것 합쳐서 그려봄. 구체화해보고 싶다면...
- CLIP: Connecting Text and Images https://arxiv.org/abs/2103.00020 블로그 https://openai.com/blog/clip/
사진 각도를 바꿔보자.
노트 제목 : gan회전(03.05) , 차원을 늘리면?(03.21)
gan 회전은 wgan 읽고 두가지 방식의 거리를 적절히 혼용해볼 생각을 했었음. 구에다가 맵핑 시키면 어떨까 하는 이야기가 나옴.
- Sphere Generative Adversarial Network Based on Geometric Moment Matching
- HoloGAN
차원을 늘리는 생각은 조금 더 구체화 해봐야 하지만 - Nerf, Nerf++. nerf-- 얘네랑 비슷한 개념. -> https://github.com/yj-uh/vi-lab/issues/26#issuecomment-792227996
- [x] https://arxiv.org/abs/2103.07751 이것도 참고하자. Unsupervised Image Transformation Learning via Generative...
Contrastive랑 GAN이랑
- [x] Training GANs with Stronger Augmentations via Contrastive Discriminator (https://arxiv.org/abs/2103.09742)
중요 포인트를 태우자
노트 제목 : 패치 트랜스포머?
Vision Transformer (VIT) 보고 떠올림 이미지 패치로 넣는데 이걸 좀 다른 영역도 같이 넣어주면 좋을텐데... 라는 것임. 구체화된 생각 하나도 없음.
focus 된 convolution 관련 논문으로
- Deformable Convolutional Networks
AE 또는 VAE랑 GAN을 합치면?
노트제목 : 이게뭐람(03.19)
- introvae https://arxiv.org/abs/1807.06358
- adversarial autoencoder https://arxiv.org/abs/1511.05644
- bigan https://arxiv.org/abs/1605.09782
흑인 왜 없음
- Reliable Fidelity and Diversity Metrics for Generative Models
제대로 안읽어봤으니 읽어보자... - Extended Isolation Forest
분류를 이렇게도 할 수 있더라 읽어보자.
K-means 하면서 classification
노트제목 : 크게 분류해보면서 작은걸로
- SWAV
- Towards Open World Object Detection 참고
- Network dissection
- GAN dissection
뫼비우스 띠 브레인스톰
위상수학적으로 뫼비우스의 띠를 정의내릴 수 있고 수학 공식화 시킬 수 있습니다.
뫼비우스의 띠는 기하학적으로 위, 아래가 없고 좌, 우만 존재하는 특징을 지니고 있습니다.
또한 평면임에도 불구하고 3차원에서 관찰하여야만 그 특성을 온전히 알 수 있다는 특징이 있습니다.
어떤 데이터들을 이 뫼비우스의 띠에다가 보내면 어떻게 될지 궁금합니다.
수학적으로 정의가 내려져 있고 뭐 어찌어찌 잘 하면 될 것 같은데 어떤 의미를 지니게 될지 그리고 어떻게 동작하게 될지 궁금하네요.
이상 정말 말 그대로 Brainstorm 이었습니다.
구현한 논문
(code) - 구현 코드 저장 repo
구현중인 코드
- 개인연구
- 기존의 코드에 FID 적용시키기.
(code) - 구현 코드 저장 repo
지난주 계획 체크
- NLP 과제 -> 아직 마감일이 아니어서 미뤘다...ㅎ
- 딥러닝 이론 과제 & 수업 듣기 -> 이거야 해야 하니 했고
- 논문 읽기 (Diffusion, ViT, SiT) -> 다 읽었고
- tf 코드 옮기기 -> 옮겼는데 좀 맘에 안든다.
- 개인연구 교수님과 상의 해보기. -> 오늘 한번 다시 건들일 예정이다.
- 코드 안해놓은거 해두기. -> 뀨...
계획
- 개인연구 코드 하고싶은게 많이 생김.
- LGD tf 코드가 성능이 안오르는 이유를 모르겠다. 확인해보자.
- 논문! 논문을 읽자
- 이젠 정말 마감일이다. NLP과제를 해야한다.
- 코드 안한거 언제 마무리 짓니...
Brainstorm
Transformer 가 CNN 보다 더 좋다는 생각이 많이 든다.
MLP Mixer 이후 비슷한 계열들 논문들을 읽어봐야겠다.