5월 셋째 주
읽은 논문
SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS
수학이 포인트가 되는 논문은 조금 더 시간을 가지고 읽어야 할 듯 함.
읽었고, 다 봤는데, 다 본 뒤에 머릿속에 남는게 별로 없던 논문.
분명 읽은 당일은 좀 기억에 남았는데 몇일 지나니까 거의 사라짐.MLP-Mixer: An all-MLP Architecture for Vision -> 논문투척을 통해 봤습니당
https://arxiv.org/abs/2105.01601?utm_source=aidigest&utm_medium=email&utm_campaign=155
흥미로운 논문. 요즘 트렌드는 MLP인 듯 함.
기존 ViT 구조에서 어텐션 부분을 MLP로 바꿈.
패치를 같은 MLP에 태워서 뽑아낸 애들을 쭉 놓고 트랜스포즈해서 mlp에 태움으로써 포지셔널 인코딩을 안해줘도 되도록 만들고 그 녀석을 다시 트랜스포즈 한 뒤 mlp 태워서 결과를 얻어냄.
읽으면서 : GELU는 뭐지? -> 찾아보자
이것저것 찾아보고 생각을 하다보니 결국 CNN이랑 다를게 없음을 깨달음.
패치를 나눈 부분은 ViT도 그렇지만 그냥 커널사이즈와 stride가 큰 CNN 구조.
마지막 부분은 1x1 conv와 동일.
다른점은 중간 부분인데 이 부분도 depth wise convolution과 비슷...
읽으면서 뭔가 생각이 나서 노트에 적어놨는데 나중에 다듬어 볼 필요성이 있을 듯.Diffusion Models Beat GANs on Image Synthesis
https://arxiv.org/abs/2105.05233
요녀석이 아주 흥미로움. 디노이징을 반복적으로 해서 이미지를 생성하는 개념인데 재밌음.
근데 수학 부분을 건너뛰고 읽음. + 이전 논문을 읽어야 이해 가능하다는 사실을 깨달음.
이전 논문
Denoising Diffusion Probabilistic Models https://arxiv.org/abs/2006.11239
Improved Denoising Diffusion Probabilistic Models https://arxiv.org/abs/2102.09672
이 2개만 읽으면 해당 분야는 끝. 따끈따끈한 듯 함. 읽어볼 예정. 가능하면 발표도 해볼 생각중.
읽고 싶은 논문
기존 내용 접기/펼치기 버튼
글을 사진으로
노트 제목 : nlp 함치기 (03.16)
nlp 수업 듣다가 그냥 막 이것저것 합쳐서 그려봄. 구체화해보고 싶다면...
- CLIP: Connecting Text and Images https://arxiv.org/abs/2103.00020 블로그 https://openai.com/blog/clip/
사진 각도를 바꿔보자.
노트 제목 : gan회전(03.05) , 차원을 늘리면?(03.21)
gan 회전은 wgan 읽고 두가지 방식의 거리를 적절히 혼용해볼 생각을 했었음. 구에다가 맵핑 시키면 어떨까 하는 이야기가 나옴.
- Sphere Generative Adversarial Network Based on Geometric Moment Matching
- HoloGAN
차원을 늘리는 생각은 조금 더 구체화 해봐야 하지만 - Nerf, Nerf++. nerf-- 얘네랑 비슷한 개념. -> https://github.com/yj-uh/vi-lab/issues/26#issuecomment-792227996
- [x] https://arxiv.org/abs/2103.07751 이것도 참고하자. Unsupervised Image Transformation Learning via Generative...
Contrastive랑 GAN이랑
- [x] Training GANs with Stronger Augmentations via Contrastive Discriminator (https://arxiv.org/abs/2103.09742)
중요 포인트를 태우자
노트 제목 : 패치 트랜스포머?
Vision Transformer (VIT) 보고 떠올림 이미지 패치로 넣는데 이걸 좀 다른 영역도 같이 넣어주면 좋을텐데... 라는 것임. 구체화된 생각 하나도 없음.
focus 된 convolution 관련 논문으로
- Deformable Convolutional Networks
AE 또는 VAE랑 GAN을 합치면?
노트제목 : 이게뭐람(03.19)
- introvae https://arxiv.org/abs/1807.06358
- adversarial autoencoder https://arxiv.org/abs/1511.05644
- bigan https://arxiv.org/abs/1605.09782
흑인 왜 없음
- Reliable Fidelity and Diversity Metrics for Generative Models
제대로 안읽어봤으니 읽어보자... - Extended Isolation Forest
분류를 이렇게도 할 수 있더라 읽어보자.
K-means 하면서 classification
노트제목 : 크게 분류해보면서 작은걸로
- SWAV
- Towards Open World Object Detection 참고
- Network dissection
- GAN dissection
뫼비우스 띠 브레인스톰
위상수학적으로 뫼비우스의 띠를 정의내릴 수 있고 수학 공식화 시킬 수 있습니다.
뫼비우스의 띠는 기하학적으로 위, 아래가 없고 좌, 우만 존재하는 특징을 지니고 있습니다.
또한 평면임에도 불구하고 3차원에서 관찰하여야만 그 특성을 온전히 알 수 있다는 특징이 있습니다.
어떤 데이터들을 이 뫼비우스의 띠에다가 보내면 어떻게 될지 궁금합니다.
수학적으로 정의가 내려져 있고 뭐 어찌어찌 잘 하면 될 것 같은데 어떤 의미를 지니게 될지 그리고 어떻게 동작하게 될지 궁금하네요.
이상 정말 말 그대로 Brainstorm 이었습니다.
구현한 논문
(code) - 구현 코드 저장 repo
구현중인 코드
- 기존의 코드에 FID 적용시키기.
- imprinting 관련 아이디어 코드화 시키기
(code) - 구현 코드 저장 repo
지난주 계획 체크
LGD 파생 연구를 한 주동안 붙잡아볼 예정.
- 틈틈히 NLP 과제.
=> NLP과제를 못끝냄... due가 곧이라 내일 할 듯.
계획
- NLP 과제
- 딥러닝 이론 수업 듣기
- LGD 코드
- 논문 읽기 (Diffusion, ViT, SiT)
- 개인연구 다시 하기
- 코드 안해놓은거 해두기.
- VAE 코드 만지는거 완성하기
할일이 많다...
Brainstorm
https://www.youtube.com/watch?v=AmgkSdhK4K8 (뫼비우스 영상 링크)