반응형
3월 둘째 주
읽은 논문
딥러닝기반 컴퓨터비전특록 (김선주교수님)
- BAM : 읽은 정도 (중하)
pooling 하기 전에 BAM을 추가해서 attention을 가지고 어디가 더 중요한지 알아냄. 중요한 부분 값을 크게 만들고 덜 중요한 곳은 작게 만드는 것.
채널과 spatial의 어텐션을 나눠서 계산함. 더해서 시그모이드. 소프트맥스 안쓴건 뭐가 제일 큰지 알아내려는게 아니기 떄문. - CBAM : 읽은 정도 (중하)
BAM은 채널과 스파셜을 하나로 더했는데 CBAM은 그걸 채널 먼저 시작해서 순차적으로 바꿈.
- Squeeze and Excitation Network : 읽은 정도 (하) - Abstract와 result만 훑어봄
- Attention Is All You Need : 읽은 정도 (중중)
사전지식이 부족함을 느낌. transformer 계열의 이해가 딸림.
인코더가 한번 representation을 뽑아주고 디코더가 그걸 받아서 아웃풋 시퀀스를 만듬. 이 때 각각 이전에 만들어진 아웃풋을 이용함. 이걸 auto regressive라고 한다고 함. - End-to-End Object Detection with Transformers (하)
- Visual Transformers: Token-based Image Representation and Processing for Computer Vision (하)
- MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers (하)
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (중하)
- Big Bird: Transformers for Longer Sequences (하상)
- Informer: Transformer Likes Informed Attention (==RealFormer) (하)
Color Constancy
- A Multi-Hypothesis Approach to Color Constancy
여러 다른 카메라 센서로 찍은 사진들에 대해서도 Color Constancy를 해결 할 수 있는 방안을 제시함. 식 자체는 엄청 수학적으로 깔끔하게 제시되었고 그걸 로스로 잘 만들어서 돌림. 성능은 그렇게 좋지는 않지만 광범위하게 적용가능함. K-mean을 써가지고 빛의 정도라고 해야하나 illuminants l(스몰L)을 몇 개 뽑아냄. 뽑아낸걸 네트워크에 태워서 그거 다 곱하고 더해서 소프트맥스 해가지고 최종 l을 구하는 뭐 그런건데... 기본적으로 베이지안 프레임워크를 따름. 코드를 까봐야 하는데 아직 안까봄. - 몇 개 더 읽는 중
회전 쪽
- Nerf (중하)
핵심 내용이 머릿속에 들어간 듯 한데 또 설명하라 그러면 잘 못하겠고 찾아봐서 나오는 자료 보는 순간 이해되는 수준으로 읽음. 자세한 자료는 예전에 교수님이 하신 세미나 참고.
self supervised
- Simsiam (상)
어차피 발표할거니 설명 생략 - Understanding self-supervised Learning Dynamics without Contrastive Pairs
이해가 안됨.. 다시 천천히 읽어볼 예정
읽는 중인 논문
- Understanding self-supervised Learning Dynamics without Contrastive Pairs
- Unsupervised Learning for Color Constancy
- Attention-based Convolutional Neural Network for Computer Vision Color Constancy
추가적으로 여러 수업들에서 나오는 논문들 대충이라도 읽어보기
구현중인 논문
없음.
(code) - 구현 코드 저장 repo
지난주 계획 체크
- 03.06~03.07 Understanding self-supervised Learning Dynamics without Contrastive Pairs 읽어보기. + 개인일정
이 논문은 그냥... 어려움. 발표에 적합하지도 않은 것 같기도 함. 전체적으로 다 수학임. - 03.08~03.09 딥러닝기반컴퓨터비전특론 논문 읽어야 하는 것 읽기. + 화요일날 시간이 좀 있으니 WGAN을 간단하게 구현해보자.
논문이 너무 많아서 다 읽는건 무리일듯 몇 개만 골라서 보고 나머지는 abstract와 result 및 그림과 표만 살펴보려 함. - 03.10~03.11 세미나 발표예정 논문 읽기. + 이것저것 궁금한것 찾아보고 읽고 StarGAN 구현도 해보고.
구현은 뒷전됨. - 총 평
디테일한 계획이 좀 안맞는 듯한 기분이 많이 듬. 스스로 만족할만큼 이것저것 하고 있음. 약간 큰 틀만 잡아놓고 그때그때 끌리는대로 하는게 나은 듯.
구현할 논문
- StarGAN / 교수님께서 주시는 것.
읽을 논문
읽는 중인 논문들.
계획
1주일간 해야할 일 우선순위 + 기한 별 나열. (괄호 내 기한)
- LGD (~금)
- 발표준비 (~금)
- 김선주 교수님 수업 논문 읽기 (~수, ~목)
- 딥러닝 이론 수업 듣기 (~금)
- 여진영 교수님 수업 논문 읽기 (~다음주 화)
- Coursera 강의 듣기 (기한 없음)
- 개인적으로 읽어보고 싶은 논문들 읽기
- 운동 및 영어공부
Brainstorm
조현인님 세미나 발표
마지막 쪽에서 Density and Coverage를 설명하며 아웃라이어를 집중적으로 바라보며 문제를 제시했다. 그 결과로 보여준 사진을 보시면 다음과 같다.
보면 인라이어는 다 백인 또는 동양인 중에서도 피부색이 밝은 쪽의 사람들이고 아웃라이어는 흑인이 잡힌 것을 알 수 있다.
물론 선글라스를 끼고있는 사람들이 좀 있긴 하지만 내가 보기엔 정상적으로 평균에 가까운 즉, 인라이너에 속해야 할 만한 흑인의 사진이 아웃라이어에 속해있는 것 같다.
이는 색에 의해서 그 거리가 멀다고 판단 된 것 같다. 아무래도 인종을 크게 3가지로 나눠볼 수 있을 텐데 백인 황인 흑인 이 3가지 범주 내에서 흑인이 크게 떨어진 분포를 지니게 되는 것 아닐까 싶다.
실험적으로 정말 그런지 확인해 볼만 한 듯 하며 만약 사실이라면 이를 개선시켜야 할 필요성이 있어 보인다.
반응형