Deep Learning 12

[Multi-modal] GLIP : Grounded Language Image Pretraining

오늘은 Microsoft에서 발표한 GLIP : Grounded Language Image Pretraining(2021) 논문을 정리해보도록 하겠습니다. 글 중간중간 논문에 나오지 않은 제 생각과 정보가 들어가 있으니 틀린게 있다면 언제든지 알려주시길 바랍니다. ** vision-language multimodal의 근본논문 중 하나인 CLIP과 이름이 상당히 유사합니다. 실제로도 CLIP을 기반으로 아이디에이션한 논문입니다. GLIP의 주요 contribution은 Image Level -> Instance Level에 있다고 생각합니다. 그럼 논문의 흐름을따라 내용을 정리를 시작해보겠습니다. 1. Introduction 2개 이상의 modality를 사용하면, 각각의 modality로 부터 얻은 r..

Deep Learning 2022.07.22

[Multi-modal] PhraseCut / VGPhraseCut Dataset 소개

PhraseCut: Language-based Image Segmentaiton in the Wild 2020년 발표된 Dataset + multimodal segmentation framework 를 제시한 논문이다. Visual Genome의 Bounding Box annotation을 활용해, Phrase와 그에 해당되는 region을 mask annotation 했다. Visual Genome이 어떤 dataset인지, PhraseCut은 어떤 modification을 적용했는지 알아보자~~! ** Phraes Cut의 HulaNet 모듈에 관한 설명은 해당 글에서 다루지 않습니다! Visual Genome. PhraseCut의 baseline PhraseCut의 base가 되는 Visual Ge..

Information Theory 이해하기 - KL Divergence, JSD

오늘은 cross entropy에 이어 KL Divergence에 대해 설명하겠습니다. 참고로 여기서 Divergence의 의미는 벡터장의 발산 같은 개념이 아니라, “차이”를 다른 말로 쓴 것일 뿐입니다. 처음 공부할때 이걸 몰라서 삽질을 했던 멍청한 경험이 있습니다. ㅎㅎ 저말고 그런사람이 또 있을까요? 어떤 두 좌표 $x_1$,$x_2$가 가까운지를 판단할때, 어떤 방법을 사용할 수 있을까요? 두 좌표값의 절댓값 차이를 구해서 나타낼수도 있고, (Manhattan Distance) 공식을 사용해 두 좌표 사이의 직선 거리를 구해서 판단 할 수도 있죠. (Euclidean Distance) 그 외에도 수없이 많은 방법들이 있습니다. 분포도 마찬가지입니다. 두 확률분포의 '근사한정도', '서로 닮았는지..

Information Theory 이해하기 - Cross Entropy

이번 글에서는 지난번의 정보이론 소개에 이어 딥러닝에서 많이 등장하는 Cross Entropy를 다루겠다. Cross-Entropy는 딥러닝에서 손실 함수로도 사용되고 KL, JSD, f-deivergence등에서도 많이 보이기 때문에 중요한 개념이다. 정보량과 Entropy의 개념이 확실히 이해되지 않는다면 이전글이나 다른 자료를 참고해서 공부한 후에 보는것을 추천한다!! Entropy Reminder 먼저 Entropy를 다시 떠올려 보자. $$ \sum_{x=1}^{N}-p(x) log p(x)$$ 분포 p에 대한 entropy다. (위 식에서는 밑의 값에 2가 들어왔지만 다른 숫자도 올 수 있다. 가령, $e$) $p(x) $ : x의 확률 $log_2 p_i$ : x의 정보량 여태까지 entro..

Information Theory 이해하기 - 정보량과 Entropy

딥러닝을 공부하다보면 KL-divergence, JSD-divergence같이 확률분포를 판단하는 척도들을 종종 접하게 된다. 그리고 그런 척도들의 기본이론이 바로 Information Theory, 정보이론이다. 정보량 정보이론의 기본 단위라고도 할 수 있는 정보량은 무엇일까? 정보량 = '깜놀도' 이해를 돕기위해, 여러 비유중에서 '깜놀도'(깜짝 놀라는 정도)라는 비유를 들어서 정리해보겠다. 확률이 매우 낮은 사건이라서 잘 일어나지도 않고, 고로 누적된 데이터도 없는 사건A가있다. A: 어떤 사람이 로또를 사서 집에가다가 번개를맞고, UFO에 납치됐다가 풀려났는데 아까 산 로또까지 당첨될 사건 A가 일어날 확률 $P(A)$는 $10^{-10000}$보다도 작을것이다. 거의 불가능한 사건이다. 그럼에도..

[GAN] LSGAN - Paper Review, 리뷰

Least Squares Generative Adversarial Networks Xudong Mao et al. 2016을 바탕으로 작성한 리뷰입니다. 오늘은 GAN, DCGAN에 이어 LSGAN에 대해 리뷰해보겠습니다. LSGAN은 아이디어가 굉장히 직관적이면서 동시에 까다로운(?) 논문인거 같습니다. GAN에서 파생되어 나온 모델들이 대부분 그러하듯 LSGAN 또한 GAN의 문제점을 지적하며 개선된 내용을 주장합니다. 1. GAN은 sigmoid cross entropy를 사용하는데, 이는 vanishing gradient problem을 잘 잡지 못한다. LSGAN은 이런 vanishing gradients problem을 해결하였다. 2. GAN의 학습과정이 unstable한데 비해, LSGAN..

Deep Learning/GAN 2021.07.08

[GAN] DCGAN - 논문 리뷰, Paper Review, 설명 (2)

오늘은 1편에 이어 2016년에 발표된 DCGAN -Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks에 대한 리뷰입니다. 논문에 흥미로운 Figure들이 많아 읽은 논문입니다. DCGAN에 앞서 GAN에 대한 내용을 참고하고 싶으시면 제가 정리한→ GAN 리뷰 ←를 보고 와주세요. DCGAN의 실험 결과를 살펴보기 전에, 결과 검증시 중요한 두가지 기준에 대해 먼저 소개하겠습니다. 1. Model is not producing high quality samples via simply overfitting/memorizing training examples ☞ 한마디로 Generator가 학..

Deep Learning/GAN 2021.07.06

[GAN] DCGAN - 논문 리뷰, Paper Review, 설명 (1)

오늘 다룰 논문은 2016년에 발표된 DCGAN -Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks에 대한 리뷰입니다. 논문에 흥미로운 Figure들이 많아 재미있게 읽은 논문입니다. DCGAN에 앞서 GAN에 대한 내용을 참고하고 싶으시면 제가 정리한→ GAN 리뷰 ←를 보고 와주세요. DCGAN은 Deep Convolutional Generatice Adversarial Network의 약자로, GAN을 개선시키고 거기에 Convolution을 적용한 모델입니다. Ian Goodfellow가 처음 제안한 적대적 생성 신경망(GAN)은 획기적이었으나 구조가 다소 불안정하고, NN이 기본적..

Deep Learning/GAN 2021.07.06

[Pose Estimation] HR Net - Paper review

HR Net은 Human Pose estimation 분야에서 SOTA(State of the art)모델을 달성한 모델로 2019년에 발표되었다. https://arxiv.org/pdf/1902.09212v1.pdf Single person을 estimate하는 모델이고, 기존의 high-to-low resolution 네트워크에 비해 HR Net은 네트워크 내내 high resolution을 유지할 수 있다는 장점이 있다. 1. Introduction HR Net은 Single person의 pose를 estimate하는 모델이다. 하나의 객체 안에서 pose를 추출해내는 방법은, multi-person pose estimation 이나 video pose estimation등의 문제에서 베이스가 된..

[Pose Estimation] DeepPose : Human Pose Estimation via DNN - Paper Review

Deep Pose는 2014년에 발표된 논문으로, Pose Estimation 분야에 최초로 DNN을 적용한 모델이다. 그 후로 많은 모델들이 등장했기 때문에, 최신 모델들에 비해 예측 성능은 좀 떨어지지만 여러 면에서 유의미한 논문이다. 우선 Deep Pose의 장점과 단점을 각각 살펴보면, 장점 CNN을 사용해서 이미지의 전체적인 맥락을 예측에 사용했음. 당시에는 획기적. Deep Neural Network를 적용하는건 처음이었다. 단점 관절과 관절 간의 상관관계를 고려하지 않습니다. 관절이 겹쳐서 식별이 어렵거나,아예 가려진 경우 등등 한계점이 있는 data에서는 관절을 완벽하게 예측하기 어렵다. 계산이 비효율적이다. Cascase Model이어서 각기 다른 CNN 모델들을(구조는 다르고 weigh..