deep learning 3

[Multi-modal] GLIP : Grounded Language Image Pretraining

오늘은 Microsoft에서 발표한 GLIP : Grounded Language Image Pretraining(2021) 논문을 정리해보도록 하겠습니다. 글 중간중간 논문에 나오지 않은 제 생각과 정보가 들어가 있으니 틀린게 있다면 언제든지 알려주시길 바랍니다. ** vision-language multimodal의 근본논문 중 하나인 CLIP과 이름이 상당히 유사합니다. 실제로도 CLIP을 기반으로 아이디에이션한 논문입니다. GLIP의 주요 contribution은 Image Level -> Instance Level에 있다고 생각합니다. 그럼 논문의 흐름을따라 내용을 정리를 시작해보겠습니다. 1. Introduction 2개 이상의 modality를 사용하면, 각각의 modality로 부터 얻은 r..

Deep Learning 2022.07.22

[Pose Estimation] HR Net - Paper review

HR Net은 Human Pose estimation 분야에서 SOTA(State of the art)모델을 달성한 모델로 2019년에 발표되었다. https://arxiv.org/pdf/1902.09212v1.pdf Single person을 estimate하는 모델이고, 기존의 high-to-low resolution 네트워크에 비해 HR Net은 네트워크 내내 high resolution을 유지할 수 있다는 장점이 있다. 1. Introduction HR Net은 Single person의 pose를 estimate하는 모델이다. 하나의 객체 안에서 pose를 추출해내는 방법은, multi-person pose estimation 이나 video pose estimation등의 문제에서 베이스가 된..

[Pose Estimation] DeepPose : Human Pose Estimation via DNN - Paper Review

Deep Pose는 2014년에 발표된 논문으로, Pose Estimation 분야에 최초로 DNN을 적용한 모델이다. 그 후로 많은 모델들이 등장했기 때문에, 최신 모델들에 비해 예측 성능은 좀 떨어지지만 여러 면에서 유의미한 논문이다. 우선 Deep Pose의 장점과 단점을 각각 살펴보면, 장점 CNN을 사용해서 이미지의 전체적인 맥락을 예측에 사용했음. 당시에는 획기적. Deep Neural Network를 적용하는건 처음이었다. 단점 관절과 관절 간의 상관관계를 고려하지 않습니다. 관절이 겹쳐서 식별이 어렵거나,아예 가려진 경우 등등 한계점이 있는 data에서는 관절을 완벽하게 예측하기 어렵다. 계산이 비효율적이다. Cascase Model이어서 각기 다른 CNN 모델들을(구조는 다르고 weigh..