오늘은 Microsoft에서 발표한 GLIP : Grounded Language Image Pretraining(2021) 논문을 정리해보도록 하겠습니다. 글 중간중간 논문에 나오지 않은 제 생각과 정보가 들어가 있으니 틀린게 있다면 언제든지 알려주시길 바랍니다. ** vision-language multimodal의 근본논문 중 하나인 CLIP과 이름이 상당히 유사합니다. 실제로도 CLIP을 기반으로 아이디에이션한 논문입니다. GLIP의 주요 contribution은 Image Level -> Instance Level에 있다고 생각합니다. 그럼 논문의 흐름을따라 내용을 정리를 시작해보겠습니다. 1. Introduction 2개 이상의 modality를 사용하면, 각각의 modality로 부터 얻은 r..