2021 네이버 부스트캠프 - Ai tech 42

Week 8/9/10 - Object Detection - Fast R-CNN

Fast R-CNN은 이름에서 알 수 있듯이 R-CNN을 보완한 모델이다. 어떤 점이 달라졌는지 비교해보자. 주요 Contribution 1. input image를 바로 CNN에 넣어 추출한 feature에 ROI 적용 - RoI Projection 2. RoI Pooling 1. RoI Projection, RoI Pooling Ex) input image : 400x400x3 - selective search 사용해 2000개의 region을 추출 - CNN을 통과한 feature map에 해당 ROI를 추출 - 이때 ROI는 feature map의 비율에 맞게 축소 2. Hierarchical Training RCNN의 경우 여러개의 이미지에 존재하는 ROI들을 전부 저장해서 사용한다. 따라서 한..

Week 8/9/10 - Object Detection - SPPNet

SPPNet은 Spatial Pyramid Pooling을 적용한 모델로, RCNN의 한계점 1. CNN의 입력 이미지 사이즈가 고정되어 있다 -> Crop/Resize등으로 정보 손실 2. ROI마다 CNN통과 -> 시간 너무 오래 걸림 을 Spatial Pyramid Pooling로 보완한다. 1. Spatial Pyramid Pooling - Binning이라고도 불리는 이 과정은 고정된 size의 feature vector를 정해놓고, BIN의 크기를 조정해가면서 pooling하는 방법 - Pooling은 Max pooling을 하든, Average pooling을 진행하든 어쨋든 고정된 하나의 feature를 추출한다! 2. ShortComing 1. CNN, SVM classifier, bbo..

Week 8/9/10 - Object Detection - R-CNN

2013년 발표된 RCNN은 최초의 Object Detection 모델이자, 이후 발표된 여러 모델들의 기준이 되는 중요한 연구다. 2 Stage는 이전 글에서 말했듯이 객체가 있을법한 위치 선정 + 클래스 판별 의 스테이지로 이루어진다. 1. Extracting Region Proposal Region Proposal 알고리즘 Extracting Region Proposals : input image에서 ROI 추출. 객체가 있을거라고 예상되는 부분을 bbox침 Sliding Window : 다양한 scale로 무수히 많은 영역을 검출한다. 이미지의 대부분은 배경이기 때문에 sliding window기법을 사용하면 당연히 객체가 포함될 가능성은 줄어든다. 비효율적 Selective Search : 이미..

Week 8/9/10 - Object Detection - 2 Stage Detectors

Object Detection의 갈래에는 크게 두가지 one-stage 와 two-stage가 존재한다. 2 stage Detector는 사람의 객체인식 방법과 가장 유사하게 디자인된 방법이다 [사람] 일반적으로 사람은 이미지를 인식했을때 객체 위치를 인식후, 판별한다. 처음부터 이미지에 종이박스가 있다! 라고 인지하고 그 위치를 탐색하지 않습니다. [2 Stage] 2 stage도 마찬가지로 객체 있을 법한 위치 추정. 해당 객체가 무엇인지 체크 의 프로세스를 거친다. 여기서 객체가 있을 법한 위치를 ROI, Region of Interest 라고 부른다!! 그 위치를 판단하는 과정이 복잡하고 자원이 많이 들어가는 과정이기 때문에 Extracting Region Propsal에 관련된 알고리즘이 각 모..

Week 8/9/10 - Object Detection - Evaluation Metric (mAP, FPS, Flops)

Object Detection Task의 평가지표는 크게 두가지로 나눌 수 있습니다. 1. 성능 - 얼마나 잘 검출했는가 (mAP) 2. 속도 - 얼마나 빠르게 검출했는가 (FPS, Flops) 그 중에서도 object detection은 real-time, real world 문제에 적용되는 경우가 많기 때문에, 다른 task들에 비해 속도또한 중요합니다. 1. mAP . mean average precision : 각 클래스별로 계산한 AP의 평균 [ mAP를 계산하기 위해 필요한 개념 ] 더보기 1. Confusion Matrix 2. Precision & Recall AP 계산을 위해서는 PR Curve를 필수적으로 알아야 합니다. 10개의 검출된 객체가 존재합니다. Confidence값으로 내림..

Week 8/9/10 - What is Object Detection?

Object Detection Level 2에서는 본격적으로 Object Detection을 다룹니다. Object Detection tast를 처음 접할때 Classification과 헷갈릴 수 있습니다. 간단히 짚고 넘어가자면, - Classification : 이미지가 무엇을 나타내는지, label(정답)이 한개 - Object Detection : 이미지 속에 있는 모든 객체 식별. 어디에 있고? 무엇인지. 모두 고르시오 느낌 ㅎㅎ 현실 세계에서 정말 많이 쓰이고, 중요도가 점점 중요해지는 (원래도 중요했던) task 입니다. Two-stage Vs. One-stage object detection은 투스테이지, 원스테이지 크게 두 가닥으로 나뉩니다. 뒤에서 자세히 배우겠지만, 보통 two-sta..

Week 8/9/10 Level2- P Stage [Object Detection]

Object Detection Bible Level2 U Stage + P Stage 2021.09.27 ~ 2021.10.14 1. What is Object Detection? Introduction, history 2. Object Detection - Evaluation Metric mAP, FPS, Flops 3. 2 Stage Object Detectors R-CNN SPPNet Fast R-CNN Faster R-CNN 4. 대표 Library mmdetection detectron2 5. Neck Neck이란? FPN PANet DetectorRS BiFPN, NASFPN, AugFPN 6. 1 Stage Object Detectors YOLO SSD RetinaNet 7. Efficien..

Week_7 CV-Perceptual Loss

Perceptual Loss 는 GAN에서 사용되는 loss중 하나로 MAE(L1), MSE를 보완하기 위해 만들어진 손실함수입니다. Perceptual loss는 Content loss와 style loss 두 가지 종류가 있는데 Feature map을 그대로 사용하는 Content loss와 Gram matrix 연산을 한번 거쳐 Loss를 계산하는 Style loss가 있습니다. ▲ 왜 MAE, MSE가 적합하지 않은가?!! 더보기 MAE와 MSE는 둘 다 mean, 평균오차입니다. 여러가지 샘플이 존재할때, 그 평균에서 크게 벗어나지 않는것을 목표로 합니다. 따라서 generator의 목표가 진짜같은 이미지 a'보다는 a,b,c,d의 평균에서 최대한 가까운 a+b+c+d/4를 타겟으로 합니다. 그..

Week_7 CV-Autograd

Autograd 는 Automatic Gradient calculating API의 약자로서, 자동으로 gradient를 계산해주는 Deep Learning 특화 library 이다. 과거에는 backward pass로 미분값을 구할때 수식으로 전개해 일일히 대입하는 방법을 썼다. autograd는 아래와 같은 computational graph를 사용해 자동으로 구할 수 있다. Autograd 1. backward backward는 backpropagation이다. 위 예시에서 눈에 띄는것은 보통 미분값을 구하고자 하는 변수가 y 라 할때, y.backward()를 사용하는데, 사진에서는 backward(gradients)라고 되어 있다. 이 기능은 backprop의 chain rule을 살짝쿵 적용한..

Week_6 CV-Focal Loss

Focal Loss 잘 찾은 class에 대해서는 loss를 적게 줘서 loss 갱신을 잘 못하게 하고, 잘 찾지 못한 class에 대해서는 loss를 크게 줘서 loss 갱신을 크게 하는 것. Focal Loss는 object detection에서 파생된 Loss이다. 아래의 object detection 예시를 살펴보면, 일반적인 영상에서 실제 object보다 background의 비중이 훨씬 더 많음을 알 수 있다. positive sample