[논문] Rich feature hierarchies for accurate object detection and semantic segmentation
업데이트:
1. Introduction
- CNN 이전에는 SIFT나 HOG, 또는 ensemble을 이용하여 성능의 향상을 이루었다.
- 2012년 Krizhevsky의 CNN을 이용한 높은 정확도를 보여주며 CNN에 대한 관심이 상승하였다.
- 2012년 ILSVRC에서는 ImageNet에 대한 정확도에 관심이 많았으며, CNN classification의 결과가 PASCAL VOC object detection에도 적용이 가능한지가 사람들의 관심이었다.
- 본 논문에서는 CNN이 기존의 HOG기반 시스템보다 object detection에 대한 성능이 좋다는 것을 보여준다.
제기된 문제점
- Object detection은 image classification과는 달리 이미지를 localizing하는 것이 필요하다.
- label된 데이터의 양은 거대한 CNN을 학습시키기에는 부족하다.
논문에서의 해결법
- 본 논문에서는 이러한 문제를 “recognition using regions”를 이용하여 해결한다.
- 전통적으로는 unsupervisied training을 이용하여 이러한 문제점을 해결한다. 본 논문에서는 이를 작은 dataset은 domain-specific fine-tuning, 거대한 보조 데이터를 이용하여 supervised pretraining을 이용하여 데이터가 부족할 때 capacity가 큰 CNN을 학습하는 경우에 효과적인 방법임을 보여주었다. (이를 통해 mAP가 8% 상승했음을 확인)
이 논문에서 제시된 시스템은 상당히 효율적이라고 말한다. Class specific한 계산은 오직 작은 matrix-vector product와 greedy non-maximum suppression뿐이다.
Non-Maximum Suppression (NMS)
- 연산량 감소 및 mAP가 향상하는 것을 도와준다.
- Object detection에서 적용된 경우
- 중복적으로 bounding box가 생기게 된다.
- 이를 해결하기 위해 지정된 threshold 값을 넘어가는 상자를 suppress 리스트에 등록하고 제거하는 것을 반복적으로 수행하여 bounding box를 정하는데에 도움을 준다.
댓글남기기