[논문] Rich feature hierarchies for accurate object detection and semantic segmentation

업데이트:

1. Introduction

  • CNN 이전에는 SIFT나 HOG, 또는 ensemble을 이용하여 성능의 향상을 이루었다.
  • 2012년 Krizhevsky의 CNN을 이용한 높은 정확도를 보여주며 CNN에 대한 관심이 상승하였다.
  • 2012년 ILSVRC에서는 ImageNet에 대한 정확도에 관심이 많았으며, CNN classification의 결과가 PASCAL VOC object detection에도 적용이 가능한지가 사람들의 관심이었다.
  • 본 논문에서는 CNN이 기존의 HOG기반 시스템보다 object detection에 대한 성능이 좋다는 것을 보여준다.

제기된 문제점

  1. Object detection은 image classification과는 달리 이미지를 localizing하는 것이 필요하다.
  2. label된 데이터의 양은 거대한 CNN을 학습시키기에는 부족하다.

논문에서의 해결법

  1. 본 논문에서는 이러한 문제를 “recognition using regions”를 이용하여 해결한다.
  2. 전통적으로는 unsupervisied training을 이용하여 이러한 문제점을 해결한다. 본 논문에서는 이를 작은 dataset은 domain-specific fine-tuning, 거대한 보조 데이터를 이용하여 supervised pretraining을 이용하여 데이터가 부족할 때 capacity가 큰 CNN을 학습하는 경우에 효과적인 방법임을 보여주었다. (이를 통해 mAP가 8% 상승했음을 확인)

이 논문에서 제시된 시스템은 상당히 효율적이라고 말한다. Class specific한 계산은 오직 작은 matrix-vector product와 greedy non-maximum suppression뿐이다.

Non-Maximum Suppression (NMS)

  • 연산량 감소 및 mAP가 향상하는 것을 도와준다.
  • Object detection에서 적용된 경우
    • 중복적으로 bounding box가 생기게 된다.
    • 이를 해결하기 위해 지정된 threshold 값을 넘어가는 상자를 suppress 리스트에 등록하고 제거하는 것을 반복적으로 수행하여 bounding box를 정하는데에 도움을 준다.

댓글남기기