[Object Tracking] Two-Step MOT vs One-Shot MOT

AI Research Topic/Object Understanding

[Object Tracking] Two-Step MOT vs One-Shot MOT

꾸준희

|2020. 6. 22. 23:15

728x90

Multiple Object Tracking : Two-Step

Wojke, Nicolai, Alex Bewley, and Dietrich Paulus.

"Simple online and realtime tracking with a deep association metric."

2017 IEEE international conference on image processing (ICIP). IEEE, 2017.

Yu, Fengwei, et al.

"Poi: Multiple object tracking with high performance detection and appearance feature."

European Conference on Computer Vision. Springer, Cham, 2016.

Zhou, Zongwei, et al.

"Online multi-target tracking with tensor-based high-order graph matching."

2018 24th International Conference on Pattern Recognition (ICPR). IEEE, 2018.

Mahmoudi, Nima, Seyed Mohammad Ahadi, and Mohammad Rahmati.

"Multi-target tracking using CNN-based features: CNNMTT."

Multimedia Tools and Applications 78.6 (2019): 7077-7096.

Fang, Kuan, et al.

"Recurrent autoregressive networks for online multi-object tracking."

2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018.

위와 같은 방법들은 Object Tracking 과정을 Object Detection 및 Re-ID 의 개별 작업으로 구분하여 추적을 수행한다. 먼저 CNN 기반 검출기를 적용하여 이미지에서 관심있는 모든 객체들을 여러 box 들로 localization 한다. 그 다음 별도의 단계에서 상자를 crop 하고, 이를 identity embedding network 에 입력하여 Re-ID 특징들을 추출하고, box 들을 연결하여 여러 track 을 형성하게 된다.

이러한 방식은 일반적으로 bounding box 의 Re-ID 특징 및 IoU(Intersection over Unions)에 따라 cost matrix 를 계산한 다음 Kalman Filter 및 Hungarian algorithm 을 사용하는 box 연결에 대한 고전적인 방법들을 통해 linking task를 수행한다. 이 뿐만 아니라 RNN 및 group model 과 같은 복잡한 전략을 사용하여 연결하기도 한다.

이러한 Tow-Step MOT의 장점은 각 작업에 가장 적합한 모델을 개별적으로 사용할 수 있다는 것이다. 또한 탐지된 bounding box 에 따라 이미지 패치를 자르고, Re-ID 특징을 예측하기 전에 동일한 크기로 크기를 조정함으로써 객체의 스케일 변형을 처리하는데 도움이 된다. 결과적으로 이러한 접근법은 퍼블릭 데이터 세트에서 최고의 성능을 달성하였다. 하지만 두 방법 간 특징을 공유하지 않고, 많은 계산이 필요하기 때문에 속도가 매우 느리다는 단점을 가진다. 따라서 많은 응용 분야에서 실시간 성능을 내기가 쉽지 않다.

One-Shot Multiple Object Tracking

딥 러닝에서는 Multi-task Learning 의 발전으로 인하여 one-shot MOT 는 더 많은 관심을 끌기 시작했다. 핵심 아이디어는 추론 시간을 줄이기 위하여 computation share 를 통해 단일 신경망에서 객체 탐지 및 Re-ID 를 동시에 수행하는 것이다. 예를 들어 Track-RCNN 은 Mask-RCNN 위에 Re-ID head 를 추가하고, 각 proposal 에 대한 bounding box 와 Re-ID 특징을 regress 한다.

그러나 이러한 방식의 추적 정확도는 일반적으로 two-step 방식보다 낮다. 따라서 학습된 Re-ID 특징이 최적의 특징이 아닐 수 있기 때문에 많은 수의 ID switch 로 연결될 수 있다. 이는 anchor 에서 추출된 identity embedding feature 가 object center 와 align 되지 않기 때문에 severe ambiguity 를 유발한다. 이러한 문제를 해결하기 위하여 모든 벤치 마크에서 추적 정확도를 크게 향상시키는 object detection 및 Re-ID embedding 방식에 anchor-free 방식을 사용하는 것을 추천한다.

참고자료 : https://arxiv.org/pdf/2004.01888v4.pdf

728x90

저작자표시 비영리 (새창열림)

'AI Research Topic > Object Understanding' 카테고리의 다른 글

[Object Segmentation] ASPP : Atrous Spatial Pyramid Pooling (0)	2020.07.19
[Paper Review] FairMOT : A Simple Baseline for Multi-Object Tracking (0)	2020.06.23
[Object Detction] 3D Object Detection, Google Objectron (3)	2020.05.27
[Object Detection] Soft NMS (0)	2020.03.08
[Object Detection] Deformable Convolutional Networks (0)	2020.03.08