[Object Segmentation] ASPP : Atrous Spatial Pyramid Pooling

꾸준희

|2020. 7. 19. 22:13

728x90

보통 객체 검출(Object Detection) 이나 객체 분류(Classification)은 객체의 존재 여부(Objectness)를 중요시 여기기 때문에 Object-centric 하며, 성능을 보장하기 위해서는 여러 단계의 Conv + Pooling 을 거쳐 영상 속에 존재 하지만 변화에는 영향을 덜 받는 강인한 특징만을 추출해야한다. 그렇기 때문에 객체 검출이나 분류 문제에서는 Detail 한 특징 보다는 Global 한 특징에 집중하는 것이 중요하다.

하지만, Object Segmenation 분야에서는 픽셀 단위의 조밀한 예측이 필요한데, 객체 분류를 위한 신경망을 사용하게 되면 계속 특징 맵의 크기가 줄어들기 때문에 Detail 한 특징 정보를 얻기 어려워진다. 그래서 이러한 Detail 을 유지하기 위한 많은 컨볼루션 기법들이 존재하며 그 중 하나가 Atrous Convolution 이다.

Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

DeepLab V1 = DCNN + atrous convolution + fully connected CRF

DeepLab V2 = DCNN + atrous convolution + fully connected CRF + ASPP

Atrous Convolution

이 기법은 DeepLab V1 논문에서 소개되었으며, 보다 넓은 Scale 을 수용하기 위해 중간에 구멍(hole)을 채워 넣고 컨볼루션을 수행하게 된다. 즉, 기본 컨볼루션에 비해 연산량을 유지하면서 최대한 넓은 receptive field 를 커버하는 방법이다.

위 그림 (a)는 커널의 크기가 3인 기본적인 컨볼루션이다. 이와 달리 그림 (b)는 확장 계수(rate) 2가 적용되어 중간에 hole 이 1개씩 들어가게 되며, 똑같은 커널 사이즈 3을 사용하더라도 수용할 수 있는 영역의 크기가 커졌음을 확인 할 수 있다. 이 처럼 atrous convolution(dilated convolution)을 사용하게 되면 커널의 크기는 동일하게 유지하기 때문에 연산량은 동일하지만 receptive field 가 커지는 효과를 얻을 수 있게 된다.

ASPP : Atrous Spatial Pyramid Pooling

Atrous convolution은 receptive field 확대를 통해 특징을 찾는 범위를 넓게 해주기 때문에 전체 영상으로 찾는 범위를 확대하면 좋다. 하지만 전체 확대를 하게 되면 단계적으로 수행을 해야하기 때문에 연산량이 많이 소모될 수 있다. 그래서 trade-off 가 존재하며 적당한 선에서 나머지는 bilinear interpolation 을 수행한다. 하지만 이는 정확하게 픽셀 단위까지 정교하게 segmentation 하는 것이 불가능하다. 그래서 CRF(Condifional Random Field)를 이용하여 post-processing 울 수행한다.

ASPP 는 multi-scale 에 잘 대응할 수 있도록 하기 위한 방법이다. 위 그림과 같이 atrous convolution 을 위한 확장 계수를 6, 12, 18, 24 로 적용하고 그 결과를 취합하여 사용하는 방식이다. 이로써 다양한 receptive field 를 볼 수 있게 되는 것이다.

위와 그림 (a)에서 확장 계수를 12로 고정시키는 방식보다 ASPP 방식을 사용하는 것이 1/7% 성능 향상이 있었다고 한다.

참고자료 1 : https://m.blog.naver.com/laonple/221000648527

[Part Ⅶ. Semantic Segmentation] 6. DeepLab [1] - 라온피플 머신러닝 아카데미 -

라온피플 머신러닝 아카데미 [Part Ⅶ. Semantic Segmentation]6. DeepLab [1] Semantic Segmentati...

blog.naver.com

참고자료 2 : https://adioshun.gitbooks.io/semantic-segmentation/2016deeplab.html#2

2016_DeepLab v2 · 2D Object Detection

논문명 DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs 저자(소속) Liang-Chieh Chen (구글) 학회/년도 2016 논문 키워드 참고 라온피플, PR100 DeepLab v2 1. 개요 2015: Dee

adioshun.gitbooks.io

728x90

저작자표시 비영리 (새창열림)

'AI Research Topic > Object Understanding' 카테고리의 다른 글

[Object Detection] 객체 탐지 정확도 평가 지표 mAP(mean Average Precision) (3)	2021.04.14
[Paper Review] An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale (2)	2020.11.01
[Paper Review] FairMOT : A Simple Baseline for Multi-Object Tracking (0)	2020.06.23
[Object Tracking] Two-Step MOT vs One-Shot MOT (0)	2020.06.22
[Object Detction] 3D Object Detection, Google Objectron (3)	2020.05.27

[Object Segmentation] ASPP : Atrous Spatial Pyramid Pooling

'AI Research Topic > Object Understanding' 카테고리의 다른 글

티스토리툴바