no image
[Paper Review] CBAM : Convolutional Block Attention Module
CBAM 논문을 살펴보았다. 저자가 한국인이라서 그런지 몰라도 논문 이름부터 시작해서 논문이 잘 읽히는 편이었고, 이미 저자가 논문을 정리해 놓은 자료도 있어서 이해하기 수월했다. CBAM 논문은 BAM(Bottleneck Attention Module) 에 이어 나온 논문이다. 두 논문 모두 CNN의 성능 향상을 위한 Self-attention Module 을 제안하고 있다. 여기서는 CBAM 의 내용을 주로 다루기로 한다. CNN 계열에서 Attention 개념은 주로 Image Captuioning 처럼 multi-modal 간의 관계를 이용한 feature selection 에서 많이 사용되었다고 한다. Attention 이라는 것 자체가 어떠한 특성에 대하여 "집중"하는 것인데, Image Cl..
2020.06.07
no image
[Deep Learning] Activation Function : Swish vs Mish
활성화 함수(Activation Function)는 입력을 받아 활성, 비활성을 결정하는데 사용되는 함수이다. 어떤 활성화 함수를 사용하느냐에 따라 그 출력 값이 달라지기 때문에 적절한 활성화 함수를 사용하는 것이 매우 중요하다. 보통 어떠한 임계 값을 기준으로 활성화 되거나 혹은 비활성화 되는 형태를 가진다. 기존 활성화 함수들 Swish Swish 는 매우 깊은 신경망에서 ReLU 보다 높은 정확도를 달성한다고 한다. 또한 모든 배치 크기에 대해 Swish 는 ReLU 를 능가하며, 모든 x < 0 에 대해 함수를 감소시키거나 증가시키지 않는다고 한다. Mish 와 마찬가지로 bounded below, unbounded above 특징을 가진다. Mish Mish 는 그래프가 무한대로 뻗어나가기 때문..
2020.06.07
no image
[Pose Estimation] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation
연구를 하다보면 좋아하는 저자가 한 두명씩 생기곤 하는데, 그 중 하나가 Facebook AI Research 에서 일하고 계신, OpenPose 저자인 Hanbyul Joo 님이다. 2D, 3D Human Pose Estimation 부터 Hand Keypoint Detection, 3D Deformation Model, Tracking 분야까지 다양한 연구를 하고 계신 분이다. 많은 연구들 중에서 최근에 나온 연구는 아래 논문이다. Joo, Hanbyul, Natalia Neverova, and Andrea Vedaldi, "Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation", arXiv..
2020.06.07
no image
[Deep Learning] MediaPipe
MediaPipe Github : https://github.com/google/mediapipe google/mediapipe MediaPipe is the simplest way for researchers and developers to build world-class ML solutions and applications for mobile, edge, cloud and the web. - google/mediapipe github.com MediaPipe Document : https://mediapipe.readthedocs.io/en/latest/ MediaPipe — MediaPipe v0.5 documentation Alpha Disclaimer MediaPipe is currently i..
2020.06.03
no image
[3D Reconstruction] 3차원 주석 데이터에 비의존적으로 3차원 모델을 재구성 하는 방법들
다양한 3차원 재구성(Reconstruction) 방법 중에서 3차원 주석이 달린 이미지에 의존적이지 않으면서 3차원 재구성을 수행할 수 있는 방법이 있다. SMPLify 와 같은 최적화 기반 방법은 파라메트릭 인간 모델(Parametric human models)에 의존하며, 몇가지 모델 매개 변수만 예측하면 된다. 이러한 방법들은 추정된 포즈가 2차원으로 투영 시키는데 일어나는 오차를 최소화 하는데만 신경을 쓰기 때문에 추정된 자세가 유효한지를 보장 할 수 없다. 실제로, output quality 는 초기화에 크게 의존하게 된다. 여기서 초기화란 2차원 자세에 body model 을 처음에 fit 하게 맞추는 작업을 의미하는 것 같다. 그렇기 때문에 비교적 까다로운 자세를 추정하지 못하는 문제점이 ..
2020.06.02
no image
[Pose Estimation] 단일 이미지에서 3차원 자세를 추정하는 방법 및 문제점
단일 이미지에서 3차원으로 사람의 자세를 재구성(Reconstruction) 하는 방법은 깊이(Depth) 정보를 고유하게 복구 시킬 수 없다는 문제를 가진다. 이러한 깊이 모호성(Depth ambiguity)을 극복하기 위하여 사전에 정의된 body shape 과 pose 정보들을 이용해야한다. 최적화(Optimization)기반 방법들은 SMPL(Skinned Multi-Person Linear model) 및 SCAPE(Shape Completion and Animation of People) 와 같은 3차원 바디 모델을 assume 하고 최적화 알고리즘을 사용하여 2차원 자세들을 맞춘다. 초기 접근 방식에는 수동으로 입력을 주었지만, SMPLify 연구 부터 프로세스가 완전히 자동화 된 다음, "..
2020.06.02
no image
[Object Detction] 3D Object Detection, Google Objectron
Object Detection 분야는 대부분 2차원 객체 탐지만을 다루고 있다. 2차원 객체를 탐지하는 것은 2차원 바운딩 박스만 있지만, 3차원 객체 탐지로 범위를 확장한다면, 물체의 크기 및 위치, 방향 등을 알 수 있으므로 자율 주행 및 이미지 검색, 증강 현실에서 다양한 분야에 응용 할 수 있다. 가령, 2D Human Pose Estimation 분야에서 3차원 정보가 아주 조금 필요한 도메인이라면, 3D Human Pose Estimation 까지 연구의 범위를 확장 안하고도 문제를 해결 할 수 있지 않을까 라는 생각을 했다. 즉, 사람에 대한 2차원 바운딩 박스 정보를 3차원으로 추출 할 수 있다면, 꽤 vanilla 적인 접근으로 여러가지 문제를 해결할 수 있지 않을까 ㅎㅎ 심지어 이건 모..
2020.05.27
no image
[Deep Learning] 딥러닝에서 사용되는 다양한 Convolution 기법들
기존 2차원 컨볼루션은 세가지 문제점이 존재한다. Expensive Cost Dead Channels Low Correlation between channels 또한, 영상 내의 객체에 대한 정확한 판단을 위해서는 Contextual Information 이 중요하다. 가령, 객체 주변의 배경은 어떠한 환경인지, 객체 주변의 다른 객체들은 어떤 종류인지 등. Object Detection 이나 Object Segmentation 에서는 충분한 Contextual Information을 확보하기 위해 상대적으로 넓은 Receptive Field 를 고려할 필요가 있다. 일반적으로 CNN에서 Receptive Field 를 확장하기 위해서는 커널 크기를 확장한다던지, 더 많은 컨볼루션 레이어를 쌓는 방법을 ..
2020.05.18
no image
[Deep Learning] Batch Normalization (배치 정규화)
사람은 역시 기본에 충실해야 하므로 ... 딥러닝의 기본중 기본인 배치 정규화(Batch Normalization)에 대해서 정리하고자 한다. 배치 정규화 (Batch Normalization) 란? 배치 정규화는 2015년 arXiv에 발표된 후 ICML 2015에 게재된 아래 논문에서 나온 개념이다. Batch Normalization: Accelerating Deep Network Training b y Reducing Internal Covariate Shift https://arxiv.org/pdf/1502.03167.pdf Gradient Vanishing / Exploding 문제 신경망에서 학습시 Gradient 기반의 방법들은 파라미터 값의 작은 변화가 신경망 출력에 얼마나 영향을 미칠 ..
2020.05.16
no image
[Object Detection] Soft NMS
Paper : https://arxiv.org/pdf/1704.04503.pdf 불러오는 중입니다... Soft NMS 기존 NMS 는 가장 높은 confidence 를 가지는 bbox 를 찾고, 같은 클래스 인 bbox 들 중 겹치는 영역이 일정 비율 이상인 (iou > threshold) bbox 를 제거해서 중복된 detection 결과를 없앤다. 이러한 hard 한 NMS 방식은 실제로 존재하는 object 를 제거함으로써 mAP 가 낮아지는 문제가 있다. 일례로 아래 왼쪽 그림 처럼 같은 클래스인 말(horse) 들이 겹쳐져 있고, confidence 가 각 0.8 / 0.9 / 0.8 이 나왔을 때, 가운데 말만 남고 나머지 말의 detection 결과는 없어질 수 있다. 그래서 일정 비율 이..
2020.03.08
no image
[Object Detection] Deformable Convolutional Networks
Paper : https://arxiv.org/abs/1703.06211 Deformable Convolutional Networks Convolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in its building modules. In this work, we introduce two new modules to enhance the transformation modeling capacity of CNNs arxiv.org Project Page : https://github.com/msracver/Deformable-Co..
2020.03.08
no image
[Object Detection] EfficientNet and EfficientDet
1. EfficientNet : Improbing Accuracy and Efficiency through AutoML and Model Scaling 2. EfficientDet:Scalable and Efficient Object Detection 1. EfficientNet EfficientNet 은 위 그래프와 같이 압도적인 성능을 자랑한다. 위 그림 1에서도 알 수 있듯 EfficientNet-B7 이 GPipe 를 능가하였으며, 그럼에도 불구하고 파라미터의 사용량은 1/8 수준이다. 또한 실제 inference time 도 6배 빠르다고 한다. 이러한 성능이 가능했던 이유는 "compound cofficient" 를 사용하여 모든 차원의 깊이(depth) / 폭 (width) / 해상도(res..
2020.02.23