no image
[Paper Review] ECA-Net : Efficient Channel Attention for Deep Convolutional Neural Networks
Paper : https://arxiv.org/pdf/1910.03151.pdf Github : https://github.com/BangguWu/ECANet BangguWu/ECANet Code for ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks - BangguWu/ECANet github.com ECA-Net 은 기존에 알려져있는 SENet 보다 성능이 좋아서 Object Detection, Image Classification, Object Segmentation 분야에서 사용되고 있는 모델이다. 기존 일반적인 CNN 구조에서는 Local Receptive Field 만을 가지고 학습을 하기 때문에 전체적인 ..
2020.10.10
no image
[Paper Review] BAM(Bottleneck Attention Module), CBAM(Convolutional-BAM)
BAM 및 CBAM 개요 Self-Attention 의 대표적인 네트워크인 BAM(Bottleneck Attention Module) 및 CBAM(Convolutional-BAM) 모듈을 잠깐 설명하도록 하겠다. 일단 두 모듈 모두 3D Attention Map 을 Channel-wise / Spatial-wise 로 분해하여 계산한다. 연산 및 파라미터 오버헤드는 1~2% 수준으로 매우 미미한 편이라고 한다. 이 두 모듈 모두 아주 단순한 pooling 및 convolution 으로 이루어져있다. BAM (Bottleneck Attention Module) 위와 같이 BAM 은 각 네트워크의 bottleneck 에 위치하게 된다. 여기서의 bottleneck 은 spatial pooling 이 이루어지..
2020.10.10
no image
[Dataset] 이미지 인식에 유용한 데이터셋 정리 (2020.09.14)
[Object Detection] [Object Classfication] [Image Segmentation] - ADE20K ADE20K dataset Database --> Full Dataset Full-sized images and segmentations Scene Parsing Benchmark Scene parsing data and part segmentation data derived from ADE20K dataset could be download from MIT Scene Parsing Benchmark. Training set All images are fully annotated groups.csail.mit.edu [Scene Recognition] - IndoorCVPR09..
2020.09.14
no image
[Dataset] MCL DATASETFOR VIDEO SALIENCY DETECTION
Background Subtraction 시도할 때 사용할 좋은 데이터세트 같고, 데이터도 바로 다운로드 받을 수 있어서 접근성 좋다. This dataset is used in S.-H. Lee, J.-H. Kim, K. P. Choi, J.-Y. Sim, and C.-S. Kim, "Video saliency detection based on spatiotemporal feature learning," submitted to Proc. IEEE ICIP 2014. Video sequences have the resolution of 480 x 270 and consist of around 800 frames. The binary ground-truth maps are manually obtained ..
2020.09.11
no image
[Pose Estimation] OCHuman(Occluded Human) Dataset API
Github : https://github.com/liruilong940607/OCHumanApi liruilong940607/OCHumanApi API for the dataset proposed in "Pose2Seg: Detection Free Human Instance Segmentation" @ CVPR2019. - liruilong940607/OCHumanApi github.com Project Page : http://www.liruilong.cn/projects/pose2seg/index.html Pose2Seg Pose2Seg: Detection Free Human Instance Segmentation Song-Hai Zhang 1, 2 Ruilong Li (first student a..
2020.08.11
no image
[Paper Review] Generalized Focal Loss : Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
Li, Xiang, et al. "Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection." arXiv preprint arXiv:2006.04388 (2020). github : https://github.com/implus/GFocal implus/GFocal Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection - implus/GFocal github.com Abstract One-stage detector는 기본적으로 객체 탐지 문제를 dense c..
2020.07.20
no image
[Object Segmentation] ASPP : Atrous Spatial Pyramid Pooling
보통 객체 검출(Object Detection) 이나 객체 분류(Classification)은 객체의 존재 여부(Objectness)를 중요시 여기기 때문에 Object-centric 하며, 성능을 보장하기 위해서는 여러 단계의 Conv + Pooling 을 거쳐 영상 속에 존재 하지만 변화에는 영향을 덜 받는 강인한 특징만을 추출해야한다. 그렇기 때문에 객체 검출이나 분류 문제에서는 Detail 한 특징 보다는 Global 한 특징에 집중하는 것이 중요하다. 하지만, Object Segmenation 분야에서는 픽셀 단위의 조밀한 예측이 필요한데, 객체 분류를 위한 신경망을 사용하게 되면 계속 특징 맵의 크기가 줄어들기 때문에 Detail 한 특징 정보를 얻기 어려워진다. 그래서 이러한 Detail 을..
2020.07.19
no image
[Paper Review] FairMOT : A Simple Baseline for Multi-Object Tracking
Paper : https://arxiv.org/pdf/2004.01888v4.pdf Github : https://github.com/ifzhang/FairMOT ifzhang/FairMOT A simple baseline for one-shot multi-object tracking - ifzhang/FairMOT github.com 1. Introduction MOT(Multi-Object Tracking)는 컴퓨터 비전 분야에서 longstanding goal 이다. MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것이다. 객체의 궤적을 잘 추적하게 되면 Action Recognition, Sport Videos Analysis, Elderly Care, Human Comput..
2020.06.23
[Object Tracking] Two-Step MOT vs One-Shot MOT
Multiple Object Tracking : Two-Step Wojke, Nicolai, Alex Bewley, and Dietrich Paulus. "Simple online and realtime tracking with a deep association metric." 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. Yu, Fengwei, et al. "Poi: Multiple object tracking with high performance detection and appearance feature." European Conference on Computer Vision. Springer, Cham, 201..
2020.06.22
no image
[Deep Learning] 딥러닝에서 학습 시 학습률과 배치 크기 문제
학습률 (Learning Rate) 학습률은 아주 중요한 하이퍼파라미터이며, 일반적으로 최적의 학습률은 최대 학습률의 절반 정도라고 한다. 좋은 학습률을 찾는 한 가지 방법은 매우 낮은 학습률 (예를 들면 10^-5) 에서 시작해서 점진적으로 매우 큰 학습률 (예를 들면 10)까지 수백 번 반복하여 모델을 훈련하는 것이다. 반복마다 일정한 값을 학습률에 곱한다. 로그 스케일로 조정된 학습률을 사용하여 학습률에 대한 손실을 그래프로 그리면 처음에 손실이 줄어드는 것이 보인다. 하지만 잠시 후 학습률이 커지면 손실이 다시 커진다. 최적의 학습률은 손실이 다시 상승하는 지점보다 조금 아래에 있을 것이다. 일반적으로 상승점보다 약 10배 낮은 지점이라고 한다. 그 다음 모델을 다시 초기화하고 앞에서 찾은 학습률..
2020.06.22
no image
[Paper Review] CBAM : Convolutional Block Attention Module
CBAM 논문을 살펴보았다. 저자가 한국인이라서 그런지 몰라도 논문 이름부터 시작해서 논문이 잘 읽히는 편이었고, 이미 저자가 논문을 정리해 놓은 자료도 있어서 이해하기 수월했다. CBAM 논문은 BAM(Bottleneck Attention Module) 에 이어 나온 논문이다. 두 논문 모두 CNN의 성능 향상을 위한 Self-attention Module 을 제안하고 있다. 여기서는 CBAM 의 내용을 주로 다루기로 한다. CNN 계열에서 Attention 개념은 주로 Image Captuioning 처럼 multi-modal 간의 관계를 이용한 feature selection 에서 많이 사용되었다고 한다. Attention 이라는 것 자체가 어떠한 특성에 대하여 "집중"하는 것인데, Image Cl..
2020.06.07
no image
[Deep Learning] Activation Function : Swish vs Mish
활성화 함수(Activation Function)는 입력을 받아 활성, 비활성을 결정하는데 사용되는 함수이다. 어떤 활성화 함수를 사용하느냐에 따라 그 출력 값이 달라지기 때문에 적절한 활성화 함수를 사용하는 것이 매우 중요하다. 보통 어떠한 임계 값을 기준으로 활성화 되거나 혹은 비활성화 되는 형태를 가진다. 기존 활성화 함수들 Swish Swish 는 매우 깊은 신경망에서 ReLU 보다 높은 정확도를 달성한다고 한다. 또한 모든 배치 크기에 대해 Swish 는 ReLU 를 능가하며, 모든 x < 0 에 대해 함수를 감소시키거나 증가시키지 않는다고 한다. Mish 와 마찬가지로 bounded below, unbounded above 특징을 가진다. Mish Mish 는 그래프가 무한대로 뻗어나가기 때문..
2020.06.07