no image
[Action Recognition] Challenges
인간 행동 인식 분야에서 행동을 인식하는데 어려운 요인들은 다음과 같이 정리 할 수 있다. Intra- and inter-class Variations 사람들은 동일한 행동에 대해 다르게 행동함 예를 들어 “Running” 같은 의미론적 행동에 대해 어떤 사람은 빠르게 달리거나, 어떤 사람들은 느리게 달리거나, 점프하며 달릴 수 있음 즉, 하나의 행동 범주에는 다양한 스타일의 행동들이 포함될 수 있음 또한 동일한 행동을 다양한 시점에서 캡쳐 할 수 있음 (front, side, top, …) 이러한 appearance variation 으로 인하여 행동 인식이 힘듦 그리고 “Running” 및 “Walking” 은 유사한 동작 패턴을 내포하고 있으므로 이를 기계가 구별하기가 힘듦 Cluttered Bac..
2020.11.08
[Deep Learning] Pytorch 를 이용한 다양한 손실 함수 구현(Loss Function Implementation) 참고자료
딥러닝에서 사용되는 다양한 손실 함수를 구현해 놓은 좋은 Github 를 아래와 같이 소개한다. github.com/CoinCheung/pytorch-loss CoinCheung/pytorch-loss label-smooth, amsoftmax, focal-loss, triplet-loss. Maybe useful - CoinCheung/pytorch-loss github.com from pytorch_loss import SwishV1, SwishV2, SwishV3 from pytorch_loss import HSwishV1, HSwishV2, HSwishV3 from pytorch_loss import MishV1, MishV2, MishV3 from pytorch_loss import conver..
2020.11.02
no image
[Paper Review] DCNv2 : Deformable Convolutional Networks v2
기존 DCN(Deformable Convolutional Networks) 설명은 아래 포스팅을 참고하기 바란다. 2020/03/08 - [AI Research Topic/Object Detection] - [Object Detection] Deformable Convolutional Networks Github : github.com/CharlesShang/DCNv2 CharlesShang/DCNv2 Deformable Convolutional Networks v2 with Pytorch. Contribute to CharlesShang/DCNv2 development by creating an account on GitHub. github.com Paper : arxiv.org/pdf/1811.111..
2020.11.01
no image
[Paper Review] An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale
An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale 위 논문은 자연어 처리(NLP) 분야에서 널리 사용되는 Transformer 개념을 컴퓨터 비전 분야에 적용해본 논문이다. 먼저 자연어 처리 분야에서 Transformer 개념은 어떤 것인지 살펴보는게 좋을 것 같다. NLP 에서의 Transformer 자연어 처리 분야에서는 문장과 같은 연결성이 중요한 시퀀스 데이터에서 RNN 계열의 모델이 많이 사용되는데 이는 직전의 출력 결과를 입력으로 사용하여 재귀적으로 활용하게 된다. 하지만 이는 좀 더 멀리 떨어진 단어 보다는 무조건 가까운 단어가 연관성이 높게 나타난다는 단점이 있다. 이러한 문제를 Long-term Depe..
2020.11.01
no image
[Paper Review] ECA-Net : Efficient Channel Attention for Deep Convolutional Neural Networks
Paper : https://arxiv.org/pdf/1910.03151.pdf Github : https://github.com/BangguWu/ECANet BangguWu/ECANet Code for ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks - BangguWu/ECANet github.com ECA-Net 은 기존에 알려져있는 SENet 보다 성능이 좋아서 Object Detection, Image Classification, Object Segmentation 분야에서 사용되고 있는 모델이다. 기존 일반적인 CNN 구조에서는 Local Receptive Field 만을 가지고 학습을 하기 때문에 전체적인 ..
2020.10.10
no image
[Paper Review] BAM(Bottleneck Attention Module), CBAM(Convolutional-BAM)
BAM 및 CBAM 개요 Self-Attention 의 대표적인 네트워크인 BAM(Bottleneck Attention Module) 및 CBAM(Convolutional-BAM) 모듈을 잠깐 설명하도록 하겠다. 일단 두 모듈 모두 3D Attention Map 을 Channel-wise / Spatial-wise 로 분해하여 계산한다. 연산 및 파라미터 오버헤드는 1~2% 수준으로 매우 미미한 편이라고 한다. 이 두 모듈 모두 아주 단순한 pooling 및 convolution 으로 이루어져있다. BAM (Bottleneck Attention Module) 위와 같이 BAM 은 각 네트워크의 bottleneck 에 위치하게 된다. 여기서의 bottleneck 은 spatial pooling 이 이루어지..
2020.10.10
no image
[Dataset] 이미지 인식에 유용한 데이터셋 정리 (2020.09.14)
[Object Detection] [Object Classfication] [Image Segmentation] - ADE20K ADE20K dataset Database --> Full Dataset Full-sized images and segmentations Scene Parsing Benchmark Scene parsing data and part segmentation data derived from ADE20K dataset could be download from MIT Scene Parsing Benchmark. Training set All images are fully annotated groups.csail.mit.edu [Scene Recognition] - IndoorCVPR09..
2020.09.14
no image
[Dataset] MCL DATASETFOR VIDEO SALIENCY DETECTION
Background Subtraction 시도할 때 사용할 좋은 데이터세트 같고, 데이터도 바로 다운로드 받을 수 있어서 접근성 좋다. This dataset is used in S.-H. Lee, J.-H. Kim, K. P. Choi, J.-Y. Sim, and C.-S. Kim, "Video saliency detection based on spatiotemporal feature learning," submitted to Proc. IEEE ICIP 2014. Video sequences have the resolution of 480 x 270 and consist of around 800 frames. The binary ground-truth maps are manually obtained ..
2020.09.11
no image
[Pose Estimation] OCHuman(Occluded Human) Dataset API
Github : https://github.com/liruilong940607/OCHumanApi liruilong940607/OCHumanApi API for the dataset proposed in "Pose2Seg: Detection Free Human Instance Segmentation" @ CVPR2019. - liruilong940607/OCHumanApi github.com Project Page : http://www.liruilong.cn/projects/pose2seg/index.html Pose2Seg Pose2Seg: Detection Free Human Instance Segmentation Song-Hai Zhang 1, 2 Ruilong Li (first student a..
2020.08.11
no image
[Paper Review] Generalized Focal Loss : Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
Li, Xiang, et al. "Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection." arXiv preprint arXiv:2006.04388 (2020). github : https://github.com/implus/GFocal implus/GFocal Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection - implus/GFocal github.com Abstract One-stage detector는 기본적으로 객체 탐지 문제를 dense c..
2020.07.20
no image
[Object Segmentation] ASPP : Atrous Spatial Pyramid Pooling
보통 객체 검출(Object Detection) 이나 객체 분류(Classification)은 객체의 존재 여부(Objectness)를 중요시 여기기 때문에 Object-centric 하며, 성능을 보장하기 위해서는 여러 단계의 Conv + Pooling 을 거쳐 영상 속에 존재 하지만 변화에는 영향을 덜 받는 강인한 특징만을 추출해야한다. 그렇기 때문에 객체 검출이나 분류 문제에서는 Detail 한 특징 보다는 Global 한 특징에 집중하는 것이 중요하다. 하지만, Object Segmenation 분야에서는 픽셀 단위의 조밀한 예측이 필요한데, 객체 분류를 위한 신경망을 사용하게 되면 계속 특징 맵의 크기가 줄어들기 때문에 Detail 한 특징 정보를 얻기 어려워진다. 그래서 이러한 Detail 을..
2020.07.19
no image
[Paper Review] FairMOT : A Simple Baseline for Multi-Object Tracking
Paper : https://arxiv.org/pdf/2004.01888v4.pdf Github : https://github.com/ifzhang/FairMOT ifzhang/FairMOT A simple baseline for one-shot multi-object tracking - ifzhang/FairMOT github.com 1. Introduction MOT(Multi-Object Tracking)는 컴퓨터 비전 분야에서 longstanding goal 이다. MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것이다. 객체의 궤적을 잘 추적하게 되면 Action Recognition, Sport Videos Analysis, Elderly Care, Human Comput..
2020.06.23