본문 바로가기

AI Research Topic

(107)
[Pose Estimation] OCHuman(Occluded Human) Dataset API Github : https://github.com/liruilong940607/OCHumanApi liruilong940607/OCHumanApi API for the dataset proposed in "Pose2Seg: Detection Free Human Instance Segmentation" @ CVPR2019. - liruilong940607/OCHumanApi github.com Project Page : http://www.liruilong.cn/projects/pose2seg/index.html Pose2Seg Pose2Seg: Detection Free Human Instance Segmentation Song-Hai Zhang 1, 2 Ruilong Li (first student a..
[Deep Learning] Generalized Focal Loss Li, Xiang, et al. "Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection." arXiv preprint arXiv:2006.04388 (2020). github : https://github.com/implus/GFocal implus/GFocal Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection - implus/GFocal github.com Abstract One-stage detector는 기본적으로 객체 탐지 문제를 dense c..
[Object Segmentation] ASPP : Atrous Spatial Pyramid Pooling 보통 객체 검출(Object Detection) 이나 객체 분류(Classification)은 객체의 존재 여부(Objectness)를 중요시 여기기 때문에 Object-centric 하며, 성능을 보장하기 위해서는 여러 단계의 Conv + Pooling 을 거쳐 영상 속에 존재 하지만 변화에는 영향을 덜 받는 강인한 특징만을 추출해야한다. 그렇기 때문에 객체 검출이나 분류 문제에서는 Detail 한 특징 보다는 Global 한 특징에 집중하는 것이 중요하다. 하지만, Object Segmenation 분야에서는 픽셀 단위의 조밀한 예측이 필요한데, 객체 분류를 위한 신경망을 사용하게 되면 계속 특징 맵의 크기가 줄어들기 때문에 Detail 한 특징 정보를 얻기 어려워진다. 그래서 이러한 Detail 을..
[Object Tracking] FairMOT : A Simple Baseline for Multi-Object Tracking Paper : https://arxiv.org/pdf/2004.01888v4.pdf Github : https://github.com/ifzhang/FairMOT ifzhang/FairMOT A simple baseline for one-shot multi-object tracking - ifzhang/FairMOT github.com 1. Introduction MOT(Multi-Object Tracking)는 컴퓨터 비전 분야에서 longstanding goal 이다. MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것이다. 객체의 궤적을 잘 추적하게 되면 Action Recognition, Sport Videos Analysis, Elderly Care, Human Comput..
[Object Tracking] Two-Step MOT vs One-Shot MOT Multiple Object Tracking : Two-Step Wojke, Nicolai, Alex Bewley, and Dietrich Paulus. "Simple online and realtime tracking with a deep association metric." 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. Yu, Fengwei, et al. "Poi: Multiple object tracking with high performance detection and appearance feature." European Conference on Computer Vision. Springer, Cham, 201..
[Deep Learning] 딥러닝에서 학습 시 학습률과 배치 크기 문제 학습률 (Learning Rate) 학습률은 아주 중요한 하이퍼파라미터이며, 일반적으로 최적의 학습률은 최대 학습률의 절반 정도라고 한다. 좋은 학습률을 찾는 한 가지 방법은 매우 낮은 학습률 (예를 들면 10^-5) 에서 시작해서 점진적으로 매우 큰 학습률 (예를 들면 10)까지 수백 번 반복하여 모델을 훈련하는 것이다. 반복마다 일정한 값을 학습률에 곱한다. 로그 스케일로 조정된 학습률을 사용하여 학습률에 대한 손실을 그래프로 그리면 처음에 손실이 줄어드는 것이 보인다. 하지만 잠시 후 학습률이 커지면 손실이 다시 커진다. 최적의 학습률은 손실이 다시 상승하는 지점보다 조금 아래에 있을 것이다. 일반적으로 상승점보다 약 10배 낮은 지점이라고 한다. 그 다음 모델을 다시 초기화하고 앞에서 찾은 학습률..
[Deep Learning] CBAM : Convolutional Block Attention Module CBAM 논문을 살펴보았다. 저자가 한국인이라서 그런지 몰라도 논문 이름부터 시작해서 논문이 잘 읽히는 편이었고, 이미 저자가 논문을 정리해 놓은 자료도 있어서 이해하기 수월했다. CBAM 논문은 BAM(Bottleneck Attention Module) 에 이어 나온 논문이다. 두 논문 모두 CNN의 성능 향상을 위한 Self-attention Module 을 제안하고 있다. 여기서는 CBAM 의 내용을 주로 다루기로 한다. CNN 계열에서 Attention 개념은 주로 Image Captuioning 처럼 multi-modal 간의 관계를 이용한 feature selection 에서 많이 사용되었다고 한다. Attention 이라는 것 자체가 어떠한 특성에 대하여 "집중"하는 것인데, Image Cl..
[Deep Learning] Activation Function : Swish vs Mish 활성화 함수(Activation Function)는 입력을 받아 활성, 비활성을 결정하는데 사용되는 함수이다. 어떤 활성화 함수를 사용하느냐에 따라 그 출력 값이 달라지기 때문에 적절한 활성화 함수를 사용하는 것이 매우 중요하다. 보통 어떠한 임계 값을 기준으로 활성화 되거나 혹은 비활성화 되는 형태를 가진다. 기존 활성화 함수들 Swish Swish 는 매우 깊은 신경망에서 ReLU 보다 높은 정확도를 달성한다고 한다. 또한 모든 배치 크기에 대해 Swish 는 ReLU 를 능가하며, 모든 x < 0 에 대해 함수를 감소시키거나 증가시키지 않는다고 한다. Mish 와 마찬가지로 bounded below, unbounded above 특징을 가진다. Mish Mish 는 그래프가 무한대로 뻗어나가기 때문..
[Pose Estimation] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation 연구를 하다보면 좋아하는 저자가 한 두명씩 생기곤 하는데, 그 중 하나가 Facebook AI Research 에서 일하고 계신, OpenPose 저자인 Hanbyul Joo 님이다. 2D, 3D Human Pose Estimation 부터 Hand Keypoint Detection, 3D Deformation Model, Tracking 분야까지 다양한 연구를 하고 계신 분이다. 많은 연구들 중에서 최근에 나온 연구는 아래 논문이다. Joo, Hanbyul, Natalia Neverova, and Andrea Vedaldi, "Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation", arXiv..
[Deep Learning] MediaPipe MediaPipe Github : https://github.com/google/mediapipe google/mediapipe MediaPipe is the simplest way for researchers and developers to build world-class ML solutions and applications for mobile, edge, cloud and the web. - google/mediapipe github.com MediaPipe Document : https://mediapipe.readthedocs.io/en/latest/ MediaPipe — MediaPipe v0.5 documentation Alpha Disclaimer MediaPipe is currently i..