no image
[Pose Estimation] 자세를 분류하는 방법
아래 글은 Google 에서 나온 모바일용 ML Kit 의 한 부분인 자세 추정(Pose Estimation)을 이용하여 자세를 분류하는 방법에 관한 것이다. 자세를 분류하는 방법은 딥러닝을 이용하여 어떤 자세인지 분류하는 방법(e.g. CNN을 이용한 자세 분류)과 기계학습 알고리즘 중 하나인 SVM(Support Vector Machine)을 이용하여 자세를 분류하는 방법, 그리고 아래 Google에서 제시해 놓은 각도를 이용하여 자세를 분류하는 방법이 있다. 사실 필자가 생각하기에 가장 좋은 방법은 CNN을 이용하여 스켈레톤을 분류하거나, SVM으로 분류하는 것이 정확도 측면에서 좋다고 생각한다. 하지만 아래와 같이 간단하게 구현해 볼 수 있는 방법도 존재하기 때문에 이를 다뤄보고자 한다. 구글에서..
2021.03.01
no image
[Pose Estimation] 3D human pose estimation in video with temporal convolutions and semi-supervised training
이 논문은 Facebook AI Research 에서 나온 논문이며, CVPR 2019에 채택되었다. 3D Human Pose Estimation 분야를 찾아보다가 알게된 논문인데, 현존하는 SOTA 2D Pose Estimation 방법들과 잘 결합하면 비디오 환경에서 좋은 결과를 얻을 수 있을 것으로 예상된다. 관건은 정확도 높은 2D Pose Estimation 이다. 위 gif 들은 아마 2D Pose GT를 이용했기 때문에 3D Pose 가 매우 자연스러워 보인다. Paper : arxiv.org/pdf/1811.11742.pdf Github : github.com/facebookresearch/VideoPose3D facebookresearch/VideoPose3D Efficient 3D hu..
2020.12.21
no image
[Deep Learning] Weight Standardization (+ 2D, 3D 구현 방법)
Weight Standardization Paper : arxiv.org/abs/1903.10520 Micro-Batch Training with Batch-Channel Normalization and Weight Standardization Batch Normalization (BN) has become an out-of-box technique to improve deep network training. However, its effectiveness is limited for micro-batch training, i.e., each GPU typically has only 1-2 images for training, which is inevitable for many computer v arxi..
2020.12.20
no image
[Stereo Vision] 카메라 캘리브레이션의 내부 및 외부 매개변수(intrinsic, extrinsic parameters)
카메라 캘리브레이션(Camera Calibration)이란? 실 세계는 3차원으로 이루어져있지만 이를 카메라로 촬영하게 되면 2차원 이미지로 투영된다. 이 때 실제 3차원 위치 좌표는 이미지 상에서 어디에 위치하는지 기하학적으로 계산할 때 영상을 찍을 당시의 카메라 위치 및 방향에 의해 결정된다. 하지만 실제 이미지는 사용된 렌즈, 대상과의 거리 등의 내부 요인에 영향을 받기 때문에 3차원 위치 좌표는 영상에 투영된 위치를 구하거나 역으로 영상 좌표로부터 3차원 공간좌표를 복원할 때 이러한 내부 요인을 제거해야 정확한 계산이 가능해진다. 이러한 내부 요인의 파라미터 값을 구하는 과정을 카메라 캘리브레이션이라고 한다. 즉, 사진이나 비디오를 촬영하는 실제 카메라 모델을 단순화 시킨 핀홀(Pinhole) 카..
2020.12.18
no image
[Pose Estimation] 자세 추정 결과를 정제 하는 방법 (PoseFix : Model-agnostic General Human Pose Refinement Network)
본 포스팅은 아래 유튜브를 보다가 Pose Refinement 와 관련된 논문을 알게 되어 자세 추정 결과를 정제하는 방법에 대해 정리해본다. 논문은 참고로 서울대 문경식님의 논문이다. Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Posefix: Model-agnostic general human pose refinement network." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. 나중에 적용해봐야겠따. 또한 참고로 유튜브 링크는 아래와 같으며, Human Pose Estimation 을 처음 접하는 사람들에게 도움이 될만한 좋은 자료이다. [A..
2020.12.06
no image
[Pose Estimation] EfficientPose : Scalable single-person pose estimation
Groos, Daniel, Heri Ramampiaro, and Espen Ihlen. "EfficientPose: Scalable single-person pose estimation." arXiv preprint arXiv:2004.12186 (2020). Paper : arxiv.org/abs/2004.12186 EfficientPose: Scalable single-person pose estimation Human pose estimation facilitates markerless movement analysis in sports, as well as in clinical applications. Still, state-of-the-art models for human pose estimati..
2020.11.22
no image
[Paper Review] Toward fast and accurate human pose estimation via soft-gated skip connections
Bulat, Adrian, et al. "Toward fast and accurate human pose estimation via soft-gated skip connections." arXiv preprint arXiv:2002.11098 (2020). Paper : arxiv.org/abs/2002.11098 Toward fast and accurate human pose estimation via soft-gated skip connections This paper is on highly accurate and highly efficient human pose estimation. Recent works based on Fully Convolutional Networks (FCNs) have de..
2020.11.22
no image
[Image Processing] 구조적 요소(Structuring Element) 및 팽창, 침식, 닫힘, 열림 연산
수학적 형태학이란? 수학적 형태학(Mathematical Morphology, MM)은 집합론, 격자론, 위상수학 그리고 무작위 함수에 기반한 기하학적 구조를 분석하고 처리하는 이술과 기론이다. 이는 대부분 디지털 이미지에 적용되지만, 그래프, 폴리곤 메시, 솔리드, 그리고 많은 공간 구조에도 적용할 수 있다. 크기, 모양, 블록성, 연결성 그리고 지오데식 거리 같은 위상수학적 그리고 기하학적 연속 공간 개념은 MM에 의해서 연속 공간과 이산 공간 모두에서 소개되었다. 또한 이미지를 위의 특성화에 따르도록 이미지를 변환하는 연산의 집합으로 이루어진 형태학적 디지털 화상 처리의 근본이다. 구조적 요소란? 구조적 요소란 원본 이미지에 적용되는 커널(Kernel)이라고 할 수 있는데, 수학적 형태학에서 구조적..
2020.11.14
no image
[Action Recognition] Challenges
인간 행동 인식 분야에서 행동을 인식하는데 어려운 요인들은 다음과 같이 정리 할 수 있다. Intra- and inter-class Variations 사람들은 동일한 행동에 대해 다르게 행동함 예를 들어 “Running” 같은 의미론적 행동에 대해 어떤 사람은 빠르게 달리거나, 어떤 사람들은 느리게 달리거나, 점프하며 달릴 수 있음 즉, 하나의 행동 범주에는 다양한 스타일의 행동들이 포함될 수 있음 또한 동일한 행동을 다양한 시점에서 캡쳐 할 수 있음 (front, side, top, …) 이러한 appearance variation 으로 인하여 행동 인식이 힘듦 그리고 “Running” 및 “Walking” 은 유사한 동작 패턴을 내포하고 있으므로 이를 기계가 구별하기가 힘듦 Cluttered Bac..
2020.11.08
[Deep Learning] Pytorch 를 이용한 다양한 손실 함수 구현(Loss Function Implementation) 참고자료
딥러닝에서 사용되는 다양한 손실 함수를 구현해 놓은 좋은 Github 를 아래와 같이 소개한다. github.com/CoinCheung/pytorch-loss CoinCheung/pytorch-loss label-smooth, amsoftmax, focal-loss, triplet-loss. Maybe useful - CoinCheung/pytorch-loss github.com from pytorch_loss import SwishV1, SwishV2, SwishV3 from pytorch_loss import HSwishV1, HSwishV2, HSwishV3 from pytorch_loss import MishV1, MishV2, MishV3 from pytorch_loss import conver..
2020.11.02
no image
[Paper Review] DCNv2 : Deformable Convolutional Networks v2
기존 DCN(Deformable Convolutional Networks) 설명은 아래 포스팅을 참고하기 바란다. 2020/03/08 - [AI Research Topic/Object Detection] - [Object Detection] Deformable Convolutional Networks Github : github.com/CharlesShang/DCNv2 CharlesShang/DCNv2 Deformable Convolutional Networks v2 with Pytorch. Contribute to CharlesShang/DCNv2 development by creating an account on GitHub. github.com Paper : arxiv.org/pdf/1811.111..
2020.11.01
no image
[Paper Review] An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale
An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale 위 논문은 자연어 처리(NLP) 분야에서 널리 사용되는 Transformer 개념을 컴퓨터 비전 분야에 적용해본 논문이다. 먼저 자연어 처리 분야에서 Transformer 개념은 어떤 것인지 살펴보는게 좋을 것 같다. NLP 에서의 Transformer 자연어 처리 분야에서는 문장과 같은 연결성이 중요한 시퀀스 데이터에서 RNN 계열의 모델이 많이 사용되는데 이는 직전의 출력 결과를 입력으로 사용하여 재귀적으로 활용하게 된다. 하지만 이는 좀 더 멀리 떨어진 단어 보다는 무조건 가까운 단어가 연관성이 높게 나타난다는 단점이 있다. 이러한 문제를 Long-term Depe..
2020.11.01