no image
[Paper Review] FasterPose, A Faster Simple Baseline for Human Pose Estimation
Paper : https://arxiv.org/abs/2107.03215 FasterPose: A Faster Simple Baseline for Human Pose Estimation The performance of human pose estimation depends on the spatial accuracy of keypoint localization. Most existing methods pursue the spatial accuracy through learning the high-resolution (HR) representation from input images. By the experimental analysis, w arxiv.org 2021년 7월에 아카이브에서 공개된 Faster..
2022.07.18
no image
[Paper Review] CPN, Cascaded Pyramid Network for Multi-Person Pose Estimation
오늘은 Pose Estimation 분야에서 CPN으로 유명한 Casecaded Pyramid Network 논문을 빠르게 훑어보도록 하겠습니다. 이 논문에서는 여러가지 복합적인 요인(Occlusion, Background, ...)에 의하여 검출하기 어려운 키포인트들을 잘 검출하기 위해 CPN이라는 구조를 제안했습니다. 크게 아래 그림과 같이 GlobalNet과 RefineNet으로 구성되어있습니다. 이름에서도 알 수 있듯이 GlobalNet에서는 feature pyramid network 기반으로 global feature를 추출하여 localization하는 방식이며, RefineNet은 GlobalNet에서 localization 하지 못한 hard keypoint를 hard keypoint mi..
2022.07.18
no image
[Paper Review] SmoothNet, A Plug-and-Play Network for Refining Human Poses in Videos
이번에 읽을 논문은 ECCV 2022에서 발표 예정인 SmoothNet 이라는 논문 입니다. 제가 개인적으로 Plug-and-Play Network를 굉장히 좋아합니다 ㅎㅎㅎㅎ 제목부터 마음에 드네요. Abstract 내용을 간단히 소개하자면 human motion video 환경에서 기존 pose estimation 방식들의 output jitter들은 프레임 전반에 걸쳐 다양한 estimation error를 발생시키는데, 거의 보이지 않거나 가려진 동작의 경우 여러 관절의 추정 위치가 연속 프레임 시퀀스에 대한 실제 값에서 크게 벗어나 significant jitter들을 발생시키게 됩니다. 이러한 문제를 해결하기 위해 SmoothNet을 제안했습니다. 본 논문에서는 jitter를 완화하기 위해 기..
2022.07.15
no image
[Pose Estimation] waterfall module 기반으로 설계된 자세 추정 방법들 (UniPose, UniPose+, OmniPose, BAPose)
waterfall module 즉 WASP(Waterfall Atrous Spatial Pyramid)는 위 그림과 같은 구성으로 되어있으며 원래 semantic segmentation을 위해 multiscale fields-of-view(FOV)를 유지하면서 cascade architecture에서 progressive filtering을 활용하는 “Waterfall” Atrous Spatial Pooling 기반 방식으로 이루어진 모듈이다. 이와 같은 module로 설계된 자세 추정 방법들은 아래와 같다. 1. UniPose, Unified Human Pose Estimation in Single Images and Videos (CVPR 2020) WASP module (w/ a cascade of..
2022.04.20
no image
[Paper Review] UniPose, Unified Human Pose Estimation in Single Images and Videos
“Waterfall” Atrous Spatial Pooling architecture를 기반으로 인간의 자세를 추정하는 UniPose를 소개합니다. 참고로 Waterfall Atrous Spatial Pooling 방법은 semantic segmentation을 위해 multiscale fields-of-view를 유지하면서 cascade architecture에서 progressive filtering을 활용하는 module 입니다. 본 논문에서는 contextual segmentation 및 joint localization을 통합하여 statistical postprocessing 방법에 의존하지 않고 single stage 에서 인간의 자세를 높은 정확도로 추정한다고 합니다! 이러한 방법은 mul..
2022.04.20
no image
[Pose Estimation] Google Research의 MoveNet API
Google Research에서 TensorFlow.js 로 경량화된 자세 추정 모델인 MoveNet의 API를 공개하였습니다. 랩탑 환경에서도 30FPS 이상 달성한다고 합니다. 참고로 이를 기반으로 홈트레이닝 분야에 적용을 한 국내 논문 "딥러닝 기반 영상처리 기법 및 표준 운동 프로그램을 활용한 비대면 온라인 홈트레이닝 어플리케이션 연구"도 있네요. MoveNet은 17개의 keypoint를 감지하는 모델이며, 정확도에 초점을 맞춘 Thunder 버전과 속도에 초점을 맞춘 Lightning 버전을 제공하고 있습니다. 또한 JS 모델과 TF모델 및 TFLite모델(+ float16, int8)들을 제공하고 있습니다. 서버 호출 없이도 TensorFlow.js를 사용하는 브라우저에서 모델을 실행할 수 ..
2022.02.24
no image
[Paper Review] Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression
Paper : https://arxiv.org/pdf/2104.02300.pdf Github : https://github.com/HRNet/DEKR HRNet/DEKR This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression" (https://arxiv.org/abs/2104.02300) - HRNet/DEKR github.com 오랜만에 읽고싶은 논문이 생겨서 이렇게 리뷰를 작성해본다. 논문은 그동안 가끔 읽었었는데 정리를 하는건 엄청 오랜만이라, pose estimation 카테고리에 쓸지, paper review 카테고리에서 쓸..
2021.06.23
no image
[Pose Estimation] NVIDIA TLT의 BodyPoseNet
NVIDIA Transfer Learning Toolkit(이하 TLT)에서 "BodyPoseNet" 과 함께 COCO 데이터를 사용하여 2D Pose Estimation 모델을 학습하고 INT8 등으로 최적화하는 방법에 대해 다루었다. 이는 기존 오픈 소스인 OpenPose 보다 AP가 8% 정도 떨어지지만 속도면에서는 아주 월등히 우수함을 보여준다. NVIDIA TLT에서 제공하는 BodyPoseNet은 VGG와 같은 백본 네트워크를 이용하여 confidence map 및 PAF를 이용하여 픽셀 단위 예측을 수행한 후 multi stage refinement (0 ~ N stages)로 구성된 구조를 사용하는 fully connected convolution 모델이며, 18개의 키포인트들을 예측한다...
2021.06.21
no image
[Action Recognition] ActionAI
ActionAI는 YogAI(Smart Personal Trainer)를 위한 딥러닝 학습 기반 Python Library 이다. 요가 동작을 히트맵으로 거울에 표시하였다. 맨 아래 참고자료에 링크를 넣어두었는데, 요가 동작 인식하는 방법을 굉장히 자세하게 써놓았다. 나중에 시간될 때 따라서 만들어보면 좋을 것 같다. 아래와 같이 유투브 크롤링을 이용하여 비디오 데이터를 수집하고, 이미지를 추출하였다고 한다. (정제는 수동으로 한듯) #!/usr/bin/env python import os import sys import requests from bs4 import BeautifulSoup as bs from urllib.parse import urlencode from pytube import YouT..
2021.03.16
no image
[Action Recognition] 싸움 탐지(Fight Detection = 2D Pose Estimation + RNN Action Recognition)
위 Github에 나와있는 프로젝트는 2차원 인간 자세 추정(OpenPose)과 RNN 기반 행동 인식 기술을 이용하여 싸움을 감지한 프로젝트이다. 이 때 SORT 알고리즘을 이용하여 Tracking ID를 생성하여 개인별로 시계열 데이터(time series data)를 얻어와서 Queue Container에 의해 32 frame 씩 처리한다. RNN에 넣을 때 Feature 로는 Angle, ΔAngle, ΔPoint 를 사용한다. 그리고 주요 키포인트들만 입력으로 사용한다. (눈코입 제외) 그리고 동작 방식은 클라우드 컴퓨팅에서 Darknet 을 사용하기 위해 Darknet Server 를 구축하고, 비디오 또는 웹캠 스트림을 서버로 보내고 서버에서 실시간으로 결과를 얻어오는 형태로 동작한다. 서버..
2021.03.16
no image
[Pose Estimation] 자세를 분류하는 방법
아래 글은 Google 에서 나온 모바일용 ML Kit 의 한 부분인 자세 추정(Pose Estimation)을 이용하여 자세를 분류하는 방법에 관한 것이다. 자세를 분류하는 방법은 딥러닝을 이용하여 어떤 자세인지 분류하는 방법(e.g. CNN을 이용한 자세 분류)과 기계학습 알고리즘 중 하나인 SVM(Support Vector Machine)을 이용하여 자세를 분류하는 방법, 그리고 아래 Google에서 제시해 놓은 각도를 이용하여 자세를 분류하는 방법이 있다. 사실 필자가 생각하기에 가장 좋은 방법은 CNN을 이용하여 스켈레톤을 분류하거나, SVM으로 분류하는 것이 정확도 측면에서 좋다고 생각한다. 하지만 아래와 같이 간단하게 구현해 볼 수 있는 방법도 존재하기 때문에 이를 다뤄보고자 한다. 구글에서..
2021.03.01
no image
[Pose Estimation] 3D human pose estimation in video with temporal convolutions and semi-supervised training
이 논문은 Facebook AI Research 에서 나온 논문이며, CVPR 2019에 채택되었다. 3D Human Pose Estimation 분야를 찾아보다가 알게된 논문인데, 현존하는 SOTA 2D Pose Estimation 방법들과 잘 결합하면 비디오 환경에서 좋은 결과를 얻을 수 있을 것으로 예상된다. 관건은 정확도 높은 2D Pose Estimation 이다. 위 gif 들은 아마 2D Pose GT를 이용했기 때문에 3D Pose 가 매우 자연스러워 보인다. Paper : arxiv.org/pdf/1811.11742.pdf Github : github.com/facebookresearch/VideoPose3D facebookresearch/VideoPose3D Efficient 3D hu..
2020.12.21