[Pose Estimation] 단일 이미지에서 3차원 자세를 추정하는 방법 및 문제점
단일 이미지에서 3차원으로 사람의 자세를 재구성(Reconstruction) 하는 방법은 깊이(Depth) 정보를 고유하게 복구 시킬 수 없다는 문제를 가진다. 이러한 깊이 모호성(Depth ambiguity)을 극복하기 위하여 사전에 정의된 body shape 과 pose 정보들을 이용해야한다.
최적화(Optimization)기반 방법들은 SMPL(Skinned Multi-Person Linear model) 및 SCAPE(Shape Completion and Animation of People) 와 같은 3차원 바디 모델을 assume 하고 최적화 알고리즘을 사용하여 2차원 자세들을 맞춘다.
초기 접근 방식에는 수동으로 입력을 주었지만, SMPLify 연구 부터 프로세스가 완전히 자동화 된 다음, "Unite the People: Closing the Loop Between 3D and 2D Human Representations" 논문에서 실루엣 주석(Silhouette annotation)을 사용하여 성능이 개선되었으며, 결국에는 multiple view 와 multiple people 로 확장되었다.
SMPLify
http://files.is.tue.mpg.de/black/papers/BogoECCV2016.pdf
"Unite the People: Closing the Loop Between 3D and 2D Human Representations"
https://arxiv.org/pdf/1701.02468.pdf
반면에 회귀(Regression) 기반 방법은 3차원 자세를 직접 예측한다.
일례로 꽤 유명한 "Reconstructing 3D Human Pose from 2D Image Landmarks" 논문이 있다. 이는 다루기에는 쉽지만, 다소 weak pose prior 를 사용한다.
"Reconstructing 3D Human Pose from 2D Image Landmarks"
https://www.ri.cmu.edu/pub_files/2012/10/cameraAndPoseCameraReady.pdf
이후의 접근 방식은 심층 신경망을 대신 사용하여 3차원 자세를 추정하는데, 어떤 연구에서는 사전에 탐지된 2차원 스켈레톤을 입력으로 이용하거나, 다른 연구에서는 raw image 를 입력으로 사용한다.
2차원 스켈레톤을 사용하면 기본 2차원 키포인트 검출기 품질에 의존적이고, 이미지에 3차원 모델을 맞추는데 도움이 되는 appearance detail 이 삭제된다. raw image 를 사용하면 apperance detail 정보를 사용할 수 있지만, 시중에 나와있는 3차원 자세 데이터는 실내 데이터로 국한되어 있으므로 이 데이터를 이용하여 학습하게 되면 제한적인 자세들로 일반화 되는 문제점이 잔존한다...
참고자료 1 : https://smpl.is.tue.mpg.de/
참고자료 2 : http://robots.stanford.edu/papers/anguelov.shapecomp.pdf
참고자료 3 : https://arxiv.org/pdf/2004.03686.pdf
'AI Research Topic > Human Pose Estimation' 카테고리의 다른 글
[Paper Review] Toward fast and accurate human pose estimation via soft-gated skip connections (2) | 2020.11.22 |
---|---|
[Pose Estimation] OCHuman(Occluded Human) Dataset API (3) | 2020.08.11 |
[Pose Estimation] COCO dataset 을 이용한 자세 추정 결과 (0) | 2019.09.17 |
[Pose Estimation] COCO Dataset Annotation Tool (4) | 2019.08.28 |
[Pose Estimation] Through-Wall Human Pose Estimation Using Radio Signals (0) | 2019.08.19 |