728x90
반응형

 

 

단일 이미지에서 3차원으로 사람의 자세를 재구성(Reconstruction) 하는 방법은 깊이(Depth) 정보를 고유하게 복구 시킬 수 없다는 문제를 가진다. 이러한 깊이 모호성(Depth ambiguity)을 극복하기 위하여 사전에 정의된 body shape 과 pose 정보들을 이용해야한다.

 

최적화(Optimization)기반 방법들은 SMPL(Skinned Multi-Person Linear model) 및 SCAPE(Shape Completion and Animation of People) 와 같은 3차원 바디 모델을 assume 하고 최적화 알고리즘을 사용하여 2차원 자세들을 맞춘다.  

 

SMPL MODEL

 

SCAPE MODEL

 

초기 접근 방식에는 수동으로 입력을 주었지만, SMPLify 연구 부터 프로세스가 완전히 자동화 된 다음, "Unite the People: Closing the Loop Between 3D and 2D Human Representations" 논문에서 실루엣 주석(Silhouette annotation)을 사용하여 성능이 개선되었으며, 결국에는 multiple view 와 multiple people 로 확장되었다. 

 

SMPLify

http://files.is.tue.mpg.de/black/papers/BogoECCV2016.pdf

 

"Unite the People: Closing the Loop Between 3D and 2D Human Representations"

 https://arxiv.org/pdf/1701.02468.pdf

 

" Unite the People: Closing the Loop Between 3D and 2D Human Representations"

 

 

반면에 회귀(Regression) 기반 방법은 3차원 자세를 직접 예측한다.

 

일례로 꽤 유명한 "Reconstructing 3D Human Pose from 2D Image Landmarks" 논문이 있다. 이는 다루기에는 쉽지만, 다소 weak pose prior 를 사용한다.

 

"Reconstructing 3D Human Pose from 2D Image Landmarks"
https://www.ri.cmu.edu/pub_files/2012/10/cameraAndPoseCameraReady.pdf

 

이후의 접근 방식은 심층 신경망을 대신 사용하여 3차원 자세를 추정하는데, 어떤 연구에서는 사전에 탐지된 2차원 스켈레톤을 입력으로 이용하거나, 다른 연구에서는 raw image 를 입력으로 사용한다. 

 

2차원 스켈레톤을 사용하면 기본 2차원 키포인트 검출기 품질에 의존적이고, 이미지에 3차원 모델을 맞추는데 도움이 되는 appearance detail 이 삭제된다. raw image 를 사용하면 apperance detail 정보를 사용할 수 있지만, 시중에 나와있는 3차원 자세 데이터는 실내 데이터로 국한되어 있으므로 이 데이터를 이용하여 학습하게 되면 제한적인 자세들로 일반화 되는 문제점이 잔존한다...

 

 

 

 

 

 

 

 

 

 

 

 

참고자료 1 : https://smpl.is.tue.mpg.de/

 

SMPL

 

smpl.is.tue.mpg.de

참고자료 2 : http://robots.stanford.edu/papers/anguelov.shapecomp.pdf

 

참고자료 3 : https://arxiv.org/pdf/2004.03686.pdf

 

 

728x90
반응형