[Paper Review] Recovering 3D Human Mesh from Monocular Images : A Survey
Paper : https://arxiv.org/abs/2203.01923
Project : https://github.com/tinatiansjz/hmr-survey
오늘 소개드릴 논문은 Recovering 3D Human Mesh from Monocular Images: A Survey 라는 논문이며, 2022년 3월에 공개되었네요. Monocular Image 기반으로 사람의 3D Mesh를 복원하는 방법들을 소개한 서베이 논문입니다. 😃 궁금한 연구 분야의 흐름을 싹 파악하고 싶을 때는 서베이 논문을 찾아보는게 국룰인 듯 합니다. 그 분야에서 주로 사용하는 키워드도 얻을 수 있구요. 이번에는 키워드나 전체적인 흐름을 읽기 위해 간략히만 살펴보았습니다. 기회가 된다면 더 자세히 보고나서 내용을 추가할 예정입니다.
참고로 Monocular Image는 단안 이미지입니다. 반대는 Binocular Image = 양안 이미지입니다.
또 다른 관점에서는 Multi-frame images가 될 수도 있겠네요.
본 논문의 abstract에 의하면, monocular images에서 사람의 pose와 shape을 추정하는 것은 비전 분야의 오래된 문제인데요, statistical body model이 등장한 이후로 3d human mesh recovery 분야는 더 많은 관심을 받고 있다고 합니다. 3d human mesh를 복원하는 것은 well-aligned and 그럴싸한 mesh 결과를 얻는 것이 목표이며, 기존 2d-to-3d lifting process의 문제를 극복하기 위해 두 가지 패러다임이 개발되었다고 합니다.
1. optimization-based paradigm : different data / regularization terms를 optimization objectives로 활용
2. a regression-based paradigm : 딥러닝 기술을 이용하여 end-to-end 방식으로 문제를 해결
또한 대규모 데이터세트에 대한 3d mesh label 품질을 개선하기 위한 지속적인 노력중이며, 지난 10년 동안 연구 분야가 많이 발전하였지만, flexible body motion, diverse apperances, domplex environments, insufficinet in-the-wild annotations 등으로 인해 이러한 작업들은 여전히 어려운 일로 남아있습니다.
본 논문은 monocular 3D human mesh recovery에 대한 첫 서베이 논문이며, body models들을 소개하고, 강약점에 대한 분석을 제공함으로써 recovery frameworks와 training objectives를 정교화합니다. 또한 데이터베이스, 평가 지표 및 벤치마크 결과를 요약하고, 향후 방향에 대해 논의하게 됩니다.
아래 그림은 주로 사용되었던 전형적인 2d, 3d body model 이며, 처음부터 차례대로 2d skeletons, cylindrical body model, SMPL, SMPL-X입니다.
현재에는 SMPL-X 이후에도 GHUM, STAR 등의 모델들이 등장했네요. 이러한 신체 모델은 모양과 포즈의 가변성을 담고잇지만 옷이나 머리카락은 고려하지 않습니다.
regression 기반의 human mesh recovery 방법들은 아래와 같은 stage들로 이루어져있습니다. human mesh recovery 분야에 대한 접근법을 regression 방법에 한해서는 한눈에 파악하기 좋은 것 같습니다. regression 기반 방법은 딥러닝 기술을 활용하여 픽셀을 직접 처리합니다. 출력은 parametric outputs과 non-parametric outputs로 나뉜다고 합니다. 대부분의 image-based human mesh recovery 방법은 parametric model의 parameter들을 directly regress하도록 선택합니다. 또한 "model-based" 접근 방식으로 분류됩니다. 이 표현은 매우 추상적이고 latent space에 포함되어 있기 때문에 네트워크는 특정 포즈와 모양을 가진 body에 해당하는 low-dimensional vector만 출력하면 된다고 합니다.
또한 regression network에 다양한 intermediate representation들이 있습니다. raw RGB image를 3D pose로 directly lifting 하는 대신 많은 접근 방식이 네트워크 아키텍처에 intermediate representation을 도입합니다. intermediate representation은 일반적인 generic human analysis ConvNet의 출력입니다. intermediate stage에 2D/3D 단서를 포함하므로써 얻을 수 있는 이점은“simplification” 및 “guidance”라고 할 수있습니다. intermediate representation은 RGB 입력에 대한 simplification로 볼 수 있으며 기존 RGB 이미지에서 갖고 있었던 illumination, clothing, or background clutter 들을 무시해줍니다.
Intermediate estimates는 RGB 이미지를 대신하여 regression 네트워크에 대한 실제 입력이 됩니다. silhouettes , segmentations, 2D heatmaps, 2D keypoint coordinates, optical flow, IUV, 3D keypoint coordinates, and surface markers 같은 것들을 “proxy representation”이라고도 부릅니다.
proxy representation의 도입은 데이터 부족(data scarcity)을 극복하는 데 분명히 기여한다고 하네요!
그리고 Network Architecture는 encoder-decoder paradigm을 따릅니다. encoder는 입력 이미지의 특징을 추출하는 convolutional backbone인 반면 decoder, or regressor는 이미지 특징을 입력으로 취하고 regressed results를 출력합니다. 따라서 입력 값에서 더 많은 정보를 포착하고 성능을 향상시키기 위해 적절하게 분석하기 위해 강력한 encoder와 효율적인 decoder를 설계해야합니다. Network Architecture는 다음과 같이 구분됩니다.
- One-stage frameworks
- single path의 RGB 이미지에서 pose and shape을 예측. intermediate representation 없음.
- Multi-stage frameworks
- estimation 을 일련의 sub-task으로 나눈 다음 intermediate cues를 활용하여 3D output을 생성
- Multi-branch frameworks
- pose and shape을 개별적으로 예측하거나 feature가 얽힌 후(disentanglement) 서로 다른 분기에서 각 body part를 독립적으로 예측
위 내용을 요약한 표는 아래와 같습니다.
아래는 더 나이스한 alignment 와 physical plausibility을 위한 optimization/regression objective를 요약해두었네요.
아래 표는데이터세트를 요약해두었습니다.
아래 표는 3DPW 및 Human3.6M 데이터세트를 사용해서 3D body mesh recovery 모델 마다 평가 결과를 MPJPE, PA-MPJPE, PVE로 나타낸 결과입니다. 논문의 흐름을 파악하기 좋은 듯 합니다. 😀 평가 기준이 논문마다 달라서 완벽히 일치하진 않네요. 그리고 이러한 결과 값들은 당연하겠지만 backbones, output types, pseudo labels, datasets, training strategy, and evaluation protocols의 다양한 조합으로 인해 값이 변동될 수 있습니다.
각 평가 지표 정보는 아래와 같습니다.
MPJPE.
Mean Per Joint Position Error (관절당 평균 위치 오차)는 root matching 후 예측된 3D joints와 ground truth 사이의 average Euclidean distance를 측정합니다. camera space(카메라 공간)에서 정의됩니다. 최근 SPEC 논문에 소개된 방법에서는 world coordinates에서 3D를 계산하는 W-MPJPE를 도입했습니다.
PA-MPJPE.
Procrustes-aligned MPJPE는 예측된 포즈와 ground truth의 rigid alignment 후 MPJPE를 나타냅니다. Procrustes Analysis는 변환, 회전 및 크기 조정의 효과를 제거합니다.
PVE/V2V.
Mean Per-vertex Error(vertices당 평균 오차) 또는 Vertex-to-Vertex은 예측된 mesh vertices과 ground truth mesh vertices 사이의 average point-to-point Euclidean distance로 정의됩니다. MPJPEC와 유사하게 PVE의 변형인 W-PVE가 world space에서 계산되기 위해 제안되었습니다.
MPJAE.
Mean Per Joint Angle Error(관절당 평균 각도 오차)는 geodesic distance를 사용하여 SO(3)에서 측정된 예측된 3D joints와 ground truth 사이의 orientation deviation를 나타냅니다.
PA-MPJAE.
Procrustes-aligned MPJAE는 Procrustes Analysis를 실행하여 예측된 pose를 ground truth와 정렬한 후 MPJAE에 따라 계산합니다.
결론적으로 아래와 같은 문제점을 해결하고, 각 문제점 마다 해결해야하는 방향을 제시하고 있습니다.
Under Heavy Occlusions
실제 시나리오에서 Occlusion은 어디에나 있습니다. 사람들은 종종 self-overlapping, 다른 사람과의 close-range interaction 또는 scene object의 폐색으로 인해 부분적으로 또는 심하게 폐색된 것처럼 보입니다. 교합이 수년간 광범위하게 연구되었지만 robustness and stability 은 여전히 개선되어야 합니다. 게다가, visual evidence는 3D reconstruction을 고유하게 식별하기에는 불충분할 수 있고, several plausible reconstruction 또는 하나의 입력에 대한 pose distribution를 recover 하는 것은 가치가 있습니다.
Stable Reconstruction from Videos
Motion jitter, 즉 불규칙한 움직임과 프레임 간 변화는 기존 regression-based temporal-based methods에서 심각한 문제로 남아 있습니다. visual performance은 모션 지터의 영향을 크게 받습니다.
body 의 많은 부분을 관찰할 수 있는 경우 jitter가 경미한 반면 Occlusion이 심한 프레임이나 complex context에서는 심각한 jitter가 발생합니다. temporal smoothness을 개선하기 위해서는 long-term motion jitters를 처리해야 합니다. low-pass filters 또는 learning-based refinement networks를 사용하여 1차 추정 후 pose refinement를 수행하기도 한다고 하네요.
Reconstruction with Scene Constraints
Standard method는 장면을 명시적으로 고려하지 않고 3D human pose estimation 을 수행합니다. 이는 3D scene과의 inter-penetration로 이어질 수 있습니다. 대부분의 방법은 추정하는 동안 scene constraint 조건을 무시합니다. 물리적으로 일관된 결과를 reconstruct 하는 것을 목표로 하는 방법에서 scene 은 일반적으로 단순성을 위해 평평한 바닥으로 가정됩니다. [153], [233], [234], [235] 연구에서는 평평한 바닥을 넘어 static 3D scene에서 human pose and shape을 해결한 최초의 방법들 중 하나입니다. static 3D scene과 상호 작용하는 인간의 움직임을 더 잘 캡처하기 위해 scene mesh를 추가 작업으로 고려할 수 있습니다.
Beyond Fully Supervised Learning
3D human mesh dataset를 구축하는 것은 시간과 비용이 많이 듭니다. MoCap system 을 미리 설정해야 합니다. 캡처 후 raw 3D data의 정리 및 annotation 처리는 매우 까다롭습니다. 게다가 3D datasets 은 사람의 움직임과 배경의 다양성이 부족하지만 2D 데이터셋은 훨씬 더 중요합니다. 이에 비추어, 레이블이 지정되지 않은 풍부한 데이터를 사용하여 unsupervised 방식으로 네트워크를 훈련시키는 것이 좋습니다. 최근의 unsupervised 3D pose estimation [236], [237]은 흥미로운 성능을 달성했습니다. 이에 비해 unsupervised [98], [200] 또는 self-supervised [102], [104] human mesh recovery는 richer reconstruction information로 인해 훨씬 더 어렵습니다.
Grouped Person Reconstruction
public scene에서 사람들은 가족, 팀원 등으로 그룹으로 걷거나 이야기하거나 함께 작업하는 경우가 많습니다. 추후 방향은 space and time을 통해 사람들의 그룹을 재구성하여 대상 그룹의 관계와 활동을 드러내는 것입니다. 또한 서로 다른 카메라 또는 장거리 시간 시퀀스에 걸친 considering person를 고려할 때 그룹 내 개인의 관계는 occlusions or detection failures를 처리하는 데 이용할 수 있는 보다 stable context를 제공합니다. 이 작업은 혼잡한 시나리오에서 보다 강력한 reconstruction 을 위해 person tracking and re-identification과 결합될 수도 있습니다.
Detailed Shape Reconstruction with Clothing
SMPL 및 SMPL-X와 같은 Parametric model은 최소한의 옷을 입은 사람만 나타낼 수 있습니다. Parametric model의 representation을 넘어서기 위해 더 많은 유연성을 가지고 other representation을 활용해야 합니다. 기존 작업에서는 meshes, point clouds [32], [243], and implicit fields를 사용하여 the detailed deformation of clothing 을 모델링했습니다. 이러한 방법은 합리적인 결과를 생성할 수 있지만 reconstructed surfaces은 over-smoothed하고 novel poses에 강하지 않은 경향이 있습니다. 이러한 문제는 different representations의 모델링 능력을 활용하기 위해 different representations의 표현을 통합함으로써 완화될 수 있습니다.