728x90
반응형

 

 

Paper : https://openaccess.thecvf.com/content/CVPR2022/papers/Huang_Capturing_and_Inferring_Dense_Full-Body_Human-Scene_Contact_CVPR_2022_paper.pdf

 

 

이번에 읽을 논문은 "Capturing and Inferring Dense Full-Body Human-Scene Contact" 입니다. RICH dataset을 생성하였는데요, 이 데이터의 novelty는 3D scene scan을 통해 human-scene contact를 정확하게 라벨링했다는 것입니다. 아래 그림에서 녹색 부분에 표시되어있습니다. 참고로 이런 분야를 human-scene contact(HSC) 라고 하는데 이는 사람이 주변 환경과 상호작용하는 방식을 이해하기 위해 필요한 분야라고 합니다. 이전 연구에서 2d human-object interaction(HOI) 및 3d reconstruction 연구가 상당한 발전을 이루었지만, single image에서 3d human-scene contact 문제는 여전히 어렵다고 합니다. 그래서 contact 문제를 풀기 위해 이러한 contact 정보가 자세하게 라벨링 되어있는 RICH dataset을 생성하게 되었다고 합니다. 

 

 

본 논문에서는 trainsformer 구조를 이용하여 non-local relationship을 학습하고, 새로운 모델 Body-Scene contact TRansfOrmer (BSTRO)을 제안합니다. 3D contact를 연구하는 분야는 본 논문이 처음이라고 합니다. 기존 연구들은 발에만 초점을 맞추거나, 후처리 단계로 foot contact를 감지하거나, scene에 대한 이해 없이 human pose에서 contact를 추론한다고 합니다.

아마도 이 논문을 기반으로 여러 연구들이 생겨나지 않을까 예상됩니다. 관련된 연구들은 다음 표에 정리 되어 있습니다. 

 

 

 

또한 BSTRO 모델 구조는 다음과 같이 구성됩니다. 

 

 

 

 

evaluation metric으로는 추정된 dense HSC을 평가하기 위해 standard detection metric(precision, recall, F1 score)를 사용합니다. 여기서 vertex density는 SMPL template에 따라 다르기 때문에 손바닥과 허벅지에서 같은 수의 false positive가 body surface의 다른 영역에 해당하지만 위와 같은 메트릭에서는 반영되지 않습니다. 그래서 HSC 방법이 contact를 얼머나 잘 추정하는지 잘 이해하기 위해 count 기반 점수를 메트릭 공간의 오류로 변환하는 것을 추가로 고려합니다. 접촉될 것이라고 예상되는 각 vertax에 대해 접촉중인 GT vertex 까지의 shortest geodesic distance를 계산합니다. true positive이면 이 거리는 0이 됩니다. 

 

 

또한 joint와 body mesh의 불일치를 측정하기 위해 PA-MPJPE, PA-V2V을 사용하게 되는데 scene contact가 있을 때와 없을 때의 결과를 비교했을 때 의미 있는 scene contact를 포함하는 이미지는 214.0mm/172.81mm TR-MPJPE/TR-V2V를 생성하고, foot-ground contact 이외의 contact가 없는 이미지의 경우 161.81mm/121.71mm 정도라고 하네요. 즉, scene contact가 일반적으로 scene occlusion과 함께 발생하며, 이는 monocular HPS 방법이 개선될 수 있는 방향을 보여줍니다. 

728x90
반응형