728x90
반응형

Multi-person Pose Estimation은 아래 그림과 같이 이미지 상에 나타난 여러 사람들에 대한 keypoint 연결 관계를 추론해내는 것입니다.

그림 출처 : DetPoseNet: Improving Multi-Person Pose Estimation via Coarse-Pose Filtering

 

Multi-person Pose Estimation이 어려운 이유는 아래와 같습니다. 

 

1. 여러명의 사람이 다양한 scale과 position에서 등장하는 문제 

2. 사람들의 activity 및 interaction 으로 인해 complex pose를 유발됨

3. 여러 사람들의 body part articulation 및 occlusion로 인해 어려움 

 

 

Top-down multi-people pose estimation

각 사람을 먼저 검출한 다음 검출된 이미지 패치에서 각 사람의 자세를 독립적으로 추정하는 전략입니다. 이러한 접근 방식의 장점은 single pose estimation 방법을 직접 적용할 수 있다는 것입니다. 그러나 이러한 확장 방식은 person detection에 의존적이기 때문에 어려움이 있습니다. 또한 상황 정보를 제공받지 못하게 되므로 spatial configuration을 포착해내지 못합니다. 또한 사람이 늘어나면 늘어날 수록 계산 시간이 선형적으로 증가하게 됩니다. 

 

Bottom-up multi-people pose estimation

신경망의 single forward 에서 모든 body keypoint를 검출하게 됩니다. 그 다음 이러한 keypoint를 human instance로 그룹화하게 됩니다. 이러한 검출 및 그룹화 전략은 계산 복잡성이 이미지의 사람 수에 상관 없게 동작하기 때문에 계산 리소스 면에서는 효과적입니다. 또한 keypoint 간의 잠재 관계를 추론할 수 있습니다. 그럼에도 불구하고 global context cue를 효과적으로 활용하여 여러 사람을 정확하게 localization 하는 방법은 여전히 문제입니다. 또한 bottom-up 기반 방식은 이미지 해상도가 낮아서 작게 나타나는 사람을 잘못 감지할 확률이 큽니다. 사람이 너무 작아서 전체 이미지가 고정된 입력 크기로 조정되면 네트워크에서는 감지할 수 없기 때문입니다. 

 

 

 

 

728x90
반응형