AI Research Topic/Human Pose Estimation

[Paper Review] Pose for Everything, Towards Category-Agnostic Pose Estimation

꾸준희 2022. 12. 1. 01:45
728x90
반응형

 

 

Paper : https://arxiv.org/pdf/2207.10387.pdf

GitHub : https://github.com/luminxu/Pose-for-Everything

 

GitHub - luminxu/Pose-for-Everything: The official repo for ECCV'22 paper: Pose for Everything: Towards Category-Agnostic Pose E

The official repo for ECCV'22 paper: Pose for Everything: Towards Category-Agnostic Pose Estimation - GitHub - luminxu/Pose-for-Everything: The official repo for ECCV'22 paper: Pose for Eve...

github.com

 

 

ECCV 2022에 소개된 논문 "Pose for Everything, Towards Category-AgnosticPose Estimation" 리뷰입니다. 이 논문에서는 2D pose estimation에 대한 기존 작업들이 주로 특정 범주에 중점을 두는 사실(인간, 동물, 차량 등)을 언급하며 보이지 않는 객체 클래스의 포즈 및 키포인트를 감지하는 애플리케이션들이 많기 때문에 keypoint definition이 있는 몇 개의 샘플만 주어지면 모든 종류의 객체의 포즈를 감지 할 수 있는 포즈 추정 모델을 만드는 것을 목표로 하는 "CAPE(Category-Agnostic Pose Estimation)"을 소개합니다. 신기한 분야네요. 

 

이러한 목표를 위해 포즈 추정 문제를 키포인트 매칭 문제로 풀었으며 POMNet(POse Matching Network)이라는 새로운 CAPE 프레임워크를 제안하였습니다. 서로 다른 키포인트 간의 상호 작용과 지원 및 쿼리 이미지 간의 관계를 캡처하기 위해 Transformer-based

Keypoint Interaction Module (KIM)이 제안됩니다. 또한 20,000개 이상의 인스턴스를 포함하는 100개 개체 범주의 2D 포즈 데이터 세트인 Multi-category Pose(MP-100) 데이터 세트를 소개합니다. 

 

 

아래 그림은 Category-Specific Pose Estimation vs Class-Agnostic Pose Estimation (CAPE) 을 나타냅니다. 

 

 

 

본 논문의 main contribution은 아래와 같습니다. 

 

  • Category-Agnostic Pose Estimation(CAPE)이라는 도전적인 작업을 소개함. CAPE는 모델이 키포인트 정의가 있는 a few support images가 주어진 개체의 포즈를 예측하도록 요구함.

 

  • POMNet(POse Matching Network)이라는 새로운 CAPE 프레임워크를 제안하고 키포인트 탐지 작업을 매칭 문제로 풀어나감.  Keypoint Interaction Module(KIM)은 keypoint-level relationship 및 support-query relationship를 모두 캡처하도록 제안함. 

 

  • 본 논문에서는 최초의 large-scale multi-(super-)category dataset인 Multi-category Pose(MP-100)를 구축함. 

 

 

 

 

현존 하는 2D Pose Estimation Dataset은 아래와 같다고 합니다. 

 

 

 

 

 

본 논문에서 제안하는 방식은 아래와 같습니다. (자세히는 다루지 않겠습니다.)

 

 

 

 

 

MP-100 데이터 세트는 아래와 같이 구성됩니다. 

 

 

 

 

 

 

 

실험 결과는 아래와 같습니다. 

 

 

 

 

 

Support Image를 통해 Unseen category에 대해 pose를 잘 추정해내는 것을 볼 수 있습니다. 

 

728x90
반응형