[3D Pose and Shape] Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
Project page : https://motion-x-dataset.github.io/
GitHub : https://github.com/IDEA-Research/Motion-X
Paper : https://arxiv.org/pdf/2307.00818.pdf
본 논문에서는 large-scale 3D expressive whole-body motion dataset인 Motion-X 데이터세트를 소개합니다. 기존 데이터세트는 주로 body-only pose를 포함하여, 부족한 얼굴 표정, 손 제스쳐, 세밀한 포즈 설명이 부족하다고 합니다. 또한 제한된 실험실에서 데이터를 수집하기 때문에 확장성이 제한된다는 문제가 있습니다. 이러한 한계를 극복하기 위해 whole-body motion, text annotation pipleline을 개발하여 single-view 및 multi-view 비디오에서 motion에 자동으로 주석을 달고, 비디오에 대한 sementic label과 비디오에 대한 fine-grained whole-body pose description들을 포함할 수 있게 됩니다. 이러한 작업은 정밀도가 높고 비용 효율적입니다. 이 데이터세트는 96K motion sequence로 구성되며, 13.7M 주석으로 이루어져있으며, 주석 포맷은 SMPL-X 을 사용했다고 합니다.
HumanML3D 데이터세트와 비교한 결과입니다. 확실히 얼굴 표현이나 손동작 표현이 더 상세하고, 표정을 통해 어떤 감정을 느끼고 있는지도 설명해놓았네요.
확실히 기존 연구된 데이터세트보다 설명이 더 자세하고, 특히 whole body를 다뤘다는 점에서 contribution일 듯 합니다. 아래 결과들을 보시면, B(body), H(hand), F(face)를 모두 담은 데이터세트는 Motion-X 데이터가 유일합니다.
Motion-X의 개요입니다. 다양한 얼굴 표정은 BAUM이라는 모델로 추출하였고, 데이터를 수집하고 주석처리 할 때는 LLM 모델을 사용했다고 합니다. 이렇게 주석 정보가 풍부해짐에 따라 앞으로 sementic 에 대한 연구가 더 활발히 일어날 것 같습니다. 자세한 내용은 논문을 보시면 좋을 것 같습니다.
whole-body motion capture의 전체적인 구조는 다음과 같습니다.
데이터를 사용한 결과를 실험결과에서 볼 수 있습니다. OpenPose, MediaPipe에 비해 annotation 결과가 더 많은 정보를 담고 있는 걸 보실 수 있습니다. pose estimation 분야에서 RTMPose가 성능이 좋은 편인데 이 모델 보다 결과가 훨씬 더 좋네요. AP, AR이 10% 이상 차이나는 것은 대단한 결과라고 할 수 있을 것 같네요.
OSX dataset이 제일 좋은 줄 알았는데, 이 결과보다 더 좋은 결과를 나타내네요.