[3D Pose and Shape] Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset

꾸준희

|2023. 8. 7. 18:37

728x90

Project page : https://motion-x-dataset.github.io/

Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset

We propose Motion-X, a large-scale 3D expressive whole-body motion dataset. Existing motion datasets predominantly contain body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions. Moreover, they are primarily collecte

motion-x-dataset.github.io

GitHub : https://github.com/IDEA-Research/Motion-X

GitHub - IDEA-Research/Motion-X: Official implementation of the paper "Motion-X: A Large-scale 3D Expressive Whole-body Human Mo

Official implementation of the paper "Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset" - GitHub - IDEA-Research/Motion-X: Official implementation of the paper "...

github.com

Paper : https://arxiv.org/pdf/2307.00818.pdf

본 논문에서는 large-scale 3D expressive whole-body motion dataset인 Motion-X 데이터세트를 소개합니다. 기존 데이터세트는 주로 body-only pose를 포함하여, 부족한 얼굴 표정, 손 제스쳐, 세밀한 포즈 설명이 부족하다고 합니다. 또한 제한된 실험실에서 데이터를 수집하기 때문에 확장성이 제한된다는 문제가 있습니다. 이러한 한계를 극복하기 위해 whole-body motion, text annotation pipleline을 개발하여 single-view 및 multi-view 비디오에서 motion에 자동으로 주석을 달고, 비디오에 대한 sementic label과 비디오에 대한 fine-grained whole-body pose description들을 포함할 수 있게 됩니다. 이러한 작업은 정밀도가 높고 비용 효율적입니다. 이 데이터세트는 96K motion sequence로 구성되며, 13.7M 주석으로 이루어져있으며, 주석 포맷은 SMPL-X 을 사용했다고 합니다.

HumanML3D 데이터세트와 비교한 결과입니다. 확실히 얼굴 표현이나 손동작 표현이 더 상세하고, 표정을 통해 어떤 감정을 느끼고 있는지도 설명해놓았네요.

확실히 기존 연구된 데이터세트보다 설명이 더 자세하고, 특히 whole body를 다뤘다는 점에서 contribution일 듯 합니다. 아래 결과들을 보시면, B(body), H(hand), F(face)를 모두 담은 데이터세트는 Motion-X 데이터가 유일합니다.

Motion-X의 개요입니다. 다양한 얼굴 표정은 BAUM이라는 모델로 추출하였고, 데이터를 수집하고 주석처리 할 때는 LLM 모델을 사용했다고 합니다. 이렇게 주석 정보가 풍부해짐에 따라 앞으로 sementic 에 대한 연구가 더 활발히 일어날 것 같습니다. 자세한 내용은 논문을 보시면 좋을 것 같습니다.

whole-body motion capture의 전체적인 구조는 다음과 같습니다.

데이터를 사용한 결과를 실험결과에서 볼 수 있습니다. OpenPose, MediaPipe에 비해 annotation 결과가 더 많은 정보를 담고 있는 걸 보실 수 있습니다. pose estimation 분야에서 RTMPose가 성능이 좋은 편인데 이 모델 보다 결과가 훨씬 더 좋네요. AP, AR이 10% 이상 차이나는 것은 대단한 결과라고 할 수 있을 것 같네요.

OSX dataset이 제일 좋은 줄 알았는데, 이 결과보다 더 좋은 결과를 나타내네요.

728x90

저작자표시 비영리 (새창열림)

'AI Research Topic > 3D Vision' 카테고리의 다른 글

인간을 이해하기 위한 기술 PoseGPT: Chatting about 3D Human Pose에 대하여 (4)	2023.12.10
[3D HPS] SMPL-X 모델 관련 자료 (0)	2023.08.28
[3D Pose and Shape] 3D Human Pose Visualizer (0)	2023.08.07
[3D HPS] Learning Visibility for Robust Dense Human Body Estimation (0)	2023.05.23
[3D HPS] SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling (0)	2023.05.23

[3D Pose and Shape] Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset

'AI Research Topic > 3D Vision' 카테고리의 다른 글

티스토리툴바