no image
인간을 이해하기 위한 기술 PoseGPT: Chatting about 3D Human Pose에 대하여
PoseGPT: Chatting about 3D Human Pose 오늘은 인간을 이해하기 위한 기술 중 하나인 PoseGPT에 관한 논문을 리뷰하며 드는 생각을 정리해보고자 합니다. PoseGPT는 Max Planck Institute for Intelligent Systems에서 제안한 논문이며, 2023년 11월 30일에 제안된 따끈따끈한 논문입니다. 🔥🚨🧑‍🚒 PoseGPT란 이미지나 텍스트 설명을 통해 3D 인간 포즈를 이해하고 추론하기 위해 LLM을 사용하는 프레임워크라고 할 수 있습니다. 현재까지 진행되어왔던 연구에서는 이미지 또는 텍스트 기반의 인간 자세 추정 문제들은 전체적인 장면을 이해하거나 세세한 추론이 부족해서 시각적 데이터와 실제 자세가 의미하는 바가 연결성이 부족했습니다. 예를..
2023.12.10
no image
[Human Pose Estimation] A Dataset of Relighted 3D Interacting Hands
Paper : https://arxiv.org/pdf/2310.17768.pdf Project Page: https://mks0601.github.io/ReInterHand/ Re:InterHand Dataset A Dataset of Relighted 3D Interacting Hands (NeurIPS 2023 Datasets and Benchmarks Track) mks0601.github.io Meta Reality Labs Research 에서 나온 데이터세트 Re:InterHand 데이터이다. 두 손이 상호작용 하는 문제는 self-similarity, complicated articulations, and occlusions of hands 문제 때문에 가장 분석하기 어려운 task 중 하나..
2023.11.15
no image
[Diffusion] RLHF 인간 피드백 기반 강화학습 개념 및 Diffusion에 RLHF 방법론 적용
우선 RLHF(Reinforcement Learning form Human Feedback)은 인간 피드백 기반 강화학습이라는 뜻이다. 이는 ChatGPT에 적용되는 내용이며, 총 3가지 단계로 나뉜다. 즉, 사람과 같은 대답을 만들어 내기 위해 Human Preference를 고려하여 학습을 한 것이다. RLHF(Reinforcement Learning form Human Feedback) 아래 내용은 openAI에서 제안한 Fine-Tuning Language Models from Human Preferences 논문에서 가져온 내용에 기반한다. 1. Supervised Fine-Tuning (SFT) 인간이 의도하는 것을 학습시키기 위해 인간 Labeler 또는 Trainer가 선별한 적은 양의 샘..
2023.10.28
no image
[3D HPS] SMPL-X 모델 관련 자료
SMPL-X 모델은 기존 SMPL 모델(손이나 얼굴에 대한 detail이 떨어지는)에서 확장된 모델이다. 대량의 3D scan data로부터 얼굴과 손까지 포함한 새로운 body model을 구성하였다. 즉, 3가지 모델을 통합하였다. SMPL 모델 + FLAME(head model) + MANO(hand model) 더 내추럴한 결과를 볼 수 있다. joint names 목록은 다음 github에서 볼 수 있다. https://github.com/vchoutas/smplx/blob/main/smplx/joint_names.py SMPL-X 논문은 아래와 같다. https://arxiv.org/abs/1904.05866 Expressive Body Capture: 3D Hands, Face, and Bo..
2023.08.28
no image
[Paper Review] Effective Whole-body Pose Estimation with Two-stages Distillation
Paper : https://arxiv.org/abs/2307.15880 Effective Whole-body Pose Estimation with Two-stages Distillation Whole-body pose estimation localizes the human body, hand, face, and foot keypoints in an image. This task is challenging due to multi-scale body parts, fine-grained localization for low-resolution regions, and data scarcity. Meanwhile, applying a highly e arxiv.org GitHub : https://github...
2023.08.18
no image
[Model Optimization] ModelBench app
https://github.com/apple/ml-mobileone/tree/main/ModelBench
2023.08.18
no image
[Paper Review] FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization
Paper : https://arxiv.org/abs/2303.14189 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization The recent amalgamation of transformer and convolutional designs has led to steady improvements in accuracy and efficiency of the models. In this work, we introduce FastViT, a hybrid vision transformer architecture that obtains the state-of-the-art latency arxiv.org GitHub : htt..
2023.08.18
no image
[3D Pose and Shape] Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
Project page : https://motion-x-dataset.github.io/ Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset We propose Motion-X, a large-scale 3D expressive whole-body motion dataset. Existing motion datasets predominantly contain body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions. Moreover, they are primarily collecte motion-x-dataset.git..
2023.08.07
no image
[3D Pose and Shape] 3D Human Pose Visualizer
https://github.com/isarandi/poseviz GitHub - isarandi/poseviz: 3D Human Pose Visualizer for Python 3D Human Pose Visualizer for Python. Contribute to isarandi/poseviz development by creating an account on GitHub. github.com
2023.08.07
no image
[Transformer] Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
Overview 얼마전 Google DeepMind에서 "Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution" 라는 논문이 나왔습니다. 기존 컴퓨터 비전 모델에서는 이미지를 처리하기 전에 고정된 해상도로 이미지 크기를 설정하게 되고, ViT(Vision Transformer)와 같은 모델은 flexible sequence-based modeling을 하기 때문에 다양한 input sequence length를 제공하게 됩니다. 본 논문에서는 임의의 해상도와 종횡비(aspect ratio)를 처리하기 위해 학습 중에 sequence packing을 사용하는 NaViT(Native Resolution ViT)를 제안합니..
2023.07.21
no image
[Backbone] DreamTeacher: Pretraining Image Backbones with Deep Generative Models
Overview 오늘 리뷰할 논문은 NVIDIA, University of Toronto, Vector Institute, MIT에서 낸 "DreamTeacher: Pretraining Image Backbones with Deep Generative Models" 입니다. ICCV 2023에 채택되었네요. 이 논문에서는 downstream image backbone을 사전 학습 하기 위해 generative network를 활용하는 DreamTeacher 기법을 소개합니다. 즉, 생성 모델의 knowledge를 특정 인식 작업을 위해 잘 설계된 standard image backbone으로 추출하는거죠. 어떻게 보면 역으로 사용했다고 보면 되네요. 먼저 label-efficient semantic se..
2023.07.17
no image
[Diffusion] DISCO: Disentangled Control for Referring Human Dance Generation in Real World
Project page : https://disco-dance.github.io/ DISCO: Disentangled Control for Referring Human Dance Generation in Real World Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synt disco-dance.gith..
2023.07.13