no image
[Paper Review] FasterPose, A Faster Simple Baseline for Human Pose Estimation
Paper : https://arxiv.org/abs/2107.03215 FasterPose: A Faster Simple Baseline for Human Pose Estimation The performance of human pose estimation depends on the spatial accuracy of keypoint localization. Most existing methods pursue the spatial accuracy through learning the high-resolution (HR) representation from input images. By the experimental analysis, w arxiv.org 2021년 7월에 아카이브에서 공개된 Faster..
2022.07.18
no image
[Paper Review] CPN, Cascaded Pyramid Network for Multi-Person Pose Estimation
오늘은 Pose Estimation 분야에서 CPN으로 유명한 Casecaded Pyramid Network 논문을 빠르게 훑어보도록 하겠습니다. 이 논문에서는 여러가지 복합적인 요인(Occlusion, Background, ...)에 의하여 검출하기 어려운 키포인트들을 잘 검출하기 위해 CPN이라는 구조를 제안했습니다. 크게 아래 그림과 같이 GlobalNet과 RefineNet으로 구성되어있습니다. 이름에서도 알 수 있듯이 GlobalNet에서는 feature pyramid network 기반으로 global feature를 추출하여 localization하는 방식이며, RefineNet은 GlobalNet에서 localization 하지 못한 hard keypoint를 hard keypoint mi..
2022.07.18
no image
[3D Reconstruction] CS231A, Computer Vision, From 3D Reconstruction to Recognition
CS231A: Computer Vision, From 3D Reconstruction to Recognition https://web.stanford.edu/class/cs231a/ CS231A: Computer Vision, From 3D Reconstruction to Recognition Can I audit or sit in? In general we are very open to sitting-in guests if you are a member of the Stanford community (registered student, staff, and/or faculty). Out of courtesy, we would appreciate that you first email us or talk t..
2022.07.16
no image
[Paper Review] SmoothNet, A Plug-and-Play Network for Refining Human Poses in Videos
이번에 읽을 논문은 ECCV 2022에서 발표 예정인 SmoothNet 이라는 논문 입니다. 제가 개인적으로 Plug-and-Play Network를 굉장히 좋아합니다 ㅎㅎㅎㅎ 제목부터 마음에 드네요. Abstract 내용을 간단히 소개하자면 human motion video 환경에서 기존 pose estimation 방식들의 output jitter들은 프레임 전반에 걸쳐 다양한 estimation error를 발생시키는데, 거의 보이지 않거나 가려진 동작의 경우 여러 관절의 추정 위치가 연속 프레임 시퀀스에 대한 실제 값에서 크게 벗어나 significant jitter들을 발생시키게 됩니다. 이러한 문제를 해결하기 위해 SmoothNet을 제안했습니다. 본 논문에서는 jitter를 완화하기 위해 기..
2022.07.15
no image
[Paper Review] Attention Mechanisms in Computer Vision, A Survey
이번에 읽을 논문은 컴퓨터 비전 분야에서 딥러닝 모델에 적용할 수 있는 Attention 방법에 대한 Survey 논문입니다. 딥러닝에 적용할 수 있는 Attention 방법들을 보기 좋게 정리해둔 사이트는 아래와 같습니다. 최근까지도 업데이트 되는 듯 합니다. 😎 (보통 GitHub에 Research Topic과 "Awesome"이라는 단어를 조합하여 검색하면 누군가 열심히 정리해둔 레포지토리가 나옵니다.) https://github.com/MenghaoGuo/Awesome-Vision-Attentions GitHub - MenghaoGuo/Awesome-Vision-Attentions: Summary of related papers on visual attention. Related code wil..
2022.07.05
no image
[Paper Review] Recovering 3D Human Mesh from Monocular Images : A Survey
Paper : https://arxiv.org/abs/2203.01923 Recovering 3D Human Mesh from Monocular Images: A Survey Estimating human pose and shape from monocular images is a long-standing problem in computer vision. Since the release of statistical body models, 3D human mesh recovery has been drawing broader attention. With the same goal of obtaining well-aligned and p arxiv.org Project : https://github.com/tina..
2022.06.10
no image
[Pose Estimation] waterfall module 기반으로 설계된 자세 추정 방법들 (UniPose, UniPose+, OmniPose, BAPose)
waterfall module 즉 WASP(Waterfall Atrous Spatial Pyramid)는 위 그림과 같은 구성으로 되어있으며 원래 semantic segmentation을 위해 multiscale fields-of-view(FOV)를 유지하면서 cascade architecture에서 progressive filtering을 활용하는 “Waterfall” Atrous Spatial Pooling 기반 방식으로 이루어진 모듈이다. 이와 같은 module로 설계된 자세 추정 방법들은 아래와 같다. 1. UniPose, Unified Human Pose Estimation in Single Images and Videos (CVPR 2020) WASP module (w/ a cascade of..
2022.04.20
no image
[Paper Review] UniPose, Unified Human Pose Estimation in Single Images and Videos
“Waterfall” Atrous Spatial Pooling architecture를 기반으로 인간의 자세를 추정하는 UniPose를 소개합니다. 참고로 Waterfall Atrous Spatial Pooling 방법은 semantic segmentation을 위해 multiscale fields-of-view를 유지하면서 cascade architecture에서 progressive filtering을 활용하는 module 입니다. 본 논문에서는 contextual segmentation 및 joint localization을 통합하여 statistical postprocessing 방법에 의존하지 않고 single stage 에서 인간의 자세를 높은 정확도로 추정한다고 합니다! 이러한 방법은 mul..
2022.04.20
no image
[Object Detection] Anchor-free 기반 Object Detection의 Center Sampling 방법 (FCOS, FoveaBox)
초창기 Object Detection 분야에서는 하나의 grid cell에 객체를 하나만 검출할 수 있었으며, 더 나아가 여러개의 grid에서 객체를 검출하기 위해 Anchor box라는 개념을 사용하여 객체를 탐지하였습니다. 여기서 Anchor box는 딥러닝 신경망이 검출해야할 object shape에 대한 가정입니다. 하지만 Anchor box는 크기, 종횡비, 개수에 굉장히 민감하다는 단점이 있습니다. 이 Anchor box를 어떻게 설계하느냐에 따라 모델 성능에 영향을 미치게 됩니다. 또한 pre-defined anchor는 모델 일반화 성능을 해치게 되고, anchor box 크기와 다른 ground-truth를 검출하기 어렵다는 단점이 있습니다. 따라서 anchor box를 사용하지 않는 a..
2022.04.15
[Deep Learning] Pre-trained model로 gray image를 학습하는 방법
보통 pre-trained model(ResNet 50, ...)의 경우 RGB 3채널을 가지는 color image 를 기반으로 학습을 진행하기 때문에 모델의 입력 정보는 (height, weight, channel=3) 으로 이루어지게 된다. 따라서 이러한 모델에 임의로 1채널을 가지는 gray image를 입력할 경우 shape error 가 발생하게 된다. 이는 단순히 모델의 첫 레이어의 채널을 변경한다고해서 해결되지 않는다. 정확히 말하면 에러는 해결되지만 학습 진행이 안된다. 따라서 pre-trained model로 gray image를 학습시키는 법은 다음과 같다. 1. 첫번째 conv layer 의 채널을 1로 변경하기 2. pretrained weight load 시 1채널로 변경된 첫번..
2022.04.06
no image
[Paper Review] FCOS, Fully Convolutional One-Stage Object Detection
이번에 리뷰할 논문은 바로 FCOS: Fully Convolutional One-Stage Object Detection 입니다. 이 논문은 2019년에 나왔으며, Anchor box 기반 검출기 만큼의 정확도를 달성하는 Anchor Free 기반 검출기의 baseline이 되는 논문이기 때문에 리뷰하게 되었습니다! (사실 CornerNet이 먼저이긴 하지만, CornerNet은 더 복잡한 post-processing 절차가 필요하다고 하네요!) 기존 객체 검출(Object Detection) 분야에서 대장을 이루었던 YOLO v3를 비롯하여 RetinaNet, SSD, Faster R-CNN 등의 객체 검출기들은 Anchor box를 사용하는데 비해, FCOS는 One-stage Detector이기 때..
2022.03.30
no image
[Paper Review] ResNet strikes back: An improved training procedure in timm
저번에 페이스북에서 ResNet strikes back: An improved training procedure in timm 이라는 논문이 나왔다는 게시글을 보고 논문을 살펴보았습니다. 이 논문은 pytorch-image-models github (a.k.a timm)의 원작자인 Ross Wightman의 논문입니다. Ross-Wightman-github 에 들어가보니 소개글에 아래와 같이 적혀있었습니다. 개인적으로 깊이 감명 받았습니다. 🤩 Always learning, constantly curious. Building ML/AI systems, watching loss curves. 아무튼, 이 논문은 모델을 학습하는데 있어서 기본적이면서도 유용한 테크닉들이 잘 소개되어 있으며, 제안하는 학습방법..
2022.03.30