no image
[Backbone] VanillaNet: the Power of Minimalism in Deep Learning
Paper : https://arxiv.org/abs/2305.12972 GitHub : https://github.com/huawei-noah/VanillaNet GitHub - huawei-noah/VanillaNet Contribute to huawei-noah/VanillaNet development by creating an account on GitHub. github.com 오늘 리뷰할 논문은 얼마 전 등장한 VanillaNet 입니다. (참고로 Vanilla 라는 뜻은 without any customization 이라는 의미를 가지고 있습니다. default, ordinary, basic의 의미라고 보시면 됩니다.) 원래 backbone의 정설은 레이어가 복잡하고, 깊을 수록 좋은 성능을..
2023.05.26
no image
[Paper Review] MobileHumanPose : Toward real-time 3D human pose estimation in mobile devices
이번에 읽게된 논문은 CVPR 2021에 소개된 MobileHumanPose: Toward real-time 3D human pose estimation in mobile devices 입니다. 참고로 카이스트에서 게재한 논문이며, 3D Human Pose Estimation 모델을 Mobile Device에서 작동 될 수 있도록 경량화 한 논문입니다. Contribution 본 논문에서의 주요 Contribution은 아래와 같습니다. 기존 3D HPE 방법들이 높은 computing cost + 정확도에 초점을 맞췄던 것에 비해 본 논문에서는 모바일 기반 모델 효율성을 다룸 MobileNet v2 수정, parametric activation function, Skip concatenation (U-..
2023.05.26
no image
[3D HPS] Learning Visibility for Robust Dense Human Body Estimation
이번에 리뷰할 논문은 "Learning Visibility for Robust Dense Human Body Estimation" 입니다. 본 논문에서는 human joint에 대해 visible 정보를 x, y, z 축에 대해 명시적으로 모델링 했습니다. x, y 축의 visible 정보는 frame 밖에 있는 경우를 구별하는데 도움이 되며, z 축의 visible 정보는 self-occlusion 또는 occlusions by other object을 구별하는데 도움이 됩니다. 본 논문에서는 이러한 정보를 이용하여 3d heatmap을 예측합니다. dense heatmap -based representation은 image domain에서 spatial-relationship을 보존하고, uncert..
2023.05.23
no image
[Human Pose Estimation] AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in the Wild
GitHub : https://github.com/zhezh/occlusion_person GitHub - zhezh/occlusion_person: A dataset for multiview 3D human pose estimation with detailed occlusion labels, powered by Unr A dataset for multiview 3D human pose estimation with detailed occlusion labels, powered by UnrealCV - GitHub - zhezh/occlusion_person: A dataset for multiview 3D human pose estimation with detaile... github.com Paper ..
2023.05.23
no image
[3D HPS] SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling
Project page : https://maoxie.github.io/SynBody/ SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling Abstract Synthetic data has emerged as a promising source for 3D human research as it offers low-cost access to large-scale human datasets. To advance the diversity and annotation quality of human models, we introduce a new synthetic dataset, Synbody, with ma..
2023.05.23
no image
[3D HPS] Capturing and Inferring Dense Full-Body Human-Scene Contact
Paper : https://openaccess.thecvf.com/content/CVPR2022/papers/Huang_Capturing_and_Inferring_Dense_Full-Body_Human-Scene_Contact_CVPR_2022_paper.pdf 이번에 읽을 논문은 "Capturing and Inferring Dense Full-Body Human-Scene Contact" 입니다. RICH dataset을 생성하였는데요, 이 데이터의 novelty는 3D scene scan을 통해 human-scene contact를 정확하게 라벨링했다는 것입니다. 아래 그림에서 녹색 부분에 표시되어있습니다. 참고로 이런 분야를 human-scene contact(HSC) 라고 하는데 이는 사람이 주..
2023.05.23
no image
[3D HPS] BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
Paper : https://bedlam.is.tuebingen.mpg.de/media/upload/BEDLAM_CVPR2023.pdf Project page : https://bedlam.is.tue.mpg.de/ BEDLAM bedlam.is.tue.mpg.de GitHub : https://github.com/pixelite1201/BEDLAM GitHub - pixelite1201/BEDLAM Contribute to pixelite1201/BEDLAM development by creating an account on GitHub. github.com 이번에 리뷰할 논문은 GitHub에 약 3일전에 업로드된 CVPR 2023에 소개 될 논문 "BEDLAM: A Synthetic Dataset o..
2023.05.22
no image
[Dataset Augmentation] albumentations
Github https://github.com/albumentations-team/albumentations GitHub - albumentations-team/albumentations: Fast image augmentation library and an easy-to-use wrapper around other libraries. Fast image augmentation library and an easy-to-use wrapper around other libraries. Documentation: https://albumentations.ai/docs/ Paper about the library: https://www.mdpi.com/2078-2489/11/2/125 -... github.co..
2023.04.26
no image
[Backbone] ResNet
ResNet 이번에 볼 Backbone은 ResNet입니다. 원 논문은 "Deep Residual Learning for Image Recognition" 이고, 벌써 인용 수가 160,317회나 되네요. 저자는 Kaiming He 입니다. 굉장히 유명하신 분이죠. 무려 Microsoft Research 의 결과물이네요. ResNet의 구조 단순 convolutional neural network에서 Layer를 무작정 늘렸을 때 성능이 오히려 떨어진다고 합니다. 그래서 나온 개념이 ResNet의 핵심 아이디어인 Residual block 입니다. 이는 H(x)를 기존의 네트워크라고 할 때, H(x)를 복잡한 함수에 근사시키는 것 보다 F(x) := H(x) - x일 때, H(x) = F(x) + x이고..
2023.04.14
no image
[Backbone] VGGNet
Paper : https://arxiv.org/abs/1409.1556 VGGNet VGGNet은 옥스포드 대학의 연구팀 VGG에 의해 개발된 모델로써, 2014년 이미지넷 이미지 인식 대회에서 준우승을 한 모델이며, 특히 VGG-16 모델은 ImageNet Challenge에서 Top-5 테스트 정확도를 92.7% 달성했습니다. 딥러닝 역사적으로 보았을 때 신경망의 깊이가 이 때 부터 깊어졌다고 하네요. VGG 뜻은 Visual Geometry Group이며, 논문 명은 "Very Deep Convolutional Networks for Large-Scale Image Recognition" 입니다. vgg 관련 pytorch 공식 문서에서 보시면 VGG16 외에 VGG11, 13, 19 등이 있습니다..
2023.04.14
no image
[Backbone] AlexNet
AlexNet AlexNet은 무려 2012년에 개최된 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 대회의 우승을 차지한 컨볼루션 신경망(CNN) 구조입니다. AlexNet 논문명은 "ImageNet Classification with Deep Convolutional Neural Networks"이고, 이 논문의 첫번째 저자가 Alex Khrizevsky이기 때문에 그의 이름을 따서 AlexNet이라고 부른다고 합니다. 무려 현재 기준 130,639회 인용이네요. 후덜덜... 저자 Alex를 Google Scholar에 쳐보니 간간히 논문이 나오고 있습니다. Image Classification task에서 유명한 데이터세트인 CIFAR-10 ..
2023.04.14
no image
[Backbone] LeNet-5
Paper : https://ieeexplore.ieee.org/abstract/document/726791 Convolutional Neural Network 연구의 시초라고 할 수 있는 LeNet 입니다. 논문 제목은 "Gradient-based learning applied to document recognition" 이며, 인용 수가 무려 54,056회나 되고, 1998년에 처음 공개되었습니다. LeNet은 CNN을 처음으로 개발한 얀 르쿤(Yann Lecun) 연구팀이 1998년에 개발한 CNN 알고리즘의 이름입니다. LeNet-5의 구조 LeNet-5의 구조는 아래와 같습니다. 3개의 Conv Layer (C1, C3, C5)로 구성되어 있으며, 2개의 Sub-sampling Layer(S2,..
2023.04.13