반응형

Paper Review 17

[Paper Review] UniPose, Unified Human Pose Estimation in Single Images and Videos

“Waterfall” Atrous Spatial Pooling architecture를 기반으로 인간의 자세를 추정하는 UniPose를 소개합니다. 참고로 Waterfall Atrous Spatial Pooling 방법은 semantic segmentation을 위해 multiscale fields-of-view를 유지하면서 cascade architecture에서 progressive filtering을 활용하는 module 입니다. 본 논문에서는 contextual segmentation 및 joint localization을 통합하여 statistical postprocessing 방법에 의존하지 않고 single stage 에서 인간의 자세를 높은 정확도로 추정한다고 합니다! 이러한 방법은 mul..

Paper Review 2022.04.20

[Paper Review] FCOS, Fully Convolutional One-Stage Object Detection

이번에 리뷰할 논문은 바로 FCOS: Fully Convolutional One-Stage Object Detection 입니다. 이 논문은 2019년에 나왔으며, Anchor box 기반 검출기 만큼의 정확도를 달성하는 Anchor Free 기반 검출기의 baseline이 되는 논문이기 때문에 리뷰하게 되었습니다! (사실 CornerNet이 먼저이긴 하지만, CornerNet은 더 복잡한 post-processing 절차가 필요하다고 하네요!) 기존 객체 검출(Object Detection) 분야에서 대장을 이루었던 YOLO v3를 비롯하여 RetinaNet, SSD, Faster R-CNN 등의 객체 검출기들은 Anchor box를 사용하는데 비해, FCOS는 One-stage Detector이기 때..

Paper Review 2022.03.30 (4)

[Paper Review] ResNet strikes back: An improved training procedure in timm

저번에 페이스북에서 ResNet strikes back: An improved training procedure in timm 이라는 논문이 나왔다는 게시글을 보고 논문을 살펴보았습니다. 이 논문은 pytorch-image-models github (a.k.a timm)의 원작자인 Ross Wightman의 논문입니다. Ross-Wightman-github 에 들어가보니 소개글에 아래와 같이 적혀있었습니다. 개인적으로 깊이 감명 받았습니다. 🤩 Always learning, constantly curious. Building ML/AI systems, watching loss curves. 아무튼, 이 논문은 모델을 학습하는데 있어서 기본적이면서도 유용한 테크닉들이 잘 소개되어 있으며, 제안하는 학습방법..

Paper Review 2022.03.30

[Paper Review] The PASCAL Visual Object Classes (VOC) Challenge

커스텀 데이터 세트를 구축하다가 과연 이 문제에 대해서 오픈 데이터 세트를 만드는 사람들은 고민을 안했을까? 당연히 했겠지? 🤯 그럼 논문을 읽어보자 해서 급 읽게 된 논문 The PASCAL Visual Object Classes (VOC) 챌린지에 대한 리뷰입니다. VOC 데이터 세트는 Object Detection 분야에서 주로 사용이 되고 있고, 워낙 나온지 오래된 데이터 세트라서 논문 인용수가 13k 건 정도 되네요. 우선 PASCAL VOC(Visual Object Classes) 챌린지는 object category recognition 및 detection 의 벤치마크로 vision 및 machne learning 커뮤니티에 image 및 annotation의 standard evaluat..

Paper Review 2022.02.21

[Paper Review] Detecting Twenty-thousand Classes using Image-level Supervision

안녕하세요. 오랜만에 논문 리뷰를 해봅니다. 논문 리뷰가 뜸했던 시기에 Facebook 사명이 Meta 로 바뀌었네요. 논문 저자 소속에 Meta AI 가 적혀진 논문은 이제서야 처음 보는 듯 합니다. 😊 나스닥에서는 메타플랫폼스라고 바뀐 것을 바로 확인 했었는데... 이번에 리뷰할 논문은 Meta AI 에서 발표한 "Detecting Twenty-thousand Classes using Image-level Supervision" 라는 논문입니다. Detic 이라고도 합니다. "Detic: A Detector with image classes that can use image-level labels to easily train detectors." Detic 방법은 한마디로 축약하자면 기존 GT lab..

Paper Review 2022.02.20

[Paper Review] Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression

Paper : https://arxiv.org/pdf/2104.02300.pdf Github : https://github.com/HRNet/DEKR HRNet/DEKR This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression" (https://arxiv.org/abs/2104.02300) - HRNet/DEKR github.com 오랜만에 읽고싶은 논문이 생겨서 이렇게 리뷰를 작성해본다. 논문은 그동안 가끔 읽었었는데 정리를 하는건 엄청 오랜만이라, pose estimation 카테고리에 쓸지, paper review 카테고리에서 쓸..

Paper Review 2021.06.23

[Paper Review] Toward fast and accurate human pose estimation via soft-gated skip connections

Bulat, Adrian, et al. "Toward fast and accurate human pose estimation via soft-gated skip connections." arXiv preprint arXiv:2002.11098 (2020). Paper : arxiv.org/abs/2002.11098 Toward fast and accurate human pose estimation via soft-gated skip connections This paper is on highly accurate and highly efficient human pose estimation. Recent works based on Fully Convolutional Networks (FCNs) have de..

Paper Review 2020.11.22 (2)

[Paper Review] DCNv2 : Deformable Convolutional Networks v2

기존 DCN(Deformable Convolutional Networks) 설명은 아래 포스팅을 참고하기 바란다. 2020/03/08 - [AI Research Topic/Object Detection] - [Object Detection] Deformable Convolutional Networks Github : github.com/CharlesShang/DCNv2 CharlesShang/DCNv2 Deformable Convolutional Networks v2 with Pytorch. Contribute to CharlesShang/DCNv2 development by creating an account on GitHub. github.com Paper : arxiv.org/pdf/1811.111..

Paper Review 2020.11.01 (3)

[Paper Review] An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale

An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale 위 논문은 자연어 처리(NLP) 분야에서 널리 사용되는 Transformer 개념을 컴퓨터 비전 분야에 적용해본 논문이다. 먼저 자연어 처리 분야에서 Transformer 개념은 어떤 것인지 살펴보는게 좋을 것 같다. NLP 에서의 Transformer 자연어 처리 분야에서는 문장과 같은 연결성이 중요한 시퀀스 데이터에서 RNN 계열의 모델이 많이 사용되는데 이는 직전의 출력 결과를 입력으로 사용하여 재귀적으로 활용하게 된다. 하지만 이는 좀 더 멀리 떨어진 단어 보다는 무조건 가까운 단어가 연관성이 높게 나타난다는 단점이 있다. 이러한 문제를 Long-term Depe..

Paper Review 2020.11.01 (2)

[Paper Review] ECA-Net : Efficient Channel Attention for Deep Convolutional Neural Networks

Paper : https://arxiv.org/pdf/1910.03151.pdf Github : https://github.com/BangguWu/ECANet BangguWu/ECANet Code for ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks - BangguWu/ECANet github.com ECA-Net 은 기존에 알려져있는 SENet 보다 성능이 좋아서 Object Detection, Image Classification, Object Segmentation 분야에서 사용되고 있는 모델이다. 기존 일반적인 CNN 구조에서는 Local Receptive Field 만을 가지고 학습을 하기 때문에 전체적인 ..

Paper Review 2020.10.10

[Paper Review] BAM(Bottleneck Attention Module), CBAM(Convolutional-BAM)

BAM 및 CBAM 개요 Self-Attention 의 대표적인 네트워크인 BAM(Bottleneck Attention Module) 및 CBAM(Convolutional-BAM) 모듈을 잠깐 설명하도록 하겠다. 일단 두 모듈 모두 3D Attention Map 을 Channel-wise / Spatial-wise 로 분해하여 계산한다. 연산 및 파라미터 오버헤드는 1~2% 수준으로 매우 미미한 편이라고 한다. 이 두 모듈 모두 아주 단순한 pooling 및 convolution 으로 이루어져있다. BAM (Bottleneck Attention Module) 위와 같이 BAM 은 각 네트워크의 bottleneck 에 위치하게 된다. 여기서의 bottleneck 은 spatial pooling 이 이루어지..

Paper Review 2020.10.10

[Paper Review] Generalized Focal Loss : Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

Li, Xiang, et al. "Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection." arXiv preprint arXiv:2006.04388 (2020). github : https://github.com/implus/GFocal implus/GFocal Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection - implus/GFocal github.com Abstract One-stage detector는 기본적으로 객체 탐지 문제를 dense c..

Paper Review 2020.07.20

[Paper Review] FairMOT : A Simple Baseline for Multi-Object Tracking

Paper : https://arxiv.org/pdf/2004.01888v4.pdf Github : https://github.com/ifzhang/FairMOT ifzhang/FairMOT A simple baseline for one-shot multi-object tracking - ifzhang/FairMOT github.com 1. Introduction MOT(Multi-Object Tracking)는 컴퓨터 비전 분야에서 longstanding goal 이다. MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것이다. 객체의 궤적을 잘 추적하게 되면 Action Recognition, Sport Videos Analysis, Elderly Care, Human Comput..

Paper Review 2020.06.23

[Paper Review] CBAM : Convolutional Block Attention Module

CBAM 논문을 살펴보았다. 저자가 한국인이라서 그런지 몰라도 논문 이름부터 시작해서 논문이 잘 읽히는 편이었고, 이미 저자가 논문을 정리해 놓은 자료도 있어서 이해하기 수월했다. CBAM 논문은 BAM(Bottleneck Attention Module) 에 이어 나온 논문이다. 두 논문 모두 CNN의 성능 향상을 위한 Self-attention Module 을 제안하고 있다. 여기서는 CBAM 의 내용을 주로 다루기로 한다. CNN 계열에서 Attention 개념은 주로 Image Captuioning 처럼 multi-modal 간의 관계를 이용한 feature selection 에서 많이 사용되었다고 한다. Attention 이라는 것 자체가 어떠한 특성에 대하여 "집중"하는 것인데, Image Cl..

Paper Review 2020.06.07

[Paper Review] Imbalance Problems in Object Detection : A Review

Paper : https://arxiv.org/pdf/1909.00169v1.pdf Project page : https://github.com/kemaloksuz/ObjectDetectionImbalance kemaloksuz/ObjectDetectionImbalance Lists the papers related to imbalance problems in object detection - kemaloksuz/ObjectDetectionImbalance github.com 본 게시물은 위 논문을 번역하여 나름 .. 다시 정리한 글 입니다. 1. Introduction 객체 탐지(Object Detection, OD) 분야에 있어서 불균형(Imbalance) 문제는 피할 수 없는 주제이다. 객체 탐지란..

Paper Review 2020.01.30 (1)
728x90
반응형