반응형

Paper Review 12

[Paper Review] Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression

Paper : https://arxiv.org/pdf/2104.02300.pdf Github : https://github.com/HRNet/DEKR HRNet/DEKR This is an official implementation of our CVPR 2021 paper "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression" (https://arxiv.org/abs/2104.02300) - HRNet/DEKR github.com 오랜만에 읽고싶은 논문이 생겨서 이렇게 리뷰를 작성해본다. 논문은 그동안 가끔 읽었었는데 정리를 하는건 엄청 오랜만이라, pose estimation 카테고리에 쓸지, paper review 카테고리에서 쓸..

Paper Review 2021.06.23

[Paper Review] Toward fast and accurate human pose estimation via soft-gated skip connections

Bulat, Adrian, et al. "Toward fast and accurate human pose estimation via soft-gated skip connections." arXiv preprint arXiv:2002.11098 (2020). Paper : arxiv.org/abs/2002.11098 Toward fast and accurate human pose estimation via soft-gated skip connections This paper is on highly accurate and highly efficient human pose estimation. Recent works based on Fully Convolutional Networks (FCNs) have de..

Paper Review 2020.11.22 (2)

[Paper Review] DCNv2 : Deformable Convolutional Networks v2

기존 DCN(Deformable Convolutional Networks) 설명은 아래 포스팅을 참고하기 바란다. 2020/03/08 - [AI Research Topic/Object Detection] - [Object Detection] Deformable Convolutional Networks Github : github.com/CharlesShang/DCNv2 CharlesShang/DCNv2 Deformable Convolutional Networks v2 with Pytorch. Contribute to CharlesShang/DCNv2 development by creating an account on GitHub. github.com Paper : arxiv.org/pdf/1811.111..

Paper Review 2020.11.01 (3)

[Paper Review] An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale

An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale 위 논문은 자연어 처리(NLP) 분야에서 널리 사용되는 Transformer 개념을 컴퓨터 비전 분야에 적용해본 논문이다. 먼저 자연어 처리 분야에서 Transformer 개념은 어떤 것인지 살펴보는게 좋을 것 같다. NLP 에서의 Transformer 자연어 처리 분야에서는 문장과 같은 연결성이 중요한 시퀀스 데이터에서 RNN 계열의 모델이 많이 사용되는데 이는 직전의 출력 결과를 입력으로 사용하여 재귀적으로 활용하게 된다. 하지만 이는 좀 더 멀리 떨어진 단어 보다는 무조건 가까운 단어가 연관성이 높게 나타난다는 단점이 있다. 이러한 문제를 Long-term Depe..

Paper Review 2020.11.01 (2)

[Paper Review] ECA-Net : Efficient Channel Attention for Deep Convolutional Neural Networks

Paper : https://arxiv.org/pdf/1910.03151.pdf Github : https://github.com/BangguWu/ECANet BangguWu/ECANet Code for ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks - BangguWu/ECANet github.com ECA-Net 은 기존에 알려져있는 SENet 보다 성능이 좋아서 Object Detection, Image Classification, Object Segmentation 분야에서 사용되고 있는 모델이다. 기존 일반적인 CNN 구조에서는 Local Receptive Field 만을 가지고 학습을 하기 때문에 전체적인 ..

Paper Review 2020.10.10

[Paper Review] BAM(Bottleneck Attention Module), CBAM(Convolutional-BAM)

BAM 및 CBAM 개요 Self-Attention 의 대표적인 네트워크인 BAM(Bottleneck Attention Module) 및 CBAM(Convolutional-BAM) 모듈을 잠깐 설명하도록 하겠다. 일단 두 모듈 모두 3D Attention Map 을 Channel-wise / Spatial-wise 로 분해하여 계산한다. 연산 및 파라미터 오버헤드는 1~2% 수준으로 매우 미미한 편이라고 한다. 이 두 모듈 모두 아주 단순한 pooling 및 convolution 으로 이루어져있다. BAM (Bottleneck Attention Module) 위와 같이 BAM 은 각 네트워크의 bottleneck 에 위치하게 된다. 여기서의 bottleneck 은 spatial pooling 이 이루어지..

Paper Review 2020.10.10

[Paper Review] Generalized Focal Loss : Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

Li, Xiang, et al. "Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection." arXiv preprint arXiv:2006.04388 (2020). github : https://github.com/implus/GFocal implus/GFocal Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection - implus/GFocal github.com Abstract One-stage detector는 기본적으로 객체 탐지 문제를 dense c..

Paper Review 2020.07.20

[Paper Review] FairMOT : A Simple Baseline for Multi-Object Tracking

Paper : https://arxiv.org/pdf/2004.01888v4.pdf Github : https://github.com/ifzhang/FairMOT ifzhang/FairMOT A simple baseline for one-shot multi-object tracking - ifzhang/FairMOT github.com 1. Introduction MOT(Multi-Object Tracking)는 컴퓨터 비전 분야에서 longstanding goal 이다. MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것이다. 객체의 궤적을 잘 추적하게 되면 Action Recognition, Sport Videos Analysis, Elderly Care, Human Comput..

Paper Review 2020.06.23

[Paper Review] CBAM : Convolutional Block Attention Module

CBAM 논문을 살펴보았다. 저자가 한국인이라서 그런지 몰라도 논문 이름부터 시작해서 논문이 잘 읽히는 편이었고, 이미 저자가 논문을 정리해 놓은 자료도 있어서 이해하기 수월했다. CBAM 논문은 BAM(Bottleneck Attention Module) 에 이어 나온 논문이다. 두 논문 모두 CNN의 성능 향상을 위한 Self-attention Module 을 제안하고 있다. 여기서는 CBAM 의 내용을 주로 다루기로 한다. CNN 계열에서 Attention 개념은 주로 Image Captuioning 처럼 multi-modal 간의 관계를 이용한 feature selection 에서 많이 사용되었다고 한다. Attention 이라는 것 자체가 어떠한 특성에 대하여 "집중"하는 것인데, Image Cl..

Paper Review 2020.06.07

[Paper Review] Imbalance Problems in Object Detection : A Review

Paper : https://arxiv.org/pdf/1909.00169v1.pdf Project page : https://github.com/kemaloksuz/ObjectDetectionImbalance kemaloksuz/ObjectDetectionImbalance Lists the papers related to imbalance problems in object detection - kemaloksuz/ObjectDetectionImbalance github.com 본 게시물은 위 논문을 번역하여 나름 .. 다시 정리한 글 입니다. 1. Introduction 객체 탐지(Object Detection, OD) 분야에 있어서 불균형(Imbalance) 문제는 피할 수 없는 주제이다. 객체 탐지란..

Paper Review 2020.01.30 (1)

[Paper Review] M2Det : A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

객체 탐지(Object Detection) 분야에서 객체 인스턴스(Instance)의 스케일(Scale) 변화는 주요 challenge 중 하나이다. 일반적으로 이 문제를 해결하기 위한 두가지 방법은 이미지 피라미드(Image Pyramid)에서 객체를 탐지하는 것과 입력에서 추출된 Feature Pyramid 에서 객체를 탐지하는 것이다. 전자의 방법은 메모리와 계산 복잡성을 증가시키기 때문에 효율성이 떨어지며, 후자의 방법은 트레이닝 및 테스트 단계에서 활용할 수 있고, 전자의 방법보다는 메모리와 계산 비용이 적게 든다. 또한 이 Feature Pyramid 는 End-to-end 방식이기 때문에 쉽게 통합이 가능하다는 장점을 가진다. M2Det(Multi-level and Multi-scale De..

Paper Review 2020.01.09 (7)

[Paper Review] YOLACT : Real-time Instance Segmentation

You Only Look At CoefficienTs 이번 ICCV 2019 에 발표된 YOLACT 논문이다. 파이토치로 구현되어있다. https://github.com/dbolya/yolact Abstract YOLACT 는 Instance Segmentation 를 수행하기 위해 단순한 컨볼루션 모델을 제시한다. 이는 MS COCO 기준 29.8 mAP 및 33.5 fps 를 달성하여 실시간으로 객체를 탐지할 수 있다. 처음엔 프로토타입 마스크 세트를 생성하고, 인스턴스 별 마스크 계수(coefficient)를 예측한다. 그 다음 프로토타입을 마스크계수와 선형으로 결합하여 인스턴스 마스크를 생성하게 된다. 이 프로세스는 repooling에 의존하지 않기 때문에 고품질의 마스크를 생성할 수 있다고 한다..

Paper Review 2019.11.16 (4)
728x90
반응형