no image
[Model Optimization] ModelBench app
https://github.com/apple/ml-mobileone/tree/main/ModelBench
2023.08.18
no image
[Paper Review] FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization
Paper : https://arxiv.org/abs/2303.14189 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization The recent amalgamation of transformer and convolutional designs has led to steady improvements in accuracy and efficiency of the models. In this work, we introduce FastViT, a hybrid vision transformer architecture that obtains the state-of-the-art latency arxiv.org GitHub : htt..
2023.08.18
no image
[3D Pose and Shape] Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
Project page : https://motion-x-dataset.github.io/ Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset We propose Motion-X, a large-scale 3D expressive whole-body motion dataset. Existing motion datasets predominantly contain body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions. Moreover, they are primarily collecte motion-x-dataset.git..
2023.08.07
no image
[3D Pose and Shape] 3D Human Pose Visualizer
https://github.com/isarandi/poseviz GitHub - isarandi/poseviz: 3D Human Pose Visualizer for Python 3D Human Pose Visualizer for Python. Contribute to isarandi/poseviz development by creating an account on GitHub. github.com
2023.08.07
no image
[Transformer] Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
Overview 얼마전 Google DeepMind에서 "Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution" 라는 논문이 나왔습니다. 기존 컴퓨터 비전 모델에서는 이미지를 처리하기 전에 고정된 해상도로 이미지 크기를 설정하게 되고, ViT(Vision Transformer)와 같은 모델은 flexible sequence-based modeling을 하기 때문에 다양한 input sequence length를 제공하게 됩니다. 본 논문에서는 임의의 해상도와 종횡비(aspect ratio)를 처리하기 위해 학습 중에 sequence packing을 사용하는 NaViT(Native Resolution ViT)를 제안합니..
2023.07.21
no image
[Backbone] DreamTeacher: Pretraining Image Backbones with Deep Generative Models
Overview 오늘 리뷰할 논문은 NVIDIA, University of Toronto, Vector Institute, MIT에서 낸 "DreamTeacher: Pretraining Image Backbones with Deep Generative Models" 입니다. ICCV 2023에 채택되었네요. 이 논문에서는 downstream image backbone을 사전 학습 하기 위해 generative network를 활용하는 DreamTeacher 기법을 소개합니다. 즉, 생성 모델의 knowledge를 특정 인식 작업을 위해 잘 설계된 standard image backbone으로 추출하는거죠. 어떻게 보면 역으로 사용했다고 보면 되네요. 먼저 label-efficient semantic se..
2023.07.17
no image
[Diffusion] DISCO: Disentangled Control for Referring Human Dance Generation in Real World
Project page : https://disco-dance.github.io/ DISCO: Disentangled Control for Referring Human Dance Generation in Real World Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synt disco-dance.gith..
2023.07.13
no image
[Model Optimization] Speed Is All You Need: On-Device Acceleration of Large Diffusion Models via GPU-Aware Optimizations
Paper : https://arxiv.org/abs/2304.11267 Blog : https://ai.googleblog.com/2023/06/speed-is-all-you-need-on-device.html Speed is all you need: On-device acceleration of large diffusion models via GPU-aware optimizations Posted by Juhyun Lee and Raman Sarokin, Software Engineers, Core Systems & Experiences The proliferation of large diffusion models for image generation has led to a significant in..
2023.07.12
no image
[Diffusion] 생성모델에서의 Latent Space, Latent Space Vector 개념
생성 모델은 해당 데이터의 분포를 따르는 기존에는 없던 새로운 데이터를 생성해내는 모델이다. 생성모델은 데이터의 분포를 학습하게 되는데, 데이터는 Latent Space를 가지고 있으며 학습 할 때 이 Latent Space를 학습하는 것이라고 할 수 있다. 참고로 latent는 데이터가 가지고 있는 잠재적인 변수를 뜻한다. Latent Vector는 한 이미지가 가지고 있는 잠재적인 벡터 형태의 변수이고, Latent Vector들이 모여서 latent space가 형성이 되는 것이다. Latent Space에는 우리가 학습시킬 이미지들이 Latent Vector의 분포 형태로 존재하게 되고 모델을 통해서 이미지가 가지고 있는 Latent의 분포를 학습하게 된다. 기존의 이미지 분류, 탐지 모델들은 이..
2023.07.07
no image
[Diffusion] ControlNet, Adding Conditional Control to Text-to-Image Diffusion Models
오늘 리뷰할 논문은 ControlNet 입니다. Stable Diffusion 구조를 이용하여 specific-task condition을 학습 할 수 있도록 한 end-to-end 모델입니다. ControlNet의 핵심은 Zero Convolution이라고 할 수 있겠네요. 이번 리뷰 논문은 pdf로 작업했기 때문에 이미지로 대체하여 업로드 합니다. 🫶
2023.07.07
no image
[Object Tracking] Simple Online and Realtime Tracking
Paper : https://arxiv.org/pdf/2203.14360.pdf GitHub : https://github.com/noahcao/OC_SORT GitHub - noahcao/OC_SORT: [CVPR2023] The official repo for OC-SORT: Observation-Centric SORT on video Multi-Object Tracking. OC- [CVPR2023] The official repo for OC-SORT: Observation-Centric SORT on video Multi-Object Tracking. OC-SORT is simple, online and robust to occlusion/non-linear motion. - GitHub - n..
2023.06.19
no image
[Object Tracking] Tracking Everything Everywhere All at Once
Paper : https://arxiv.org/abs//2306.05422 GitHub : https://omnimotion.github.io/ Tracking Everything Everywhere All at Once Tracking Everything Everywhere All at Once omnimotion.github.io Google Research가 연구에 참여한 Tacking Everything Everywhere All at Once 논문은 비디오 프레임 내에 있는 full-length motion trajectory를 추정하는 새로운 방법을 제안하였습니다. 이전 optical flow 또는 particle video tracking 알고리즘 같은 경우 일반적으로 제한된 window 내..
2023.06.19