[Deep Learning] 딥러닝에서 Synthetic Dataset 을 이용하여 학습하는 연구들
학습 데이터가 부족할 때 가상 세계에서 얻어진 데이터를 이용해 볼 수 있다. 즉 언리얼 엔진을 이용하여 만들어진 GTA 게임에서 Synthetic DataSet 을 생성하여 데이터를 보완 해 볼 수 있다. (GTA 게임 안해봄...)
찾아보니 관련 연구가 여러가지 있었는데 보통 Teacher-Student 형태의 학습 방식을 사용한다. 즉 대규모 데이터인 Synthetic Dataset을 이용하여 Teacher Net 을 구성하여 Pre-training 하고, Real Dataset 을 이용하여 Student Net 을 구성함으로써 fine-tuning 하는 방식이다.
Synthetic Dataset 에는 보통 자율 주행 환경 (Car, Person Segmentation, ..) 데이터가 많았으며, 안전 장비 데이터, 사람 데이터 등이 있다. (참고 자료 2, 3)
두 가지 정도 연구를 소개하자면 아래와 같다.
- Playing for Data: Ground Truth from Computer Games
- Learning to Train with Synthetic Humans
Playing for Data: Ground Truth from Computer Games
컴퓨터 비전은 대용량 데이터 세트에서 학습된 모델을 사용하게 되는데, 대규모 데이터 세트를 만드는 것은 매우 많은 비용이 들기 때문에 본 논문에서는 컴퓨터 게임에서 추출한 이미지에 대해 semantic label maps 을 빠르게 생성하는 방법을 제시한다. 합성 된 25,000 개의 이미지에 대해 dense pixel-level semantic annotations 을 생성하여 제시된 접근 방식을 검증한다.
획득 한 합성 데이터를 사용하여 실제 이미지를 보완하면 정확도가 크게 향상되고 수집 된 데이터를 사용하면 실제 데이터의 양을 줄일 수 있다고 한다.
Project Page : download.visinf.tu-darmstadt.de/data/from_games/index.html
GitHub : github.com/manuelschmidt/playing-for-data
Learning to Train with Synthetic Humans
이 논문도 Synthetic Humans 을 이용하여 학습 하는 방법을 설명하고 있으며, 데이터 세트를 어떻게 만드는지에 대해서도 코드를 제공하고 있다. 이러한 방식으로 아래와 같은 데이터 세트를 제공한다.
2D multi-person pose annotation, camera blur parameters, the camera matrix, the depth map, gender tags, normal maps, object Id maps, the SMPL+H pose coefficients, 3D joint locations, an occlusion label for each joint (heuristic), a scale parameter, body part segmentation maps, SMPL+H shapes, global translation for each synthetic human and the z-rotation of each synthetic human.
위 데이터 Ground Truth 양식 참고 :
github.com/DavHoffmann/Multi-humanDataGeneration/tree/master/demo
또한 이 논문에서는 3 개의 데이터 세트를 제공한다. 무작위 배경에서 인간을 합성하여 구성된 멀티 2D 포즈 데이터 세트와 증강 된 MPII Human Pose Dataset의 버전 등을 제공하는데, 이 데이터 세트를 다운로드하려면이 웹 사이트에 등록해야한다고 한다.
GitHub : github.com/DavHoffmann/Multi-humanDataGeneration
MPII-mixed dataset
@article{multihumanflow,
title = {Learning Multi-Human Optical Flow},
author = {Ranjan, Anurag and Hoffmann, David T and Tzionas, Dimitrios and Tang, Siyu and Romero, Javier and Black, Michael J},
journal = {International Journal of Computer Vision (IJCV)},
month = jan,
year = {2020},
url = {http://humanflow.is.tue.mpg.de },
month_numeric = {1}
}
@inproceedings{Hoffmann:GCPR:2019,
title = {Learning to Train with Synthetic Humans},
author = {Hoffmann, David T. and Tzionas, Dimitrios and Black, Michael J. and Tang, Siyu},
booktitle = {German Conference on Pattern Recognition (GCPR)},
month = sep,
year = {2019},
url = {https://ltsh.is.tue.mpg.de},
month_numeric = {9}
}
참고자료 1, Synthetic Dataset 를 모아놓은 Github 저장소
: github.com/unrealcv/synthetic-computer-vision
참고자료 2, 호야님 블로그
: hoya012.github.io/blog/Tutorials-of-Object-Detection-Using-Deep-Learning-performance-one/
참고자료 3, Virtual World Personal Protection Equipment dataset (VW-PPE)
@inproceedings{DiBenedettoCBMI2019,
title={Learning Safety Equipment Detection using Virtual Worlds},
author={Di Benedetto, Marco and Meloni, Enrico and Amato, Giuseppe and Falchi, Fabrizio and Gennaro, Claudio},
booktitle={Content-Based Media Indexing 2019},
year={2019}
}
'AI Research Topic > Dataset' 카테고리의 다른 글
[Dataset Augmentation] albumentations (0) | 2023.04.26 |
---|---|
[Dataset] MS COCO 데이터를 쉽게 이용할 수 있는 FiftyOne 사용하기 (0) | 2021.08.10 |
[Dataset] COCO(Common Objects in Context) Dataset (4) | 2021.03.16 |
[Dataset] 이미지 인식에 유용한 데이터셋 정리 (2020.09.14) (0) | 2020.09.14 |
[Dataset] MCL DATASETFOR VIDEO SALIENCY DETECTION (0) | 2020.09.11 |