728x90
반응형

 

 

출처 : Terry Taewoong Um 님의 게시물 

 

 

 

[Motion에서도 large dataset의 도래가 멀지 않았다!]

 

딥러닝의 가장 큰 공신은 뭐니뭐니해도 large dataset이다. (그 다음은 뉴럴넷, 그 다음은 GPU). 딥러닝이 지금 사진에서 시작해 음성, 자연어, 비디오로 넘어오고 있는 것도 모두 그들이 웹 또는 모바일에 large dataset을 보유하고 있기 때문이고, 따라서 최신의 딥러닝을 적용하기 참 좋았었다.

 

그런데 모션에 있어서는 왜 딥러닝을 많이 적용하지 못했을까? 그것은 large dataset의 부재 때문이었다. 그냥 모션이 담긴 비디오를 쓰면 안되냐고요? 현재 비디오에 있어서의 딥러닝은 '어디에 어떤 오브젝트가 있다' 정도를 아는 것이 최고 기술이지, 그들의 관절이 어떻게 움직이는지까지는 아직이다.

 

그리고 또 한가지, 우리는 모션을 이해하는데 있어서 (예를 들면) 1000*1000 pixel이 다 필요하지 않다. 70년대에 몸의 곳곳에 전구를 붙여 켠 후 암흑인 곳에서 사람의 움직임을 실험한 적이 있는데, 사람은 그 몇몇의 전구 움직임만으로도 사람의 움직임을 알 수 있었다. 즉 100만픽셀이 아니라 20~30개의 전구 만으로도 운동해석이 가능한 것이다. 그런걸 가지고 비디오를 naive하게게 이용한다는 것은 낭비이다.

 

따라서 모션 연구에서는 비디오보다는 skeleton data를 선호하는데, 이것을 얻으려면 Motion capture (Mocap) 장비를 이용해야한다. 천장에 10대 정도의 적외선 카메라를 설치하고, 실험자 온몸에 마커를 붙인 뒤 사람의 움직임을 트래킹 하는 것이다. 근데 이 작업은 매우 비싸고, 시간낭비일 뿐만 아니라, 구글의 이미지 저장소 같은 large dataset을 구축하기도 힘들다. 각 랩마다 프로토콜도 다르고...

 

그래서 지금까지는 모션 연구에 딥러닝보다는 HMM과 같은 단순한 모델이 많이 적용되었는데, CMU나 Berkeley, NTU 등에서 노가다를 해준 덕에 몇몇 large dataset이 생겼고 (근데 그래도 아직 이미지에 비하면 small이다.), 그리고 이것은 "유투브 비디오에서 skeleton들을 뽑아낼 수 있을 때" 그 양이 폭발한다고 믿고있다.

 

내가 귀찮은걸 엄청 싫어하는지라 로보틱스에 있을 때도 하드웨어를 피해다녔는데(결국 회사가서 오지게 했지만...ㅠ) 모션연구에서는 Mocap데이터 수집이 엄청 귀찮다. 우리 연구실은 모두 Mocap데이터를 써서 연구하는데, 2년전 나는 교수님께 "pose estimation이 점점 발전하고 있다. 그때되면 딥러닝이 적용될거다"라며 딥러닝 쪽을 하겠다고 했고, 연구실에서 홀로 외로이 딥러닝을 하고 있다ㅠ

 

암튼, 그 날이 멀지 않았다. 오늘 공유한 CMU의 실시간 pose estimation은 2D고 (그러니까 조인트의 위치를 추정해서 이미지 상에서 선들을 그은 것이고), 엊그제 MPI에서 이미지에서 3D pose를 실시간으로 추정하는 프레임웍 VNect가 아카이브에 올라왔는 논문을 흥미롭게 보고있다.

 

비록 나의 아주 직접적인 연구분야는 아니고, 또 며칠 안에 써야할 파킨슨병 논문은 손도 대지 않고 있음에도 불구하고...ㅠㅠ

 

- "VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera", https://arxiv.org/abs/1705.01583

 

728x90
반응형