728x90
반응형

 

3일 전에 나온 따끈 따끈한 논문을 소개한다. 3D Reconstruction / Modeling / Representation 분야와 밀접한 연관이 있다.

 

Deep Structured Implicit Functions 라는 논문인데, 제안하는 DSIF(Deep Structural Implicit Functions) 알고리즘을 통해 표면을 정확하게 재구성하고, 효율적으로 계산하며, 다양한 모양의 범주를 일반화하고, Depth 카메라로부터 추론을 가능하게 하는 3차원 모양을 나타내고 학습할 수 있다고 한다. SOTA 인 OccNet 보다 10.3 정도 높은 성능을 제공하면서도 일관성 있게 각 입력에 대해 구조화된 3D 양상을 생성해낸다. 

 

3D Shape Representation 분야는 표면의 재구성, 분석, 압축, 일치, 보간, 조작 및 시각화를 포함한 많은 응용 분야에서 활용되고 있는 주제이다. 대부분의 비전과 관련된 응용 프로그램의 경우 3차원 표현은 다음 조건들을 만족시켜야야한다고 한다.

 

  1. 표면의 세부사항들을 정확하게 재구성 하는 것 (Reconstruction with accurate surface details)
  2. 복잡한 형상으로 확장가능 할 수 있는 것 (Scalability to complex shapes)
  3. 임의 토폴로지 지원 (Support for arbitrary topologies) -> 이전에 수행한 적 없는 현상에 대해 재구성하는 것으로 추측됨 
  4. 보이지 않는 형상 클래스에 대한 일반화 (Generalizability to unseen shape classes)
  5. 어떤 특정 응용 도메인으로부터의 독립성 (Independence from any particular application domain)
  6. 형상이 먼저인 인코딩 (Encoding of shape priors)
  7. 컴팩트한 스토리지 (Compact storage)
  8. 계산 효율성 (Computational efficiency)

이를 모두 만족하는 3D Representation 은 현재 없다고 한다. 전통적인 방법들은 1~5 번 까지 제공하지만, 이들은 정확도에 비례하여 대용량의 저장 및 계산량이 필요하며, 형상을 우선적으로 인코딩하지 않는다. 대조적으로 deep network decoders 나 latent vectors 와 같이 학습된 Representation 들은 네트워크 가중치에서 미리 형상을 인코딩하는데 탁월하지만, 복잡한 형상에 대한 세부 정보를 재구성하거나 학습 분포 외부의 형상 클래스로 일반화시키는데 어려움을 겪는다고 한다. 

 

여기서의 latent vector 란 우리말로는 잠재변수를 뜻하며, Hidden Parameters 라고도 한다. (주로 GAN 에서 나옴)

 

 

 

이 논문의 핵심 아이디어는 DSIF(Deep Structured Implicit Functions)를 유추하여 학습 할 수 있는 파이프라인을 개발하는 것이다. DSIF는 local deep implicit function 의 구조화된 집합으로 3D Shape 을 나타낸다. 

 

이 DISF representation 은 형상을 가우시안으로 표현되어 겹치는 로컬 영역 세트로 분해한다는 점에서 기존 SIF (Structured Implicit Functions)와 유사하다고 한다. 그러나 latent vector 를 DIF (Deep Implicit Functions)로 디코딩 할 수 있는 각 로컬 영역과 연관시켜서 더 세밀하게 기하학적 디테일을 생성한다고 한다. DSIF 는 임의의 위치 x 에 대한 내부 및 외부 함수 f (x, z)를 추정하기 위해 신경망으로 평가 될 수 있는 latent vector 로서 형상을 인코딩한다는 점에서 DIF 와 유사하다고 한다. DSIF 의 latent vector 는 로컬 공간 영역(SIF Gaussians)과 관련된 부분으로 분해되어 확장성, 일반화 및 계산 효율성이 향상된다. 

 

이 논문에서는 DSIF 를 제안할 뿐만 아니라 3D autoencoding, depth image, partical surface 의 설계가 가능하다. 먼저 SIF 에서 예측한 가우스 함수와 관련하여 잔차(Residual)인 로컬 함수를 예측하기 위해 DIF 를 사용할 것을 제안한다. 또한 공간의 SIF 분해를 통해 예측된 각 형상 요소 내에서 input 3D points 를 수집하여 이를 PonitNet 으로 인코딩하고, 로컬 영역에는 DIF 인코더로 초점을 맞출 것을 제안한다. 마지막으로 DSIF 의 성능을 향상시키기 위해 SIF를 개선시키고 DIF를 단순화했다고 한다. 

 

 

 

이 논문은 ShapeNet Dataset 뿐만 아니라, Body Modeling 영역에서도 두각을 나타내고 있다. 다양한 3D Body Shape 에 대해 표면을 스캔하는데 있어서 스캔 프로세스의 노이즈 및 폐색(Occlusion)으로 인한 구멍(hole)이 존재한다. 이 논문에서는 supervision 이나 도메인 별 특정한 template 없이도 3차원 형상을 완성하는 방법을 학습한다고 한다. Expressive Body Capture 논문에 이어 3D Shape Reconstruction 분야에 관심이 있다면 한번 보면 좋을 것 같은 논문이었다. 

 

 

 

Paper : https://arxiv.org/abs/1912.06126

 

Deep Structured Implicit Functions

The goal of this project is to learn a 3D shape representation that enables accurate surface reconstruction, compact storage, efficient computation, consistency for similar shapes, generalization across diverse shape categories, and inference from depth ca

arxiv.org

 

Project :

https://www.profillic.com/paper/arxiv:1912.06126?fbclid=IwAR2x_6LxwV5s1zRmlKm55IPXARd1Kd1Ihamo9zlM1k-qIhnyZAl8TAFHP9U

 

Deep Structured Implicit Functions - Profillic

Explore state-of-the-art in machine learning, AI, and robotics. Browse models, source code, papers by topics and authors. Connect with researchers and engineers working on related problems in machine learning, deep learning, natural language processing, ro

www.profillic.com

 

Youtube : https://youtu.be/HCBtG0-EZ2s 

 

 

 

728x90
반응형