본문 바로가기

AI/Paper - Theory

[Instant-stylization-NeRF 논문 리뷰] - Instant Neural Radiance Fields Stylization

반응형

*Instant Neural Radiance Fields Stylization를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!

 

Instant Neural Radiance Fields Stylization paper: [2303.16884] Instant Neural Radiance Fields Stylization (arxiv.org)

 

Instant Neural Radiance Fields Stylization

We present Instant Neural Radiance Fields Stylization, a novel approach for multi-view image stylization for the 3D scene. Our approach models a neural radiance field based on neural graphics primitives, which use a hash table-based position encoder for po

arxiv.org

 

Instant Neural Radiance Fields Stylization github: GitHub - lsx0101/Instant-NeRF-Stylization: Instant Neural Radiance Fields Stylization

 

GitHub - lsx0101/Instant-NeRF-Stylization: Instant Neural Radiance Fields Stylization

Instant Neural Radiance Fields Stylization. Contribute to lsx0101/Instant-NeRF-Stylization development by creating an account on GitHub.

github.com


Contents

1. Simple Introduction

2. Background Knowledge: Instant-NGP

3. Method

4. Result


Simple Introduction

NeRF는 2D images 데이터셋을 가지고 ray 형성을 통해서 3D 객체 정보를 형성하는 아주 혁신적인 모델이다.

역시나 NeRF도 vision의 분야이기 때문에 stylization 분야가 매우 핫하다.

 

해당 논문은 NeRF의 training time을 빠르게 하면서 stylization을 같이 잡은 stylization 논문이다.

과연 어떠한 방법을 이용했는지 살펴보자.


Background Knowledge: Instant-NeRF

Instant-NGP 논문리뷰: https://kyujinpy.tistory.com/85

 

[Instant-NGP 논문 리뷰] - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

*이 글의 목표: Hash-encoding 완전 이해하기!!! *Instant-NGP를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! Instant-NGP paper: nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf Instant-NGP github: Git

kyujinpy.tistory.com

 

Instant-NGP에서 소개된 hash-encoding 방법론이 해당 모델에 쓰였기 때문에 꼭 공부를 하고 오기를 바란다!


Method

Instant-stylization-NeRF 논문리뷰

해당 모델의 architecture이다.

훈련 과정은 다음과 같다.

1. (x,y,z) 3D information은 각각 content hash encoding, style hash encoding에 넣어서 representation vector를 만든 후, content와 style에 맞는 density를 MLP를 통해서 추출한다.

2. 그리고 (θ, ϕ)를 Direction encoding에 넣어서 feature를 생성한다.

3. 그 다음 density에서 나온 geometric feature를 MLP-RGB에 넣어서 content와 style의 color를 추출한다.

    - 여기서 network를 공유하는 이유는, style에 대한 color값과 content에 대한 color값을 같이 고려할 수 있는 network를 설계하기 위해서이다.

3. 논문에서는 huber loss를 이용하였다.

    - delta값은 코드에서 0.01로 설정하고 있다.


추가적으로 해당 논문의 inference 과정이 신기하다.

1. 먼저 Voxel Grid position을 만든 후, training과정에서 만들어진 position encoder에 넣어서 content와 style에 대해서 voxel grid feature를 만든다.

2. 그리고 (x,y,z)의 값을 content MLP-density에 넣어서 feature를 생성한 후, 위에서 만들어진 content, style voxel grid feature를 AdaIN에 넣는다.

    - 논문에서 제안한 변형된 구조의 AdaIN이다. 여기서 f(x,y,z)가 MLP-density에서 나온 값이고, 나머지 Fs와 Fc가 각각 style, content voxel grid feature 값을 나타낸다.

3. AdaIN에서 나온 값에서 (θ, ϕ)의 값을 합쳐준 후, MLP-RGB에 넣어서 최종적인 stylization 결과를 추출한다.


 

+) 해당 논문에서 사용되는 style image set는 전부 3D 형태이다. 따라서 훈련과정에서 (x,y,z)를 추출하고 학습할 수 있는 것이다.

+) 논문에서 2D image를 3D로 변환해서 사용한 것인지, 아니면 기존의 3D style image를 사용한 것인지는 정확하게 알 수 없다. ㅠㅠ


Result

- 기존의 있는 논문들에 비해서 어느정도 스타일을 잘 잡는다는 것을 알 수 있고, ARF, UPST과는 비슷한 듯 하다.

 

Consistency score

- LPIPS를 이용한 consistency score이다. Short는 5 scene, Long은 15 scene의 차이가 있도록 하여 계산하였다. 기존의 모델들 보다 consistency가 높다는 것을 알 수 있다.

 

- 논문의 저자들은 여러가지 network 구조를 실험해보면서 지금의 구조가 가장 적합하다는 것을 소개하고 있다.


- 2023.07.01 Kyujinpy 작성.

 

반응형