[NeRF-CAM 논문리뷰] - COORDINATE-AWARE MODULATION FOR NEURAL FIELDS

💰새해복 많이 받으세요!!💰

*NeRF-CAM를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!

NeRF-CAM paper: arxiv.org/pdf/2311.14993.pdf

NeRF-CAM github: Coordinate-Aware Modulation for Neural Fields (maincold2.github.io)

Coordinate-Aware Modulation for Neural Fields

Neural fields, mapping low-dimensional input coordinates to corresponding signals, have shown promising results in representing various signals. Numerous methodologies have been proposed, and techniques employing MLPs and grid representations have achieved

maincold2.github.io

1. Simple Introduction

2. Background Knowledge: NeRF

3. Method

- CAM

- IMAGE, NERF, VIDEO with CAM

4. Result

Simple Introduction

NeRF는 현재 3D vision 분야에서 굉장히 핫한 주제이다!

최근 INR (Implicit Neural Representation)에 관심이 생겨서 찾아다보다가, 내가 좋아하는(?) NeRF에 INR을 접목시킨 논문을 소개 받아서 한번 읽어보았다.

사실 논문 읽기전에, 논문에서 CAM이라고 소개하길래, XAI에 관한 논문인줄 알고,

설마 NeRF가 학습하는 방법을 XAI로 설명했다고!? 라는 생각도 하였다..ㅋㅋㅋㅋㅋ

아무튼! CAM 방법론은 NeRF가 1D signal부터 3D representation까지 여러 task를 하나의 구조를 통해 모두 수행할 수 있도록 도와주고, 성능적인 부분도 향상된다고 한다.

한번 살펴보자!

Background Knowledge: NeRF

NeRF 논문리뷰: https://kyujinpy.tistory.com/16

[NeRF 논문 리뷰] - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

* 이 글은 NeRF에 대한 논문 리뷰이고, 핵심만 담아서 나중에 NeRF Code를 이해할 때 쉽게 접근할 수 있도록 정리한 글입니다. * 코드와 함께 보시면 매우 매우 도움이 될 것이라고 생각이 들고, 코드

kyujinpy.tistory.com

*NeRF와 관련된 지식들은 전부 스킵된 채 설명하고 있습니다!

*논문의 저자는 CAM이라고 소개하지만, 저는 XAI에서 이미 유명한 CAM 모델과 헷갈리기(?) 때문에.. NeRF-CAM으로 명칭하겠습니다..ㅎㅎ

Method

Abstract

이 논문의 abstract를 읽어보니 좀 재미있는(?) 것 같아서 가져왔다.

논문의 중요한 핵심은

1. 기존의 MLP와 grid representation 기반의 방법들은 spectral bias로 인해 성능이 낮아지고, 낮은 수렴 속도를 가진다.

2. CAM은 MLP와 grid representation을 neural field 내에서 사용할 때 spectral free-bias를 feature 형태로 주입하는 방법을 제안한다.

3. 이것은 dynamic scene과 static scene에 대해 SOTA를 기록했고, video compression에 대해서도 좋은 성능을 보인다.

제가 느낀 이 논문에서 중요하게 봐야할 부분은 2가지라고 느꼈는데,

MLP와 grid representation의 성능이 나빠지게 하는 spectral bias가 무엇인가!!!

그리고 spectral bias에 대한 문제점을 해결하기 위한 CAM의 구조는 무엇인가!?

이렇게 두가지 관점에서 한번 풀어나가보겠다!

CAM (Coordinate-Aware Modulation)

CAM은 총 3가지 파트로 구성된다.

1. Coordinate-aware modulation

2. Coordinate priority for CAM

3. Feature normalization

각각을 한번 순차적으로 살펴보겠다!

1. Coordinate-aware modulation

Coordinate-aware modulation equation (when applying 1-dimension)

먼저 식을 정의 하기 전에, 기호를 정의 해보자.

1. n,c는 각각 배치 사이즈의 N과 채널 사이즈 C의 index 번호를 의미한다.

2. X는 좌표값이다. (벡터의 shape은 NxD; D는 coordinate dimension)

3. F와 F~ 값은 각각 intermediate feature tensor와 modulated output feature를 의미한다. (F~는 위의 좌변에 해당합니다.)

4-1. r()과 b() 함수는 각각 scale과 shift factor를 의미한다. (gamma와 beta function)

4-2. 또한 각 함수는 NxD 벡터를 N 벡터로 projection 한다.

5. T와 B는 scalar value로, 각각 single-channel grids와 주어진 각 좌표를 의미한다.

해당 수식을 풀면 다음처럼 해석 가능하다.

0. MLP와 Grid 기반 방법론을 parallel하게 활용하기 위해서 coordinate-aware modulation을 정의한다.

1. 여기서 Fn,c는 MLP에서 나오는 tensor vector를 의미한다. (매우 중요!)

2. 또한 각각의 r(), b()에서 나오는 scalar value는 grid를 기반으로 얻은 것이다! (매우 중요!)

3-1. 모델에 입력값을 들어간 Input coordinate을 바탕으로 MLP에서 넣어서 intermedidate feautre를 추출한다.

3-2. 또한, 입력된 좌표값을 grid sampling을 통하여 각각의 scale과 shift factor를 생성한다.

4. 이렇게 얻어진, Fn,c와 scale, shift factor를 equation (1)에 따라서 계산하여 modulated output feature를 완성한다!!

논문의 저자들은, 해당 수식이 고차원의 coordinate에 대해서도 compactness를 보존할 수 있다고 언급한다.

- Appendix에 있는 grid function을 읽어보니, 훈련되는 것 같다.

- 그래도 Grid function에 대한 이해가 잘 안되니, 코드를 뜯어봐야겠다. 어떻게 grid를 만드는지 알아야겠다 ㅋㅋㅋㅋ

- 위의 코드에서, 딱 보니, grid_sample을 통해서 gamma와 beta에 대한 함수값을 정의하는 것 같다.

- 일단 입력값으로, nn.Parameter와 coordination 값이 있다는 걸 기억해보자.

- grid_sample 함수는 위와 같이 정의되어 있다.

- 코드를 보니, sampling 방법과 유사한 것 같은데, bilinear interpolation 보다 좀 더 효과적으로 sampling할 수 있는 function인 것 같다.

1. nn.Parameter를 활용하여, 임의적으로 sampling을 진행한다.

2. 입력된 coordination에 해당하는 위치를 찾아서, 그 위치에 해당하는 nn.Parameter로부터 만들어진 vector space에서 가져온다.

3. 그리고, view(2,-1,1)을 통하여서, shape을 맞추어서, 0번째를 gamma function으로 정의하고 1번째는 beta function으로 정의했다.

-> 초깃값으로, scale은 전부 1, shift는 전부 0으로 설정한다.

+) 기하적의미를 가져야 하기 때문에 grid 좌표를 [-1,1]로 설정하였다.

# 좌표 (-1, 1)로 normalization 하는 방법

# Input image의 width size와 height를 고려하여서 (0, 1)로 resize
x /= IMAGE_WIDTH - 1 
y /= IMAGE_HEIGHT - 1

# 아래의 과정을 통해서, (0,1) => (-1,1)
x = (x - 0.5) * 2
y = (y - 0.5) * 2

2. Coordinate priority for CAM

해당 부분은 input coordination이 만약 높은 차원이라면, 어떤 것을 선택하여서 grid를 통해 scalar value를 뽑아내야 하는가에 대한 저자의 설명이다.

핵심부분은, NeRF를 학습할 때는 view-direction에 대한 coordination을 추가하고, D-NeRF와 video representation은 시간축에 대해서 우선순위를 매긴다.

우선순위가 매겨진 coordination을 활용하여서 grid를 통해 scale 및 shift 값을 추출하게 된다.

3. Feature normalization

해당 부분은 나도 보고 조금(?) 놀랐다.

일단 논문의 저자가 설명하는 가설은, CAM에서 intermediate feature를 관찰하였을 때, 다양한 분산을 가진 특징 벡터들이 학습할 때 regularization이 안되는 것처럼(?) 행동하고 있다는 것이다.

따라서, 각 intermediate feature를 그들의 평균과 분산을 활용해 normalization을 해주고 넣어주는 방식으로 학습하였고, 이랬을 때 CAM이 더 안정화되고 수렴속도가 빨라졌다고 서술하였다.

모델 입력값 중간에 normalization을 적용한다는 것은 약간 새롭다(?)

- 제가 잘못 이해한 줄 알고, 코드를 살펴봤는데 진짜였다?! 와우 ㅎㅎ

IMAGE, NERF, VIDEO with CAM

IMAGE

앞에서 나온, CAM 방법론과 거의 비슷한 얘기이다.

다만 IMAGE이기 때문에, 2-dimensional coordinates가 이용된다는 점이 차별된다!

또한 feature normalization에서 설명한 것 처럼, intermediate feature F가 각 layer마다 normalization되어서 들어간다.

똑같이 grid representation을 통해서 scale과 shift factor를 추출하여 사용한다.

출처: pytorch 기본 문법 및 코드, 팁 snippets - gaussian37

추가로, bilinearly interpolation을 어떻게 설명하면 좋을까하다가, 아주 좋은 자료를 찾았다.

이 자료는, 제가 위해서 언급한 grid_sample에 대해서 아주 자세하게 다루고 있어서, 한번 읽어보면 이해에 도움이 될 것 같다!

논문에서 언급한 내용을 쉽게 설명하면, (아까 언급한 grid_sample 코드에 나온 변수명을 기준으로) grid의 좌표를 바탕으로 input에 매칭될 때, 소수점이 생기는 경우가 있는데 이 소수점에 해당하는 값을 bilinear interpolation을 이용했다는 것 같다.

NERF (Novel View Synthesis)

NeRF도 똑같다!

다만, 입력값과 grid representation에 이용되는 X의 값이 살짝 다르다는 점만 유의하면 된다.

MLP에 들어갈 때는, 기존 NeRF처럼 3차원 좌표로 부터 sampling 된 S points와 camera parameters들을 활용하여서, 5D feature를 input으로 하면 된다.

다만, grid representation에서는 camera parameter만 이용해서 Nx2의 shape을 구성한다는 점! 유의해야한다.

다만, D-NeRF와 같은 dynamic scene에서는 시간축 t가 핵심이기 때문에, grid representation에 활용되는 X가 1차원이다.

VIDEO

VIDEO도 D-NeRF와 유사하다.

CAM에서는 NeRV 논문을 기반으로, 시간축 t를 활용하여서 grid representation을 수행했다고 한다.

거의 다 동일하지만, 평균과 분산을 계산할 때, NxC를 기준으로 각각의 채널마다 계산한 값으로 normalization한 것을 알 수 있다.

Result

- 1D signal에 대한 성능도 좋다!

- Image generalization, novel view synthesis 뿐만 아니라 video representation에서도 상당히 좋은 성능을 보인다.

- Dynamic scene에 대한 성능도 PSNR 값이 가장 높다..! (Parameter도 적어서 효율적이다)

Ablation study

- 확실히 CAM에서 제안한 grid-representation과 MLP를 함께 적용하는 방법론이 유의미하다는 것을 보여준다.

- 2024.02.09 Kyujinpy 작성.

(간만에 약간(?) 어려운 논문을 읽느라 2~3시간을 쓴 것 같다! 궁금하신 점은 댓글로 남겨주세요)

'AI > Paper - Theory' 카테고리의 다른 글

[ControlNet 논문 리뷰] - Adding Conditional Control to Text-to-Image Diffusion Models (0)	2024.02.12
[MoE 논문 리뷰] - Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (0)	2024.02.12
[Tune-A-Video 논문 리뷰] One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation (0)	2023.08.15
[DDIM 논문 리뷰] - DENOISING DIFFUSION IMPLICIT MODELS (14)	2023.08.15
[DDPM 논문 리뷰] - Denoising Diffusion Probabilistic Models (9)	2023.08.04

kyujinpy

[NeRF-CAM 논문리뷰] - COORDINATE-AWARE MODULATION FOR NEURAL FIELDS

Contents

Simple Introduction

Background Knowledge: NeRF