[OmniInsert 논문 리뷰] - Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

*OmniInsert를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!

OmniInsert paper: https://phantom-video.github.io/OmniInsert/

OmniInsert

Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models * Equal contribution, † Corresponding author, ‡ Project lead Intelligent Creation Lab, Bytedance Research Paper GitHub

phantom-video.github.io

1. Simple Introduction

2. Background Knowledge: Diffusion Transformer

3. Method

4. Result

Simple Introduction

오늘날 video generation AI가 많이 떠오르지만, 이 가운데 (개인적인 생각으로) 어려운 분야가 있다면 video editing이다.

Video editing이 어려운 이유는 다음과 같다:

Input video의 시공간적 정보를 모델이 이해하여야 함
Text prompt에 맞는 새로운 객체 정보가 input video에 자연스럽게 반영되어야 함
동시에, input video가 원래 가지고 있던 정보는 훼손되면 안됨

Video editing에도 종류가 엄청나게 다양한데, object editing, texture editing, background editing, 등등이 있다.

여기서 오늘날까지도 잘 안되는 분야가 바로 video object insertion (VOI)이다.

Object를 추가한다는게 generation prior를 유지하면 잘 될 것이라고 생각하지만, 실제로는 그렇지 않다.

자연스러운 motion을 가진 object를 input video의 정보를 훼손하지 않으면서 insertion하는게 어려운 작업이다.

오늘 소개할 OmniInsertion은 video object insertion (VOI)을 위한 mask-free 모델 구조를 소개하였는데, 같이 살펴보자!

Background Knowledge: DiT

DiT 논문 리뷰: https://kyujinpy.tistory.com/132

[Diffusion Transformer 논문 리뷰3] - Scalable Diffusion Models with Transformers

*DiT를 한번에 이해할 수 있는(?) A~Z 논문리뷰입니다! *총 3편으로 구성되었고, 마지막 3편은 제 온 힘을 다하여서.. 논문리뷰를 했습니다..ㅎㅎ *궁금하신 점은 댓글로 남겨주세요! DiT paper: https://ar

kyujinpy.tistory.com

*Diffusion Transformer 기반 아키텍쳐 입니다!

Method

OmniInsert는 Condition-Specific Feature Injection (CFI) 방법을 제안했다.

우선 source video와 target video간의 공간적 효율 연산을 위해, equation (2)와 같이 latent vector를 channel-wise하게 연결한다.

여기서 Z_T는 target video latent, Z_S는 source video latent, 그리고 f_S는 모두 zero로 구성된 vector이다.

그리고 subject condition은 video condition과 함께 temporal concatenation을 진행하는데, 이는 효율적으로 subject motion과 continuity를 잡는데 도움을 준다고 한다.

일단 subject condition 자체의 구성은 equation (3)처럼 channel-wise하게 연결한다.

여기서 Z_I는 clean/noisy subject latents이고 f_I는 one으로 구성된 flap map이다.

최종적으로 모델에 들어가는 input z_t는 Concat [z_Vid, Z_sub]로 구성되며, 여기서 temporal concatenation을 진행한다.

모델 훈련은 LoRA를 활용하였고, 모델 backbone에 대한 정보는 명확하게 없지만 요즘 떠오르는 hunyuanvideo나 WAN-video를 사용하지 않았을까 싶다.

Training Pipeline

성공적인 훈련을 위해, OmniInsert는 4-stage training pipelines을 제안하였다. 각 stage 별로 무엇을 중점에 두고 훈련을 했는지 살펴보자.

Stage1. source video condition 없이 subject condition과 text prompt만으로 video 생성하기 (motion capability 향상)

Stage2. Stage1에서 훈련된 모델 위에, source video를 추가해서 학습. (이떄 identity inconsistency 한계점 발생)

Stage3. High-fidelity portraits and synthetic renderings으로 구성된 curated dataset으로 refinement.

Stage4. Small number의 human-annotated preference pairs를 활용해 fine-tuning을 진행하는데, IPO 방법 활용. (밑에 loss functions 부분에서 자세히 설명)

Stage1~3까지는 일단 기본적인 flow matching loss와 더불어서 Subject-Focused Loss를 활용하여 훈련하였다.

Subject-Focused Loss는 subject regions에 대한 부분에 대해서 flow matching loss를 계산하는 것이다.

Equation (4)를 보면 M이 있는데, 이는 subject에 해당하는 mask region을 의미한다.

Stage4에서는 IPO loss를 통해서 최적화를 진행하는데, 쉽게 얘기하면 강화학습을 통해 학습했다는 것이다.

일단 DPO에서 변형된 수식이라서 equation (7)부터 보겠습니다.

- first term: 인간이 선호하는 data에 대한 모델의 확률값 (높아야 함)

- second term: 인간이 비선호하는 data에 대한 모델의 확률값 (낮아야 함)

IPO를 표현하는 equation (6)에는 DPO와 더불어서 한가지 term이 추가되었습니다.

- 해당 부분에 대한 설명은 안 나와있지만, 수식자체로만 보면 현재 model policy에 regularization을 주는 역할을 한다.

Inference Pipeline

일단 기본적으로 오늘날 모든 diffusion generation work들은 Classifier-free guidance (CFG)를 활용하게 된다.

여기서 특이하게, OmniInsert는 거의 모든 condition의 조합을 다 활용하여 CFG를 적용하는 것을 볼 수 있다. (equation 8)

논문의 저자들은 해당 inference을 통해

-> multiple conditions에 대한 balance있는 joint CFG를 적용할 수 있다고 언급했다.

- 이 부분은 VOI를 위한 데이터셋 생성 pipeline을 보여주는 이미지인데, 궁금하신 분들은 논문을 참고해주시길 바랍니다!

- 학습과정에서 활용한, hyper-parameters

Result

- Closed Model VOI 모델들과 비교했을 때, 성능이 훨씬 뛰어난다

- 모델들의 시각적 결과인데, 더 많은 결과들은 project page를 참고해주세요!

- 2025.11.07 Kyujinpy 작성.

~~Video Object Insertion 연구하고 있었는데, 이 논문 나와서 연구 엎어진건 안 비밀..ㅠㅠ~~

'AI > Paper - Theory' 카테고리의 다른 글

[UniCon 논문 리뷰] - A SIMPLE APPROACH TO UNIFYING DIFFUSION BASED CONDITIONAL GENERATION (0)	2026.01.18
[WAN-Alpha 논문 리뷰] Video Generation with Stable Transparency via Shiftable RGB-A Distribution Learner (0)	2026.01.18
[FlowAlign 논문 리뷰] - Trajectory-Regularized, Inversion-Free Flow-based Image Editing (1)	2025.08.16
[FlowDirector 논문 리뷰] - Training-Free Flow Steering for Precise Text-to-Video Editing (3)	2025.08.15
[FlowEdit 논문 리뷰] - Inversion-Free Text-Based Editing Using Pre-Trained Flow Models (1)	2025.08.15

kyujinpy

[OmniInsert 논문 리뷰] - Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

Contents

Simple Introduction

Background Knowledge: DiT