본문 바로가기

AI/Paper - Theory

[FlowAlign 논문 리뷰] - Trajectory-Regularized, Inversion-Free Flow-based Image Editing

반응형

*FlowAlign를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!

 

FlowAlign paper: https://arxiv.org/abs/2505.23145

 

FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing

Recent inversion-free, flow-based image editing methods such as FlowEdit leverages a pre-trained noise-to-image flow model such as Stable Diffusion 3, enabling text-driven manipulation by solving an ordinary differential equation (ODE). While the lack of e

arxiv.org


Contents

1. Simple Introduction

2. Background Knowledge: FlowEdit

3. Method

4. Result


Simple Introduction

FlowAlign

최근 inversion-free 방법으로 image editing하는 방법들이 떠오르고 있다!

특히 rectified flow를 활용한 FLUX와 같은 모델들을 사용해서 해당 분야에서 좋은 효과를 보이고 있는데, 최근에는 flowedit 방법론이 대표적이었다.  

 

하지만 flowedit은 editing이 잘 되긴 하지만, source image와의 consistency를 고려하지 못하여 source image가 가지는 특징들이 약간 손실된다는 단점이 있었다.

 

FlowAlign은 flowedit의 inversion-free 방법에서 source consistency를 고려할 수 있는 term을 추가해서 editing 성능을 높인 방법이다!

 

가볍게 설명들으러 가시죠!


Background Knowledge: FlowEdit

FlowEdit 리뷰: https://kyujinpy.tistory.com/175

 

[FlowEdit 논문 리뷰] - Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

*FlowEdit를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! FlowEdit paper: https://arxiv.org/abs/2412.08629 FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow ModelsEditing real images using a pre-trained

kyujinpy.tistory.com

*FlowEdit의 한계점을 극복한 논문이기 때문에, 알고오시면 좋습니다!


Method

FlowAlign 요약 ppt

기존의 sampling (denoising) 과정에서는 classifier-free-gudiance (CFG)에 관한 scale value만 있었다.

하지만, FlowAlign에서는 source consistency를 고려하는 scale value도 추가한다.

 

여기에는 총 3개의 input이 들어간다!

- [source latent (q), source prompt]

- [target latent (p), source prompt]

- [target latent, target prompt] 

 

알고리즘1에서 주의깊게 볼 수식은 line 7,8,10이다.

line7: target latent에 대한 velocity 계산.

=> source/target prompt에 대한 차이를 활용해서 CFG 계산

line8: source latent에 대한 velocity

line10: Semantic Guidancesource consistency에 대한 latent를 x_t에 추가

=> x_t는 source에서 target으로 서서히 변해가는 t 시점의 latent

=> Source image에서 target image로 가는 path에 대해서 guidance를 주는 것이, semantic guidance

=> 변화하는 path에서 regularization term으로 활용되는 것이, source consistency

*자세한 수식 전개와 증명은 논문 참고!


Result

Result

- Source와 edited image 결과물

 

Result2

- 다른 모델에 비해서, background consistency 유지가 잘 된다.

 

quantiative result

- Quantitative result에서도 flowalign의 성능이 가장 좋다.


- 2025.08.16 Kyujinpy 작성.

 

반응형