본문 바로가기

AI/Paper - Theory

[TransUNet 논문 리뷰] - TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

반응형

*TransUNet 논문 리뷰를 위한 글이고, 질문이 있으시다면 언제든지 댓글로 남겨주세요!

 

TransUNet paper: [2102.04306] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation (arxiv.org)

 

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

Medical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become the

arxiv.org

TransUNet github: https://github.com/kenza-bouzid/TransUnet

 

GitHub - kenza-bouzid/TransUnet: This repo reproduces the results of TransUNet: Transformers Make Strong Encoders for Medical Im

This repo reproduces the results of TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation - GitHub - kenza-bouzid/TransUnet: This repo reproduces the results of TransUNet: Tra...

github.com


Contents

1. Simple Introduction

2. Background Knowledge: U-Net, Transformer

3. Method

4. Furthremore


Simple Introduction

Segmentation Result

기존의 Segmentation 분야에서 의료데이터를 활용해서 각 장기들을 segmentation할려는 시도가 있었지만, 성능이 좋지 못하였다.

 

그래서 의료 분야의 대표적인 segmentation인 Unet과 computer vision 분야의 SOTA모델의 대부분 기반이 되는 Transformer를 합친 TransUNet이 등장하게 되었다.

 

Transformer는 안에 네트워크 연산을 보면 voxel보다 데이터를 flatten 시켜서 sequential한 연산이 이루어지는데 이것을 어떻게 UNet과 합쳐서 원래 dimension으로 회복하고 어떻게 skip-connection을 시키는지 한번 알아보자!


Background Knowledge: U-Net, Transformer

(3D)U-Net 논문 리뷰: https://kyujinpy.tistory.com/9

 

[(3D) U-Net 논문 리뷰] - 3D U-Net: Learning Dense VolumetricSegmentation from Sparse Annotation

3D U-Net paper: [1606.06650] 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation (arxiv.org) 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation This paper introduces a network for volumetric segmentation that learns

kyujinpy.tistory.com

Transformer 논문 리뷰: https://kyujinpy.tistory.com/2

 

[Transformer 논문 리뷰] - Attention is All You Need (2017)

Transformer paper: https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also con

kyujinpy.tistory.com

Vision Transformer 논문 리뷰: https://kyujinpy.tistory.com/3

 

[Vision Transformer 논문 리뷰] - AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Vision Transformer paper: https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale While the Transformer architecture has become the de-facto standard for natural language processing tasks, its application

kyujinpy.tistory.com

 

TransUNet은 Transformer와 U-Net의 구조를 합친 모델이기 때문에 위의 모델의 메커니즘을 이해하고 있어야 이해가 편할 것이다!

논문 리뷰글을 찾아서 반드시 공부하자!

 

*해당 논문 리뷰는 Transformer, Vision Transform(ViT) 그리고 U-Net의 개념을 알고 있다는 가정 하에 진행됩니다.


Method

TransUnet

구조를 간단히 보면, 처음에 CNN(ResNet-50 구조)를 이용한 후, Transformer에 넣은 다음에 U-Net 구조로 Upsampling을 시킨다.

자세히 step by step으로 알아보자.

 

1. 데이터를 ResNet-50 구조를 가진 CNN에 넣어서 Feature map을 만든다.

2. Feature map을 Vision Transformer의 구조 처럼, patch를 만든 후, linear project을 진행한다.

3. linear projection을 통해서 만든 embedding을 Transformer layer에 넣는다,

4. Transformer에서 나온 feature들을 reshape을 통해서 1-dimension을 2-dimension으로 만든다.

5. 해당 이미지를 U-Net구조를 활용해서 upsampling을 진행하면서 원래의 dimension으로 회복한다.

    - Up sampling을 진행하면서 skip-connection도 같이 진행한다.

    - Skip connection을 보면 CNN에서 나왔던 hidden feature map을 활용한다.


+) TransUnet은 2D input이다.

+) Medical dataset이지만 2D 형태의 input으로 들어간다는 점! 주의하자.


Furthermore

3D dataset을 이용하는 Transformer + 3D U-Net 구조를 알고 싶다면 UNETR 논문을 살펴보자!

 

UNETR 논문 리뷰: https://kyujinpy.tistory.com/37

 

[UNETR 논문 리뷰] - UNETR: Transformers for 3D Medical Image Segmentation

*UNETR 논문 리뷰를 위한 글이고, 질문이 있으시다면 언제든지 댓글로 남겨주세요! UNETR paper: [2103.10504] UNETR: Transformers for 3D Medical Image Segmentation (arxiv.org) UNETR: Transformers for 3D Medical Image Segmentation Fu

kyujinpy.tistory.com


- 2022.12.30 kyujinpy 작성.

 

반응형