[论文笔记] Swin UNETR 论文笔记: MRI 图像脑肿瘤语义分割

Author: Sijin Yu

[1] Ali Hatamizadeh, Vishwesh Nath, Yucheng Tang, Dong Yang, Holger R. Roth, and Daguang Xu. Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images. MICCAI, 2022.

📎开源代码链接

1. Abstract

2. Motivation & Contribution

2.1 Motivation

2.2 Contribution

3. Model

1

  1. 将输入的图像打成 Patch.

    输入的图像为 XRH×W×D×S. 一个 Patch 的分辨率为 (H,W,D), 一个 Patch 的形状为 RH×W×D×S.

    则图像变为一个 Patch 的序列, 序列长度为 HH×WW×DD.

    在本文中, Patch size 为 (H,W,D)=(2,2,2).

    对于每个 patch, 将其映射为一个嵌入维度为 C 的 token. 因此, 最终得到分辨率为 (HH,WW,DD) 的 3D tokens.

  2. 对 3D tokens 应用 Swin Transformer.

    一层 Swin Transformer Block 由两个子层组成: W-MSA, SW-MSA.

    经过一层 Swin Transformer Block, 一个 3D tokens 每个方向上的分辨率变为原来的 12, 通道数变为原来的 2 倍. 见 Fig.1 的左下角.

    W-MSA 和 SW-MSA 分别是规则的、循环移动的 partitioning multi-head self-attention, 如下图所示.

    2

4. Experiment

4.1 Dataset

4.2 对比实验

3

5. Code

以下链接提供了使用Swin UNETR模型进行BraTS21脑肿瘤分割的教程:Open In Colab

下面是部分核心代码注释:

5.1 数据预处理和增强

5.2 Swin UNETR 模型架构

组件的定义如下:

5.2.1 SwinTransformer

5.2.2 UnetrBasicBlock

5.2.3 UnetrUpBlock

5.2.4 UnetOutBlock