ICCV-2023 医学大模型

Author: Sijin Yu

 

News

 

1.【器官分割】【肿瘤检测】CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection

1.0 文章信息

标题: CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection

arXiv URL: https://arxiv.org/abs/2301.00785

代码: https://github.com/ljwztc/CLIP-Driven-Universal-Model

会议/期刊: ICCV-2023

1.1 摘要

1.2 模型

1

模型分为 text branch (文本分支)vision branch (视觉分支), 并使用了 masked back-propagation (掩码回传).

1.2.1 问题定义

令一个数据点是 (Xn,Yn), 其中, 这一数据点属于 k[1,K] 个类别. 我们要训练的模型为 F(). 此前有两种多类别预测的解决办法:

  1. Fθ(Xn)=Pnk, 其中, Pn 是一个 one-hot 编码.

  2. Fθ(Xn,ωk)=Pn, 其中, ωk 是一个指明预测哪一类的 one-hot 编码.

1.2.2 Text Branch

1.2.3 Vision Branch

1.3 部分实验

下面是在 MSD 数据集上做分割的结果.

2

下面是综合计算性能和分割性能的比较.

3

下图是一些分类结果的可视化.

4


 

2. 【医疗视觉语言模型】【Prompting 工程】Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts

2.0 文章信息

标题: Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts

arXiv URL: https://arxiv.org/abs/2302.08958

代码: https://github.com/zhjohnchan/PTUnifier

会议/期刊: ICCV-2023

2.1 摘要

2.2 模型

下图 (a) 对比了双塔模型 (左) 和融合模型 (右) 在不同任务上的优势 (绿) 和劣势 (红). 图 (b) 是本文模型的概览, 其中 Backbone Model 共享权重.

5

2.2.1 问题定义

则, 学习的过程可以被形式化表示为:

(1)θ,θ1,,θS=argθ,θ1,,θSmins=1SLs(Ys,Hθs(Mθ(X)))

2.2.2 Prompt Pool

2.2.3 视觉和文本的 embedding

2.2.4 多训练目标

模型同时在下面任务下学习:

3. 部分实验

下图为与其它模型的对比.

6

下图为三个训练任务组合的消融实验.

7


 

3. 【多模态】MRM: Masked Relation Modeling for Medical Image Pre-Training with Genetics

3.0 文章信息

标题:

pdf URL: https://openaccess.thecvf.com/content/ICCV2023/papers/Yang_MRM_Masked_Relation_Modeling_for_Medical_Image_Pre-Training_with_Genetics_ICCV_2023_paper.pdf

代码: https://github.com/CityU-AIM-Group/MRM

会议/期刊 ICCV-2023

3.1 摘要

3.2 模型

[⚠️注: 这篇文章把医学图像 (image)遗传信息 (genome) 当作两个输入模态, 但是处理方法完全可以类比到传统的多模态, 只需要把 genome 当作 text]

下图: 不同的掩码策略的对比.

8

下图: 模型框架总览.

9

3.2.1 MRM (Masked Relation Modeling)

3.2.2 relation masking 的重建

3.2.3 关系匹配 (Ralation Matching)

3.2.4 优化目标

使用超参数 λ 来平衡特征重构关系匹配, 总的 loss 为

(14)L=Lrecon+λ(Lself+Lcross)

3.3 部分实验

在四种基于视网膜图像的下游任务训练集中与 SOTA 的对比

10

在视网膜图像下游任务中的迁移学习能力; 以及关于 self-masking, cross-masking, self-matching, cross-matching 的消融实验.

11