Author: Sijin Yu
2023年10月11日
[1] CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection
[2] Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts
2023年10月13日
[3] MRM: Masked Relation Modeling for Medical Image Pre-Training with Genetics
ICCV-2023 医学大模型News1.【器官分割】【肿瘤检测】CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection1.0 文章信息1.1 摘要1.2 模型1.2.1 问题定义1.2.2 Text Branch1.2.3 Vision Branch1.3 部分实验2. 【医疗视觉语言模型】【Prompting 工程】Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts2.0 文章信息2.1 摘要2.2 模型2.2.1 问题定义2.2.2 Prompt Pool2.2.3 视觉和文本的 embedding2.2.4 多训练目标3. 部分实验3. 【多模态】MRM: Masked Relation Modeling for Medical Image Pre-Training with Genetics3.0 文章信息3.1 摘要3.2 模型3.2.1 MRM (Masked Relation Modeling)3.2.2 relation masking 的重建3.2.3 关系匹配 (Ralation Matching)3.2.4 优化目标3.3 部分实验
标题: CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection
arXiv URL: https://arxiv.org/abs/2301.00785
代码: https://github.com/ljwztc/CLIP-Driven-Universal-Model
会议/期刊: ICCV-2023
越来越多的公开数据集对自动器官分割和肿瘤预测产生了显著影响.
但是, 因为每个数据集的规模小和部分标注问题, 以及对每种肿瘤有限的调查, 导致模型往往只能分割特定的器官/肿瘤, 而忽略图像的语义和解刨学结构, 它们不能被拓展到新的领域. [⚠️注: 这里说的“部分标注问题”指的是, 数据集中一部分数据有标签, 而另一部分无标签.]
为了解决这一问题, 我们提出了 CLIP-Driven Universal Model (CLIP 驱动的通用模型), 它将 CLIP 里的词嵌入学习合并到分割模型.
这一基于 CLIP 的标签编码捕获了解剖学关系, 使模型能够学习结构化的特征嵌入, 可以分割 25 种不同的器官和 6 种不同的肿瘤.
我们提出的模型从 14 个数据集合并后的数据训练而来. 一共使用了 3410 张 CT 扫描作为训练, 并且在此外的 3 个数据集里取了另外 6162 张 CT 扫描用作评估.
我们在 MSD 公开排行榜上排名第一, 并且在 BTCV 上达到了 SOTA.
此外, 这一通用模型比起特定数据集模型有更高效的计算性能 (快了 6 倍), 在不同的 CT 扫描站点间有更好的泛化能力, 并且在新任务上表现出了更强大的迁移学习能力.
模型分为 text branch (文本分支)、 vision branch (视觉分支), 并使用了 masked back-propagation (掩码回传).
令一个数据点是
解
解
令
令
text-based controller (基于文本的控制器):
令
text-driven segmentor (基于文本的分割器): 对于每个要预测的类别
下面是在 MSD 数据集上做分割的结果.
下面是综合计算性能和分割性能的比较.
下图是一些分类结果的可视化.
标题: Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts
arXiv URL: https://arxiv.org/abs/2302.08958
代码: https://github.com/zhjohnchan/PTUnifier
会议/期刊: ICCV-2023
医学视觉语言预训练 (Medical vision-and-language pre-training, Med-VLP) 在许多下游医学任务中展现出其发展前景, 因为它对医学图像和文本的通用表示提取的适用性.
实际上, 这种模型存在两种主要的类型: 融合编码 (fusion-encoder) 类型和双塔编码 (dual-encoder) 类型. 这取决于模型是否使用了一个复杂的融合模块.
前者 (融合编码) 在多模态任务上表现更强, 因为它有充足的模态间互动; 而后者 (双塔编码) 在单模态和跨模态任务上更强, 因为它有强大的单模态编码能力.
为了结合两者的优点, 我们提出了一个有效但直接的模型, PTUnifier 以合并两种类型.
我们首先引入视觉和文本提示 (visual and textual prompts) 以统一输入格式, 它可以作为最具代表性的图像/文本特征库.
通过如此做, 一个单一的模型可以作为适应不同输入格式的、处理多种任务的基础模型 (例如, 仅图像, 仅文本, 图像-文本).
此外, 我们构造了一个提示池 (prompt pool) (而不是静态的池) 以提高多样性和可扩展性.
实验结果说明我们的方法在一系列的任务中取得了 SOTA 结果, 包括跨单模态任务 (spanning uni-modal tasks) (例如图像/文本分类、文本摘要), 交叉模态任务 (cross-modal tasks) (例如图像到文本生成、图像-文本/文本-图像检索), 和多模态任务 (multi-modal tasks) (例如视觉语言问答). 这些均证明了我们方法的有效性.
请注意, 这种提示的方法与大多数现有的 Med-VLP 模型正交, 这意味着这可能是对这些方法有益的、互补的拓展.
下图 (a) 对比了双塔模型 (左) 和融合模型 (右) 在不同任务上的优势 (绿) 和劣势 (红). 图 (b) 是本文模型的概览, 其中 Backbone Model 共享权重.
给定一个医学图像的 embedding
当只有图像输入时,
当只有文本输入时,
当同时有图像和文本输入时,
其中,
[⚠️注: 这里暂时只是形式上这样记, 此时只需要搞清楚:
令
令
令
令
令
则, 学习的过程可以被形式化表示为:
令
令
定义 visual prompt pool 为
当模态缺失时, 也即只有单一模态输入时, 我们通过池化操作 (平均池化/最大池化) 得到一个已有模态的查询向量 (query vector).
当仅视觉输入时, 即文本缺失:
当仅文本输入时, 即视觉缺失:
其中,
Visual Embedding:
对于一个图像输入
Textual Embedding:
在图像的基础上, 增加一个句结尾 SEP token.
模型同时在下面任务下学习:
(MLM) Masked Language Modeling
(ITM) Image-Text Matching
(ITC) Image-Text Contrast
下图为与其它模型的对比.
下图为三个训练任务组合的消融实验.
标题:
代码: https://github.com/CityU-AIM-Group/MRM
会议/期刊 ICCV-2023
在自动多模态医疗诊断的现代深度学习技术依赖于大量的专业标注, 这是费时费力的.
最近, 基于图像掩码模型 (Masked Image Modeling, MIM) 的预训练方法在从无标签的数据中学习有意义的表达和迁移到下游任务方面取得了重大进展.
但是, 这些方法只关注于自然图像, 而忽略了医学数据中的特性, 导致在医疗问诊的下游任务上泛化性能表现不佳.
在本文中, 我们旨在利用遗传学来促进图像预训练, 并提出一个关系掩码模型 (Masked Relation Modeling, MRM) 框架.
我们没有像以前的 MIM 方法一样, 直接掩盖输入数据, 这将导致疾病相关语义的缺失. 取而代之, 我们设计了关系掩码, 在自模态和跨模态层面, 掩盖 token 级别的特征关系, 这在输入中保存了完整的语义信息, 并允许模型学习更丰富的疾病相关信息.
除此以外, 为增强语义关系建模, 我们提出关系匹配 (relation matching) 以对齐完整的和掩盖的特征在样本层面的关系.
关系匹配通过鼓励特征空间中的全局约束, 来利用样本间关系, 为特征表示提供足够多的语义关系.
大量的实验证明, 我们提出的框架简单但强大, 在各种下游诊断任务中达到了 SOTA 迁移性能.
[⚠️注: 这篇文章把医学图像 (image) 和遗传信息 (genome) 当作两个输入模态, 但是处理方法完全可以类比到传统的多模态, 只需要把 genome 当作 text]
下图: 不同的掩码策略的对比.
(a) 自然图像中的 MIM.
(b) 在医学数据中的 MIM, 容易把发病点 mask, 导致无法辨认疾病.
(c) 本文的 MRM, 将 relation mask 掉, 并且在样本层面匹配.
下图: 模型框架总览.
自模态 relation masking
对于第
使用三个独立的 MLP 分别计算
计算 self-modality relation
对于矩阵
其中,
masked 的关系矩阵
对于 genome 模态, 同理得到
互模态 relation masking
通过上述过程, 得到
计算 cross-modality relation
这里的
同上理, 对
计算
将
将
将它们 concat 起来, 令
令
重建 image 和 genome 的 loss 为:
自模态的关系匹配
考虑一个批量大小为
计算样本之间的特征表达相似性
计算样本之间的 masked feature 的特征表达相似性
Relation Matching 的 loss 为
互模态的关系匹配
Relation Matching 的 loss 为
使用超参数
在四种基于视网膜图像的下游任务训练集中与 SOTA 的对比
在视网膜图像下游任务中的迁移学习能力; 以及关于 self-masking, cross-masking, self-matching, cross-matching 的消融实验.