Author: Sijin Yu
Vis-Dec: 使用对比学习和跨模态互注意力预训练 fMRI Encoder, 并以之为条件为 LDM 生成图像1. Abstract2. Motivation & Contribution2.1 Motivation2.2 Contribution3. Model3.1 FRL 第一阶段: 预训练双对比掩码自动编码器 (Pre-training Double-Contrastive Masked Auto-Encoder, DC-MAE)3.2 FRL 第二阶段: 使用互模态引导微调 (Tuning with Cross Modality Guidance)3.3 使用 LDM 的图像生成4. Experiment4.1 Dataset4.2 横向对比4.3 消融实验
标题: Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities 作者: Jingyuan Sun, Mingxiao Li, Zijiao Chen, Yunhao Zhang, Shaonan Wang, Marie-Francine Moens 机构: 鲁汶大学, 新加坡国立大学, 中国科学院 arXiv: https://arxiv.org/abs/2305.17214 GitHub: https://github.com/soinx0629/vis_dec_neurips/ Accepted: NeurIPS 2023
解码功能性磁共振成像 (fMRI) 记录的神经反应中的视觉刺激, 是认知神经科学和机器学习之间的一个有趣交叉点, 这对于理解人类视觉感知的进步充满了希望.
然而, 这项任务由于功能性磁共振成像 (fMRI) 信号的噪声性质和大脑视觉表征的复杂模式而具有挑战性.
为了减轻这些挑战, 我们引入了一个两阶段的功能性磁共振成像 (fMRI) 表征学习框架.
第一阶段使用我们提出的双重对比掩码自编码器 (Double-contrastive Mask Auto-encoder) 来预训练一个功能性磁共振成像 (fMRI) 特征学习器, 以学习去噪的表征.
第二阶段微调特征学习器, 使其关注对视觉重建最具信息性的神经激活模式, 这一过程得到图像自编码器的指导.
优化后的功能性磁共振成像 (fMRI) 特征学习器随后使潜在扩散模型适应, 以便从大脑活动中重建图像刺激.
实验结果表明, 我们的模型在生成高分辨率和语义上准确的图像方面表现出色, 其在50种方式中排名第一的语义分类准确率上比以往的最先进方法高出39.34.
fMRI 信号包含了大量噪音, 其不只是记录了视觉刺激, 还包括了其它认知过程.
fMRI 是血氧水平的信号, 相邻的体素大小相近, 这说明 fMRI 有空间冗余.
对相同的刺激, 人群之间的响应表现巨大的差异.
提出双阶段 fMRI 表征学习框架.
第一阶段: 使用 DC-MAE 在未标记 fMRI 数据上预训练特征学习器, 辨别大脑活动模式.
第二阶段: 使用图像自编码器进一步调整特征学习器.
训练后的 fMRI 特征学习器用于从大脑活动中重建图像刺激.
实验结果显示, 在生成高分辨率、语义准确图像方面显著优于现有技术.
模型分为两个部分: fMRI 的表示学习 (fMRI Representation Learning, FRL) 和使用 LDM 重建视觉信号.
令批量大小为
对于每一个样本
构成正、负样本, 如图所示.
令 fMRI 样本
计算 CA (互注意力): (
以 fMRI 的
Decoder:
在这一阶段的优化目标为:
这个方法很经典, 略过.
HCP1200
GOD
BOLD5000