[论文笔记] RCG: 通过生成表示的自条件图像生成

Author: Sijin Yu

论文基本信息:

标题: Self-conditioned Image Generation via Generating Representations 作者: Tianhong Li, Dina Katabi, Kaiming He arXiv: https://arxiv.org/abs/2312.03701 GitHub: https://github.com/LTH14/rcg

1. Abstract

2. Motivation & Contribution

2.1 Motivation

2.2 Contribution

3. Model

1

模型分为三个部分:

(a) 使用一个 image encoder (例如 Moco v3) 将原始图像分布 (Image Dist.) 映射到一个低维的表示分布 (representation distribution, Rep. Dist.).

(b) 学习一个表示生成器 (Rep. Generator), 将噪音分布 (Noise Dist.) 映射到表示分布 (Rep. Dist.).

(c) 学习一个像素生成器 (例如 LDM 或 MAGE) 将噪音分布 (Noise Dist.) 映射到图像分布 (Image Dist.), 并以表示分布 (Rep. Dist.) 为条件.

3.1 Image Encoder

3.2 Representation Generator

2

3

3.3 Pixel Generator

4

3.3 Classifier-free Guidance

4. Experiment

4.1 Setup

4.2 Comparison Result

5

4.3 Ablation Result