DA-GAN

Problem

无监督的图像翻译的目标是在两个独立的集合发现正确的联系,而无需数据对。然而,数据本身是高度结构化的,集合层次的约束不能学习实例级别的关系,这会导致 false positives (geometirc or semantic artifacts),从而导致模型坍塌问题。



Figure 1:(a) text-to image generation. (b)object configuration


如图 1 中,鸟是高度结构化的,在(a)任务中,StackGAN 出现了语义上的错误。在(b)任务中,CycleGAN 出现了几何结构上的错误。

目标:找一个算法能在无监督下同时从集合层次和实例层次寻找有意义的对应关系。

挑战:

  • 在缺少成对关系下,如何利用实例级别的约束?
  • 如何进一步加强集合层次的约束,使模型坍塌问题消除?

对于挑战一,论文把集合层次的图片翻译转成在高度结构化的隐空间下的实例级别的图像翻译问题来解决!

对于挑战二,论文引入 multi-adversarial training procedure。

Contibutions

论文的主要贡献如下:

  • 把任务降解成实例层次的图片翻译,通过组合损失同时利用实例层次和集合层次的约束;
  • 把 Attention 机制引入 GAN 中;
  • 提出 DA-GAN 框架。

Architecture

如图 2 所示,DA-GAN 包括四个模块:Deep Attention Encoder(DAE),a Generator(G) and two discriminators(`$D_1$,$D_2$ )。



Figure 2: A pose morphing example for illustration the pipeline of DA-GAN.


DAE:使用 sigmod 函数近似 step 函数,生成 attention mask。(亮点)
G:包含几个残差块,instance-level 的特征拼接后送进残差块中,再经过上采样生成图片。
D:生成的图片先送进下采样块中,最后全连接输出一个决策分数。

Objective Function

Source domain:$S:\{ s_i\}_{i=1}^{N}$
Target domain:$T:\{ t_i\}_{i=1}^{M}$

Instance-Level

consistency loss: 约束在共享的隐空间中源域到目标域的一致性。
$$
\mathcal{L}_{cst}=\mathbb{E}_{s \sim P_{data}(s) d(DAE(s),DAE(F(s))}
$$

symmetric loss:约束目标域的映射是确定的。
$$
\mathcal{L}_{sym}=\mathbb{E}_{s \sim P_{data}(t) d(DAE(t),DAE(F(t))}
$$

实例级别的约束能够使映射函数找到有意义的对应关系。

Set-Level

multi-adversarial,对于判别器 $D_1$
$$
\mathcal{L}_{GAN}^{s}=\mathbb{E}_{t \sim P_{data}(t)} [\log D_1(t)] + \mathbb{E}_{t \sim P_{data}(s)}[\log(1-D_1(F(s)))]
$$

针对模式坍塌问题,使用判别器 $D_2$
$$
\mathcal{L}_{GAN}^{t} = \mathbb{E}_{t \sim P_{data}(t)}[\log D_{2}(t)] + \mathbb{E}_{t \sim P_{data}(t)}[\log (1- D_{2}(F(t)))]
$$

Total loss

$$
\mathcal{L}(DAE,G,D_1,D_2)= \mathcal{L}_{GAN}^{s}(DAE,G,D_1,S,T) \\ + \mathcal{L}_{GAN}^{t}(DAE,G,D_2,T) + \alpha \mathcal{L}_{cst}(DAE,G,S) + \beta \mathcal{L}_{sys}(DAE,G,T)
$$

Discussion

  • 用 attention 机制和 sigmod 函数生成 mask,可以说是这篇文章一大亮点,能够都反向传播学习,只不过对 $w,h$ 设为图片大小的一半,有点不理解。
  • 将集合和实例层次结合,学习隐空间对应关系,想法很好!
  • 解决模型坍塌的办法,也不错,值得借鉴。
  • 可能由于篇幅有限,文中实验部分,具体架构说的不够详细,期待源码尽快放出。

Authors

The State Universtiy of New York at Buffalo:

Microsoft Research:

参考资料

请作者吃酒!