Pix2Pix

该论文是 image to image translation 中一篇比较经典的文章,设计了一个基于 GAN 的通用框架。

Contributions

论文比较突出的亮点有如下:

  • 使用 cGAN,输入是图像而不是随机噪声,固定输出语义;
  • G 使用 U-Net 结构,用 skip-connection 共享更多的信息;
  • Pacth-D 来降低计算量并提升效果;
  • 加入 $L_1$ 损失函数而不是 $L_2$ 保证输出图像更清晰。

Architectures

Pix2Pix 示意如图 1 所示,输入 pair data:



Figure 1: Training a conditional GAN to map edges→photo


G 网络使用 U-Net 结构,如图 2 所示:



Figure 2: Two choices for the architecture of the generator


D 网络使用 $L_1$ 损失函数,并且基于 Patch 判别真假。

Objective Function

cGAN 的对抗损失如下:
$$
\mathcal{L}_{cGAN}(G,D)=\mathbb{E}_{x,y}[\log D(x,y)] + \mathbb{E}_{x,x}[\log(1-D(x,G(x,z)))]
$$

$L_1$ 能够减少模糊:
$$
\mathcal{L}_{L_1}(G)=\mathbb{E}_{x,y,z}[||y-G(x,z)||_1]
$$

所以最终的损失为:
$$
G^*= \arg \min_G \max_D \mathcal{L}_{cGAN}(G,D) + \lambda \mathcal{L}_{L_1}(G)
$$

Authors

Berkeley AI Research (BAIR) Laboratory, UC Berkeley

References

请作者吃酒!