A Learned Representation For Artistic Style

Google Brain 团队提出 N 个风格共用一个模型的方法,解决了之前需要针对每类风格都需要训练一个网络的问题。

内容和风格上的相似一直是个不好定义的问题。最近的基于深度网络的风格转化算法中:

  • 如果两张图片通过CNN 提取出来的高层特征是比较接近的(欧氏距离),则说明两张图片的内容是相似的;
  • 如果两张图片通过CNN 提取出来的底层有共同的统计特征(Gram 矩阵),则说明两张图片的风格是相似的。

其算法训练如图 1 所示:



图1 风格转化网络训练图例

Conditional instance normalization

论文认为多种风格之间共享许多计算,比如说一些印象派的画作其实有着相似的笔触而颜色不同。因此,论文提出针对 N 种风格,可以训练一个条件风格转化网络,除了输入之前的 Content 图片还有对应的 Style 的 id。

作者们发现模型化一个风格时,对于每个具体的风格在归一化后进行特定的缩放和平移,也就是说网络中的卷积权重是多风格共享的。这种方法被称为 conditional instance normaalization,公式如下:
$$
z=\gamma_s(\frac{x-\mu}{\sigma})+\beta_s
$$
其中,$\mu$ 和 $\sigma$ 是 $x$ 的均值和标准差,$\gamma_s$ 和 $\beta_s$ 是第 $s$ 个风格对应的缩放和平移参数,示意如图 2 所示:



图2 Conditional instance normaalization

网络结构

论文中使用的网络结构是文献[2]中的,如下图 3 所示:



图3 网络结构参数

总的来说,论文中的方法能够生成指定数量的预先训练的风格,没有解决任意风格的转化。

参考资料

请作者吃酒!