[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)

Adversarial Training (GAN)
サーベイ
D3 岩澤有祐

概要
• Adversarial Training (GAN)系の最近の成果について
まとめました
– 主にICLR2016，NIPS2016
– 合計16本
• ちなみにGAN論文（2014, Jun）の引用は約200
– 初出2013年のVAEは約300なのでペース的には同じくらい
• NIPS2016で発表に含められてないものもあり
– “Coupled Generative Adversarial Networks”
（面白そう）
– “Disentangling factors of variation in deep representation
using adversarial training”（まだ上がってない？）

まとめと感想
• Adversarial Trainingの肝は分布を近づけること
– 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも
できる
– 近づけたい分布がランダムなノイズから生成した分布である必要もな
い (ex. Censoring representation)
• GANはちょっとずつ使いやすくなってる
&色んな所で利用されている
• 半教師ありでもSOTA
• 研究はなんかVAEと似てるの多い
– DRAW vs. VRAN
– Censoring vs. Variational Fair Auto Encoder
– Info-GANも似たのあったはず
– 動画生成はあんまVAE見たことない

目次
• GANの基本
• GANの問題点とその対策に関する研究
• GANに関する応用研究

Generative Adversarial Nets
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron
Courville, Yoshua Bengio
概要
MinMaxゲームで生成モデル
先行研究と比べてどこがすごい？
結果
生成された画像もきれいかつ訓練を覚えてる
わけでもない（左図）
尤度で当時良かった?DBNや Generative
stochastic networksを上回る (右表）
生成モデルの新しい形，VAEみたいに分布を
仮定しないので画像がきれい（上図参照）
SGDで解ける
イメージは貨幣偽造者vs.警察
NIPS2015

Conditional Generative Adversarial Nets
Mehdi Mirza, Simon Osindero
概要
何らかの情報yで条件付けた画像を表示するた
めの方法を提案
Gが生成する画像をyで条件付ける以外は基本
GANと同じ（左図）
結果
条件付けた画像が生成できる（右図）
たぶん各行がラベルyを固定したもので
各列が潜在変数zを固定したもの
ちゃんと条件付けたものが生成できてる
（zでの条件付けは微妙な気がする）
ちなみに尤度は論文中でGANに負けてる
Arxiv

GANの問題点とその対策に関する研究

GANの問題点とその対策手法の個人的対応
1. 学習が難しい
– GMMN (ICML2015), CGMMN (NIPS2016)
– DCGAN (ICLR2016)
– GRAN (Arxiv)
– f-GAN (NIPS2016)
– Improved Techniques for GAN (NIPS2016)
2. zが解釈できない
– Adversarial Autoencoder (ICLR2016, Workshop)
– Info-GAN (NIPS2016)
3. 評価が難しい
– いろんな研究がいろんなことしてる

Generative Moment Matching Networks (GMMN)
Yujia Li, Kevin Swersky, Richard Zemel
概要
- GANのDをMMD で代替
- MMD (Maximum Mean Discrepancy) は，カー
ネルを使って積率の一致度を測る方法
- カーネルが微分可能なら微分可能
- MMDを使うと目的関数が単純になる
- Con: MMDの正確さはカーネルや
そのパラメタの選び方に依存
- AutoEncoderと組み合わせること（xじゃな
くてzでマッチングする）でGANを上回る
結果
GMM+AEで尤度がGANを上回る（右2表）
GMMだけだと画像が荒い印象（個人的見解）
ICML2015
MMDは計算重いのでNNで使う場合普通は
近似する（と思う）cf. ”VFAE [Louizos, 2016]”
この論文がやってるかは知らない
補足

Conditional Generative Moment-Matching Networks (CGMMN)
Yong Ren, Jialian Li, Yucen Luo, Jun Zhu
※まだちゃんと読んでないのでざっくり
概要
GMMNを条件付けられるようにしたCGMMNを
(Conditional Generative Moment Matching
Networks) を提案
そのために，MMDを拡張したConditional MMD
を提案
結果
クラス分類，画像生成，Bayesian Dark
Knowledge (BDK) で評価
クラス分類タスクで普通のVAEとかより良い
精度（左表），純粋な教師ありには負ける
条件付けてちゃんと生成できてる（右図）
BDKにも使える（論文中表3）
NIPS2016

DCGAN
Alec Radford, Luke Metz, Soumith Chintala
概要
GANが安定しない問題を解決するために種々
の経験則を入れたもの
- プーリングの代わりに畳み込み
- GにはReLUを，DにはLeakyReLU
- BNをGとDどちらにも使う
- 全結合は使わない
結果
LSUNデータセットを使い寝室画像を生成
（きれい！中央図）
意味の演算っぽい事もできる（右図）
Dの特徴は教師あり学習にも使える
ICLR2016

Generating Images with Recurrent Adversarial Networks (GRAN)
Daniel Jiwoong Im, Chris Dongjoo Kim, Hui Jiang, Roland Memisevic
Arxiv
※まだちゃんと読んでないのでざっくり
概要
GANの生成を系列的に行う（1度にすべて書
く代わり複数回分けて書く）
LAP-GANが粗い画像から徐々に細かい部分を
生成するのに対してGRANはRNNが勝手に
生成する点が違う
結果
かなりきれいな画像が生成できる（中央図）
右図は徐々に生成されている様子

f-GAN: Training Generative Neural Samplers
using Variational Divergence Minimization
Sebastian Nowozin, Botond Cseke, Ryota Tomioka
概要
GANの目的関数 (JS Divergence)を一般化した
f-divergenceを利用するf-GANを提案
それぞれのdivergenceについてGANにどれが良
いか検証
結果
GAN:
f-GAN:
尤度を調べると，JSよりKLのほうが高い
その他諸々+理論的考察
“Note that the difference in the learned distribution
Qθ arise only when the generator model is not rich
enough.”
<-この辺はよくわかってないです
KL
R-KL
Hei
JS
NIPS2016

Improved Techniques for Training GANs
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen
NIPS2016
概要
GANをうまく学習させるための経験則を5つ
提案
1. Feature matching
2. Minibatch discrimination
3. Historical averaging
4. One-side label smoothing
5. Virtual batch normalization
半教師あり学習でState-of-the-art
画像を評価する仕組みも提案
結果（一部）
- MNISTでラベル20枚で誤差1%くらい
- ラベル20枚ということはほぼOne-Shot
- SVHNだとラベル1000枚でエラー率今まで
の約半分（左表）
- 生成事例もキレイ（中央図）
- 左の経験則のどれが重要かをの検証（右
図）

Adversarial Autoencoders
Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, Brendan Frey
概要
AutoEncoderが学習するzの分布q(z)が任意の分
布p(z)に近づくように訓練する
例えば，p(z)としてガウス分布を選べばガウス
分布に押し込むようにq(z)を制限することがで
きる
VAEよりもうまく押し込める（中央図）
ICLR2016
Workshop
結果
MNISTを使った例でVAEよりガウス分布に一致
できることを確認（図中央）
尤度もGAN系の中では良い
その他半教師あり学習，クラスタリング，次
元圧縮などで評価実験

InfoGAN: Interpretable Representation Learning
by Information Maximizing Generative Adversarial Nets
Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel
NIPS2016
概要
Disentangleな表現を学習するようにGANを
拡張
Disentangleな表現
=各次元が何らかの属性に対応するようなもの
手法の詳細
- ランダムなノイズの他に，構造を仮定したノ
イズcを入力して画像を生成 (G(z) -> G(z, c) )
構造を仮定：カテゴリを仮定するならCat，連
続値ならUniform
普通にやるとGANはcを無視して生成する可能
性があるので，cとG(z, c)の間の相互情報量を
最大化する制約を付け加える
結果
上図の通り，例えばMNISTなら数値，椅子な
ら回転，顔なら感情に対応する表現を獲得

GANの評価について
いろんな研究がいろんなことしてる
1. 尤度 2. 人間評価
3. Inception 4. 異なるDとの対戦
- カーネル密度推定とかで尤度を測る
- Con: 正確な推定には大量のデータが必要
（特にデータが増えた場合）
- Con: GANに不利（ぼやけた画像の方が尤度
は高くなる）
URL
See, “ImprovedTechniques forTraining GANs”, NIPS2016
- Inceptionモデルにサンプルxを入力して
p(y|x)を得る
- この時，exp(E[KL(p(y|x)||p(y)))と人間評価に
は強い相関があるらしい
- Again, see “ImprovedTechniques forTraining
GANs”

まずまとめ - 今回含むものを大別すると -
1. 条件付けの工夫によるタスクに適した画像生成
– 文章から画像生成 (ICLR2016)
– 別ドメインの画像から生成 (Arxiv)
2. 動画生成
– “Deep Multi-scale Video Prediction Beyond Mean Square Error”
(ICLR2016)
– VGAN (NIPS2016)
3. 入力XとG(z)以外を近づけるもの
– Fair Representation (ICLR2016)
– Imitation Learning (NIPS2016)

Generative Adversarial Text to Image Synthesis
Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee
ICLR2016
概要
文章で条件付けた画像を生成
GANとの違いは，
1. Gを文章で条件付け（左図）
2. 生成された画像のR/Fだけでなく，文章と
画像のペアが正しいかどうかも考慮
3. 補完によりデータ追加
結果
見たことない記述でも尤もらしく生成
（右2図）
“Blue bird with black beak” ->
“Red bird with black beak”
など2つの文の間を保管すると妥当そうな結果

Pixel-Level Domain Transfer
Donggeun Yoo, Namil Kim, Sunggyun Park, Anthony S. Paek, In So Kweon
Arxiv
概要
異なるドメインの画像を生成するGANモデル
違いは
1. ランダムノイズからではなくソース画像
からターゲット画像を生成
2. ターゲット画像のR/Fだけでなく，ター
ゲット画像とソース画像のペアの妥当性も
考慮

Deep Multi-scale Video Prediction Beyond Mean Square Error
Michael Mathieu, Camille Couprie, Yann LeCun
概要
動画のフレーム予測にATを利用
Optical Flowとかと比べてかなりきれいに生成
できる（右図）+
http://cs.nyu.edu/~mathieu/iclr2016extra.html
http://cs.nyu.edu/~mathieu/iclr2016.html
モデルの詳細（左図）
動画を生成するネットワークGとG(z)と本物の
動画を区別するDを訓練
G部分が変わっただけであとは普通のGAN
※GAN以外にも工夫しているがここでは飛ば
します
結果
既存手法よりきれいな画像が生成できる
定性評価+類似度+シャープさで比較
ICLR2016

Generating Videos with Scene Dynamics (VGAN)
Carl Vondrick Hamed Pirsiavash Antonio Torralba
概要
動画のフレーム予測にATを利用
前頁と比べるとよりATに特化+モデル構造を
工夫
フレーム予測以外でも評価して良い精度
モデル詳細（左図）
BackgroundとForegroundおよびにそのMask
により生成
時間方向含む3次元の畳み込みで生成
ATのやり方は前頁と同じ
結果
- 動き方などは自然な動画を生成できる
（ex. 波，左2図）
- 画像として不自然，解像度が低い等課題も
- 学習された表現は事前学習としても優秀
（右2表，行動認識結果）
- Gを静止画で条件付けることで静止画を動
かすことも可能（右図）
- 未来は不確定なので一致はしないが自然な
動きをする
- http://web.mit.edu/vondrick/tinyvideo/
NIPS2016

Censoring Representation with Adversary
Harrison Edwards, Amos Storkey
ICLR2016
概要
利用する特徴量が何らかの情報を含んでほし
くない場合がある
例1: Fairness
黒人か白人かで推薦結果を変えたくない
例2: Image Anonymization
画像中に氏名や住所を含みたくない
再構築誤差 Fairness/Privacy
クラス分類誤差
結果
画像中から顔は再構築しながら氏名は消すよ
うなことができる（右図）
Fairnessについても既存手法を上回る
難しさ
FairnessやAnonymizationとデータの価値がト
レードオフになりうる

Generative Adversarial Imitation Learning
Jonathan Ho, Stefano Ermon
概要
問題設定として，専門家の行動を真似する
エージェントを作成することを考える
（例：プロ棋士の手を打つエージェント）
これを実現する方法としては逆強化学習が有
名だが，どう行動するか（ポリシー）ではな
く行動の良さの評価関数をまず推定するので，
遅い
逆強化学習から出発して，評価関数の学習を
経ずに直接ポリシーを作ろうとしたらGANと
接続した的な話
NIPS2016
※細かいことはよくわかってない
結果
複数のタスク（Open AI Gym）で比較手法を
上回る
学習したポリシーの事例
https://openai.com/assets/research/generative
-models/gail-ant_ga_25_short-
1f31274a548f6fda15396d607f74c323e1de2eb
53ad9b3d9855d5f5c99600d25.gif

[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)

More Related Content

[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)