Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
相互情報量最大化による表現学習
Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/
相互情報量関連論文(前々回の輪読で話したやつ)
• “Learning deep representations by mutual information estimation and maximization”
(ICLR2019)
• “Mutual Information Neural Estimates” (ICML2018)
• “Representation Learning with Contrastive Predictive Coding” (NIPS2018)
• “On variational lower bounds of mutual information” (NIPS2018, workshop)
• “Emergence of Invariance and Disentanglement in Deep Representations ” (JMLR)
• “Deep Variational Information Bottleneck” (ICLR2017)
• ” Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and
GANs by Constraining Information Flow” (ICLR2019, poster)
• “Fixing a Broken ELBO” (ICML2018)
• “MAE: Mutual Posterior-Divergence Regularization for Variational AutoEncoders”
(ICLR2019, poster)
• “EnGAN: Latent Space MCMC and Maximum Entropy Generators for Energy-based
Models” (ICLR2019, reject)
• “Deep Graph Info Max” (ICLR2019, poster)
• “Formal Limitations on the Measurement of Mutual Information” (ICLR2019 Reject) 2
メインで話す
少しだけ触れる
相互情報量最大化による表現学習系の最近の文献
• “Learning Representations by Maximizing Mutual Information”, NIPS2019
• “On Variational Bounds of Mutual Infromation”, ICML2019
• “Greedy InforMax for Biologically Plausible Self-Supervised Representation Learning”,
NIPS2019
• “On Mutual Information Maximization for Representation Learning”
• “Region Mutual Information Loss for Semantic Segmentation”, NIPS2019
• (あとで追加)
3
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
4
表現学習(Representation Learning)
5
Bengio先生のスライドより抜粋
教師なし表現学習
• 教師あり表現学習
– 興味のあるタスクラベルが事前にわかっている
– 例:Image Netでは
– こういう問題設定では、すでに人間を超える精度
• 教師なし表現学習
– 興味のあるタスクラベルは事前にわかっていない
– 再利用可能な表現を観測からどう見つけるか
6
(深層)生成モデルによる教師なし表現学習 2013 ~
• 右のような生成過程を考える
• log 𝑝 𝑥 = 𝑝 𝑥 𝑧 𝑑𝑧
• 良い生成を与えるような表現を学習する
• VAE系やGAN系など多数
– [Kingma+ 14] VAE
– [Donahue+ 17] bidirectional GAN
– [Dumoulin+ 17] adversarial learned inference
7
𝑥
𝑧
Large Scale Adversarial Representation Learning, NIPS2019
8
Jeff Donahue, Karen Simonyan, DeepMind
• 左上:提案手法
• 左下:Image Net、教師なしで
SoTA
• 右上:生成画像もきれい
(Unconditional)
相互情報量最大化による表現学習
• 相互情報量の定義
𝐼 𝑋, 𝑍 =
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑥, 𝑧 log
𝑝(𝑥, 𝑧)
𝑝 𝑥 𝑝(𝑧)
𝑑𝑥 𝑑𝑧
• 解釈:確率変数XがYについての情報をどれくらい持つか
• 性質
– (1) 𝐼 𝑋, 𝑍 ≥ 0
– (2) 𝐼 𝑋, 𝑍 = 𝐻 𝑍 − 𝐻 𝑍 𝑋 = 𝐻 𝑋 − 𝐻 𝑋 𝑍 = 𝐼(𝑍, 𝑋)
– (3) 𝐼 𝑋, 𝑍 = 0 𝑖𝑓𝑓. 𝑋 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 𝑡𝑜 𝑍
• 問題:どうやって計算するのか(Xは観測、Zは特徴量で高次限) 9
相互情報量最大化と再構築誤差
𝐼 𝑋, 𝑍 = 𝔼 𝑝 𝑥,𝑧 log
𝑝 𝑥|𝑧 𝑝(𝑧)
𝑝 𝑥 𝑝 𝑧
= 𝔼 𝑝 𝑥,𝑧 log
𝑝 𝑥 𝑧 𝑞(𝑥|𝑧)
𝑝 𝑥 𝑞 𝑥|𝑧
= 𝔼 𝑝 𝑥,𝑧 log
𝑞(𝑥|𝑧)
𝑝 𝑥
+ 𝐾𝐿(𝑝(𝑥|𝑧)||𝑞 𝑥 𝑧 )
≥ 𝔼 𝑝 𝑥,𝑧 log 𝑞 𝑥 𝑧 + ℎ(𝑋)
10
負の再構築誤差 (Distortion)
• 詳しくは[Poole+18] “On Variational Bounds of MI”, [Alemi+17] “Fixing Broken
Elbo”
• q(x|z)がtractableなら良い(が高次限の出力に難?
• 例:動画の生成
q(x|z)によらない近似:p(z)を近似分布r(z)に置き換える
𝐼 𝑋, 𝑍 =
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑥, 𝑧 log
𝑝(𝑥, 𝑧)
𝑝 𝑥 𝑝(𝑧)
𝑑𝑥 𝑑𝑧
=
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑧|𝑥 𝑝(𝑥) log
𝑝 𝑧 𝑥 𝑝(𝑥)
𝑝 𝑥 𝑝(𝑧)
𝑑𝑥 𝑑𝑧
≤
𝑥,𝑧∈𝒳,𝒵
𝑝 𝑧|𝑥 𝑝(𝑥) log
𝑝 𝑧 𝑥
𝑟(𝑧)
𝑑𝑥 𝑑𝑧
• 利用例:Variational Information Bottoleneck(I(X,Z)を制限)
• 問題:上界なので最大化しても意味がない(下界がほしい)
11
MIの下界を抑える研究郡
12
• [Poole+18] “On Variational Bounds of MI”より抜粋
• いろいろな推定方法とその問題点がまとまっている
(どの下界が良いのかは今回は話しません)
MIを最大化する手法の基本的な考え方:対照推定
• 求めたいのは𝐼 𝑋, 𝑍 = 𝔼 𝑝 𝑥,𝑧 log
𝑝 𝑥|𝑧 𝑝(𝑧)
𝑝 𝑥 𝑝 𝑧
– 同時分布𝑝 𝑥, 𝑧 と、周辺分布の積𝑝 𝑥 𝑝 𝑧 が区別できれば良い
• 同時分布から得られたペア{x,z}と適当なp(z)からサンプルしたz’と
xのペア{x,z’}が区別できれば良い
– p(x)p(z)とp(x,z)を対照推定
• 適当な𝑓𝜃(𝑥, 𝑧)を用意して、{x,z}と{x, z’}の差が大きくなるように
𝑓𝜃(𝑥, 𝑧)自身とエンコーダ: X->Zを学習
13
具体例 (“On Variational Bounds of MI”より抜粋)
14
• ZではなくYで表されているが基本的には同じ
• f(x, y)の置き方によっていろいろな亜種が導ける
具体例:Contrastive Predictive Coding [Oord+18]
15
手法:時刻Tまでの系列の埋め込みcから、未来の
潜在表現zを予測(zとcの相互情報量を最大化)
系列は一貫した情報を表しているはずというpriorを
使っている
テキスト
音声
具体例:Contrastive Predictive Coding [Oord+18]
画像データの場合
16
手法:重なりありでパッチに切って系列っぽく扱う
具体例:DeepInfoMax [Hjelm+19]
17
手法:画像全体の特徴量yとロー
カルな特徴量を対照推定
(画像のローカルな特徴はグ
ローバルな特徴と一致してほし
いと言うpriorを使ってる)
実験:CIFAR10、SVMで分類
18
バク上がり、他にもたくさん実験あるが割愛
ここまでまとめ
• 教師なし表現学習は未解決問題
• デコーダを使わない手法として、対照推定に基づく手法が
近年登場 => 精度大幅な改善
• 具体例:対照推定のときに使っているpriorが異なる
– CPC [Oord+18]
– Deep InfoMax [Hjelm+19]
– など
19
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
20
書誌情報
21
• 基本的には巨大なDeep InfoMax + 細かい工夫
• Image Netで教師なし学習+線形分類で68.1%
– Top1正解率のベースラインを7%改善
• 実装が公開されている( https://github.com/Philip-Bachman/amdim-public)
工夫1:巨大なエンコーダ
22
余談:Tesla V100×8は人権
“We train our models using 4-8 standard Tesla
V100 GPUs per model. Other recent, strong
self-supervised models are nonreproducible on
standard hardware.”
23
工夫2:DIM across Views
24
1. 異なるデータ拡張で画像Xから
X1とX2を得る
2. X1からはSummary Vector cを得る
3. X2からはLocal Vector z_i,jを得る
4. 異なる画像X’と適当なデータ拡張で
得たz’_i,jと対照推定
工夫3:Multiscale Mutual Information
25
固定化した層を使って予測するので
はなく、複数の層間で予測
実験では {1, 5}{1, 7}{5, 5}間で予測
(数字は受容野の大きさ)
工夫4:Mixture-Based Representations
• 各層の特徴量𝑓𝑖を適当な関数𝑚 𝑘に通して混合特徴ベクトル
𝑓𝑖
1
, 𝑓𝑖
2
, … 𝑓𝑖
𝑘
= 𝑚 𝑘(𝑓𝑖)を得る
• これを各層でやって、NCE誤差(MIの下界)を重み付けする
(重みが下の式)
• 気持ちとしては、NCEが大きい特徴を選択するようになる
• (ただそれだとGreedyになるからとH(q)を足してたりよくわからない
26
実験:ImageNet, Places205
27
実験:CIFAR
28
まとめ
• Local DIMを拡張
– 巨大なエンコーダ
– Data Augmentation Prior
– Multiscale Predictions
– Mixture-based representations
• Image Netで教師なしSoTA
• (結局どれが効いているのかはよくわからない)
29
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
30
書誌情報
31
• MI最大化に従って、各層を独立に訓練
• 独立に訓練することで、独立に学習可能、メモリ効率がよくなる、勾配消失が
原理的に起こらないなどの潜在的な利点がある
提案手法:Greedy InfoMax
32
• 基本は各モジュールごとに勾配を止めるだけ
• 各モジュールは接続された下位モジュールの出力でCPC
実験結果(STL10)
33
CPCやSupervisedより高精度
※ Greedy Supervisedの手続きがよくわからない(適宜固定?)
実験結果(LibriSpeech)
34
CPCや教師ありよりはやや悪いがまぁまぁ良い
まとめ
• 層ごとの学習にMIの最大化を利用するGreedy InfoMaxを提案
– CPCベース
• 音声や画像タスクでCPCや全教師ありとComparable
• 特にNCE系の損失はメモリ効率が悪いことが多いので、実用的に
も使える場面はあるかもしれない
(学習遅くなる気がするが)
35
Outline
• 背景:表現学習、相互情報量、対照推定
• 論文1:“Learning Representations by Maximizing Mutual
Information”, NIPS2019
• 論文2:“Greedy InfoMax for Biologically Plausible Self-
Supervised Representation Learning” (NIPS2019)
• 論文3:“On Mutual Information Maximization for Representation
Learning”
36
書誌情報
37
• 最近のMI系の手法が、本当にMIを最大化しているから良いのか?と
言うことに疑問を投げかける実験論文
• まだ採録されたわけではない(と思う)
実験1:可逆なエンコーダを利用したMI最大化
• Flow Basedな手法(例えばRealNVP[Dinh+16])はInvertible(可逆)
• 可逆変換fをかませたz = f(x)を考えると、MI(X;Z)は常に最大
• 可逆変換なfをMI最大化で学習させるとどうなるか?
(MI最大化系の研究が本当に単にMIの最大化なら、精度は変わら
ないはず
38
実験1の結果
39
• (a)MIの推定はほぼコンスタント、(b)一方精度は改善
• 単にMIの最大化という観点だけでは説明できない?
実験2:異なるf(x,y)の形による分類精度とMI
40
• (左)分類精度はBilinearかSeparableがよい
• (右)MIの値はMLPが良い
• MIが高い表現ほど悪い???
実験3:ネットワーク構造の重要性
41
• (左)NCEを使った場合、(右)NWJを使った場合の精度比較
• どちらの損失を使うかより、ネットワーク構造の選び方が支配的
まとめ
• 最近の精度向上が本当にMIの最大化と言う観点から説明できる
のか?についての実験的な検証
• ネットワーク構造が支配的に重要というのは自分が実験したとき
もそうだったので多分そう
• MIを本当に最大化しているのかというより、MI最大化の上で良い
Priorをどう入れるかが重要?
42
全体まとめ
• 相互情報量最大化による教師なし表現学習の最近の話題につい
てまとめた
– 2018年:MI(X,Z)の下界について
– 2019年:どういうネットワーク構造を使うか、どう言うpriorを入れるか
• ImageNet・教師なしで大きな進展
• 感想:MI最大化自体はきれいだが、それ自体というよりは
構造的なpriorをどう入れ込むかが重要
– Global特徴の選び方、対照方法など
43

More Related Content

[DL輪読会]相互情報量最大化による表現学習