180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition

Attention-aware
Deep Reinforcement Learning
for Video Face Recognition
Takanori Ogata

Self Introduction
緒方貴紀 (@conta_)
Co-Founder / Chief Research Officer @ABEJA, Inc.
基礎研究から、プロダクト開発、クラウドからGPUマシンの組み立てまで
なんでもやります。

Videoに写った人の顔認証の精度を上げる論文
同一人物の1連の顔画像シーケンスから、顔認証
に使うと良さそうな画像をピックアップして異な
る動画に写った同一人物の認証精度を上げる
Attentionを見つける過程をMarkov decision
processでモデリングすることで、強化学習(Q-
learning)の枠組みに入れ学習できる
提案手法では、人物ID以外の追加の教師データ
なしに学習させることが可能
概要

■静止画の顔認証
1枚の画像に写った1人の顔画像を比較して、同じかどうかを判定
■動画の顔認証
1本の動画に写った1人の顔のシーケンス画像を、同じかどうかを判定
動画像の顔認証
Same or not
Same or not

• 人の移動によりブラーがおこる
• 画像の輝度が時系列で変わる
• 顔の向きが変わる
Þ１人の顔画像でも特徴に分散が出てしまう
見分けやすい顔だけ使っていきたい！
クオリティーの低そうな顔画像だけを取り除けないか？
動画像の顔認証の難しさ

顔認証に利用する顔画像をState、取り除く画像を選択することをAction
として、取り除いた後の報酬を最大化するような報酬を学習させる
(ざっくり）
提案手法

前準備が多いです
わかりにくいプレゼンになると思いますので適時質問
してください

提案手法のフロー
顔認証の特徴抽出
時系列の特徴表現
強化学習で適切な画像をピックアップ

フレーム間の特徴の関係は顔認証する上で重要なヒントになりうる
=>動画フレームから取り出した特徴をbi-directional LSTMを利用して時
系列に計算しtemporal-poolingを行う
Temporal Representation Learning
動画AがN^Aフレームの顔画像
C_1: CNN(顔認証の特徴抽出機)
bi-directional LSTM
Temporal Representation
(隣接するr個のみの特徴を計算)

(前置き) ２つの動画の顔を比較するときの距離の定義は下記の通り
Attention-aware Deep Reinforcement Learning
𝑋"
, 𝑋$
: シーケンス顔画像
a_i のことをこの論文ではAttention(hard attention)と呼んでいる

多くの先行研究では、Attentionのweightを計算す
る際にfeature vectorの関係を利用している
しかしながら、一般的に顔認証の特徴抽出アルゴリ
ズムはpose / illumination / expressionなどに不
変な特徴として学習させている
=> 顔の特徴空間だけでなく、顔画像から直接
Attentionを計算するようなアルゴリズムが良いの
ではないか？
[Yang+, CVPR2017]

今回の提案手法として、特徴空間からだけでなく、画像から直接
Attentionを計算出来るようにしたいので、強化学習させる際に、報酬を出
力するネットワークC_2を考えたい
I_i: 画像空間からくる情報
M_i: 特徴空間からくる情報
C_2(I, M)を追加の教師データ無しに学習させるために、
エキスパートとして顔認証CNNである、C_1（x)の認識精度を活用する

画像シーケンスから適切な画像をピックアップするには、2つの戦略が考えら
れる
(1) frame情報からダイレクトにクオリティーを計測し、高いものを持ってくる
(2) クオリティーの低いものをStep by Stepで取り除いていく
Þ(1)の戦略は教師データがないと厳しい、、、
(2)では、認証精度の増減を見るだけで良いので、ラベルなしでも出来る！
今回の手法では(2)の方法を取る
顔認証にベストな画像を探すには？

認証に利用する顔画像の組み合わせをStateとして、1枚ずつ画像を減ら
していき、減らしたときの精度を計算
Þ精度が上がるような(落ちないような)組み合わせを求める
前の状態からの差分どうなったかの問題に落ちるので、Markov decision
processに出来る -> 強化学習で解ける
基本的な戦略

強化学習のフロー(expertの作り方)
２つの動画の認証に
使う画像リスト(State)

強化学習のフロー
２つの動画の認証精度を計測

Actionを計算

報酬の計算（精度がどう変わったか？）Actionを計算

報酬が終了条件を満たしたらend

報酬が終了条件を満たしたらend
この情報を用いてStudent(C_2, Q-network)を学習させる

Q関数はどう設計するのか
今回の手法ではQ関数の実装にNNを用いるが、その際2パターンの設計が考えられる
• (1)Stateをinputにしてすべての取りうるactionに対するQ-valueを出力(DQN的なもの）
• (2)Stateとactionを入れて、単一のQ-valueを出力
今回の場合、Stateが変わるたびにAction(Dropする場所)が変わってしまうので、(1)のパ
ターンは難しい
=> よって今回は(2)のパターンを利用する

画像xと特徴空間から計算されたvを入力として、Qを出力
するようなネットワーク
v_iは4つのpartsからなる(２つの統計量をA,Bの動画から
それぞれ出力、合計4つ)
Q関数の実装
Drop前後での特徴の変化
State tのときに、aによってDropしたfeature h_aを引いたもの
(これ合ってるの？ p^Aの定義と合わない気がするけど)
そしてこれを最適化する
Dropした後の特徴量の分散

学習させたQ関数を用いて、逐次的に
Dropさせ、A, Bそれぞれ含まれるフ
レーム数がthreshold以下になるまで
繰り返す。
アルゴリズム(識別)

下記のデータセットで実験
• YouTube Face dataset (YTF)
• Point- and-Shoot Challenge (PaSC)
• Youtube celebrities dataset (YTC)
BaseとなるCNNは論文中[40](Center Loss)を利用
Experiments
[Wen+, ECCV2016]

■SOTAの比較
deep FR以外には勝ってる
Results on YouTube Face Dataset
（deep FRは正面画像をきれいに
選んだりTriplet Lossの学習の際
にデータ選択を工夫しまくってる
から負けてるだけなんだからね！
こっちの実装のほうが簡単なんだ
からねっ！ By 著者）

■Attentionの効果の比較
NANというAttention baseの手
法と比較
Temporal Ansamble(TR)と
ADRLは効果がある（と言ってい
る)
Results on YouTube Face Dataset
NAN [Yang+, CVPR2017]
(彼らは自分らよりパワフルな
ネットワーク使ってるけどな！By
著者)

Analysis on temporal representation learning
Temporal Representationの周
辺の値と、Drop時のしきい値を変
えたときの実験結果
(縦軸は多分正答率、positive
250 + negative 250 = 500)

Qでソートした結果の定性評価
Analysis on deep reinforcement learning

動画の顔認証の精度を上げるために最適な画像を選択する方法の提案
認証に利用する顔画像の選択方法をMarkov decision processに落とす
ことで強化学習の枠組みを適用できた
顔画像の良し悪しを、顔認証精度の比較問題に落とすことでexpertを作り、
追加ラベル無しでQ学習の枠組みに落とした
大体SOTAの精度がでた
まとめ

We are finding awesome researchers!
Please contact us!
Mail: recruit@abeja.asia
https://www.wantedly.com/companies/abeja

180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition

More Related Content

180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition