Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
Hierarchical Convolutional Features
for Visual Tracking
@conta_
Self Introduction
緒方 貴紀 (twitter: @conta_)
CTO@ABEJA, Inc.
Computer Visionとか、Machine Learningを使った
プロダクト開発をやっています。
Object Tracking?
Object Tracking?
オクルージョン、イルミネーション、はやい動きの中で
どの程度物体を追跡できるかを競うアクションゲーム
Object Tracking?
学習 推定
Model
W(t+1) = W(t) +λF(t)
Negative
Positive
Time: t
Update
Next Position
Model
特徴抽出
Time: t+1
Object Trackingのアルゴリズム例
Overview
学習 推定
W(t+1) = W(t) +λF(t)Time: t
Update
Next Position
特徴抽出
Time: t+1
今回の論文のアルゴリズムイメージ
[V. Boddeti+, CVPR2013]
http://www.cs.berkeley.edu/~rbg/
CNN いい感じのフィルタ
Overview
学習 推定
W(t+1) = W(t) +λF(t)Time: t
Update
Next Position
特徴抽出
Time: t+1
今回の論文のアルゴリズムイメージ
[V. Boddeti+, CVPR2013]
http://www.cs.berkeley.edu/~rbg/
CNN いい感じのフィルタ
あれ、簡単そう?
Overview
学習 推定
W(t+1) = W(t) +λF(t)Time: t
Update
Next Position
特徴抽出
Time: t+1
今回の論文のアルゴリズムイメージ
[V. Boddeti+, CVPR2013]
http://www.cs.berkeley.edu/~rbg/
CNN いい感じのフィルタ
そうだ、実装しよう
ふぅ、
おしまい
Overview
CNNから抽出した特徴量をオンライン学習してObject Tracking
■VGGの3,4,5層目の最後らへんの特徴量を利用(Fine-tuneはしない)
物体の意味的なもの(上位レイヤー)+テクスチャのような
詳細特徴(下位レイヤー)を同時に利用
■オンライン学習にLinear correlation filtersを適用
Multi-channelの特徴量をフィルタを利用して
オンライン学習
フィルタ処理をFFTで最適化すると
高速にWindow Searchできる
State-of-the-ArtなObject Trackingを実現!
Convolutional Features
CNNの出力層は上位レイヤーになればなるほど、
物体の意味的特徴に反応
[Matthew+, ECCV2014]
CNNのFeatureMapの特徴
下位レイヤーになると画像の局所特徴量を表しやすい
(Gabor Filterに近い出力)
Convolutional Features
CNNの出力層は上位レイヤーになればなるほど、
物体の意味的特徴に反応
[Matthew+, ECCV2014]
CNNのFeatureMapの特徴
下位レイヤーになると画像の局所特徴量を表しやすい
(Gabor Filterに近い出力)
良き感じにトラッキングに使えないか?
Convolutional Features
CNNの可視化(PCAで3チャネルにProjection)
Convolutional Features
CNNの可視化(PCAで3チャネルにProjection)
詳細な情報 バイク
Convolutional Features
CNNの特徴量をトラッキングに利用するための課題
上位レイヤーになるにつれて、Poolingされ詳細位置が出づらい
Object Trackingは正確な位置を追跡したい
Convolutional Features
CNNの特徴量をトラッキングに利用するための課題
上位レイヤーになるにつれて、Poolingされ詳細位置が出づらい
Object Trackingは正確な位置を追跡したい
そうだ、Bilinearで補完しよう
Correlation Filters
下記の様な、畳み込むと物体の中心位置がレスポンスとして
返ってくるようなフィルタWを求めたい
⃝ =
画像: X フィルタ: W 位置: y
https://www.youtube.com/watch?v=Wx3o354xazU
Correlation Filters
下記の様な、畳み込むと物体の中心位置がレスポンスとして
返ってくるようなフィルタWを求めたい
⃝ =
画像: X フィルタ: W 位置: y
https://www.youtube.com/watch?v=Wx3o354xazU
下記式を最小化する様なWを計算することで求まる
Correlation Filters
FFTを使うとすごくすっきり求まる (これが非常に重要)
Correlation Filters
FFTを使うとすごくすっきり求まる
詳しくは、
Correlation Filters for Object Alignment(Kanade先生共著!)
High-Speed Tracking with Kernelized Correlation Filtersを読むとすごく分かる
Coarse-to-Fine Translation Estimation
位置の推定は上位レイヤーと下位レイヤーのレスポンスマップ
をブレンドして推定
Model Update
フィルターをオンライン学習することで、ロバストな
トラッキングを実現
Correlation Filters
アルゴリズムは下記の通り
実験結果
DP: 誤差が20px以内でトラッキング出来た割合
OS: 正解枠とのオーバーラップが50%以上重なっていた割合
CLE: 追跡オブジェクトの中心位置の平均誤差
全体的に良い結果になりました(ただしFPSを除く)
計算時間の45%はCNNのForward
Attribute-based Evaluation
評価データの属性に対しての考察
■Pros
・背景の動きが激しいものに頑健
・スケール変化に対して頑健
=>オブジェクトの意味を追うことができているから
■Cons
・オクルージョンやデフォメーションにはそんなに強くない
Feature Analysis
CNNの特徴量をどのように利用すると効果的か実験
・1層だけを利用(3, 4, 5)
・2層組み合わせ(4-5)
・3層の組み合わせ[Hariharan+, CVPR2015]
どれもいまいち
(3層普通に使ったほう
がいい)
考察
・GPU使って10FPSはフェアでないような。。。
 =>もう少しFPSを考慮したコンペがあってもいいと思う
・各層で学習したフィルタの推定位置のパラメータγの値
 (conv3-4: 0.5、conv4-4: 1.0、conv5-4: 0.02)
 conv5-4のブレンド率、結構低く感じる、
 =>やはり”左手は添える程度”?はどの分野にも通じる?
・あれ、 になってた割にはそこまで新規性なくない?
 (先人がすごい)
・実装前にプレゼンつくりましょう。
余談
実は似たようなコンセプトの物がICCV2015にもう1本。。。
余談
本論文との差分はSNetとGNetを用意、VGGの4, 5層目とつなぎ、
Tracking時にBack Propを行い学習しながらトラッキング

More Related Content

Cv20160205