27. 2007: CVIMチュートリアル
2007年9月4日(火) 13:40 - 15:10(発表80分, 質疑10分)
藤吉弘亘, "Gradientベースの特徴抽出 - SIFTとHOG -", 情報処理学会 研究報告
Gradient ベースの特徴抽出
-SIFT と HOG- CVIM 160, pp. 211-224, September ,2007.
藤吉 弘亘
中部大学 工学部 情報工学科
E-mail: hf@cs.chubu.ac.jp →都築, 村井, 山内が協力
あらまし Scale-Invariant Feature Transform(SIFT) は,特徴点の検出と特徴量の記述を行うアルゴリズ
ムである.検出した特徴点に対して,画像の回転・スケール変化・照明変化等に頑健な特徴量を記述するた
め,イメージモザイク等の画像のマッチングや物体認識・検出に用いられている.本稿では,SIFT のアル
ゴリズムについて概説し,具体例として SIFT を用いたアプリケーションや応用手法への展開について紹介
する.また,SIFT と同様に gradient ベースの特徴抽出法である Histograms of Oriented Gradients(HOG)
のアルゴリズムとその応用例として人検出についても紹介する.
Gradient-Based Feature Extraction
-SIFT and HOG-
Hironobu Fujiyoshi
Dept. of Computer Science, Chubu University
E-mail: hf@cs.chubu.ac.jp
Abstract Scale-Invariant Feature Transform(SIFT) is an approach for detecting and extracting local
feature descriptors that are reasonably invariant to changes in illumination, image noise, rotation, scaling,
and small changes in viewpoint. Because the SIFT algorithm can describe characteristics of feature
points that are invariant to scale and rotation changes, it has been used for image matching such as
image mosaicing and generic object recognition. In this paper, we describe the SIFT algorithm and
introduce applications that use it. We also describe another algorithm called “Histograms of Oriented
Gradients(HOG)” which is based on gradient feature extraction similar to the SIFT algorithm. We also
introduce an example of how HOG can be used for people detection. コンピュータビジョン最先端ガイド2
単行本: 169ページ
1 はじめに 転に頑健な局所特徴量を記述した [3](1997 年).これ
により,回転変化が生じても画像間のマッチングや 出版社: アドコム・メディア (2010/6/9)
画像間の対応点を求めるために必要な局所特徴
認識を行うことが可能となった.しかし,Schmid ら
量を抽出するには,対象となる画像から特徴点を
の手法に用いられている Harris corner detector は,
言語 日本語
検出する必要がある.Harris らは,1988 年に特徴
画像のスケール変化に敏感であるため拡大・縮小等
点としてコーナーを検出する手法 (Harris Corner ISBN-10: 4915851370
の異なるスケールの画像間ではマッチングが困難で
Detector)[1] を提案した.Lindeberg はスケールス
ある.Lowe は Schmid らの局所領域の特徴量記述
ISBN-13: 978-4915851377
ペースを用いることで画像の構造を解析し,blob の
という考えを拡張し,スケールスペースを用いるこ
検出と自動スケール選択を行う手法 [2] を提案した
とで,画像のスケール変化や回転に不変な特徴量を
(1994 年).また,Schmid らは Harris corner detec-
記述する Scale-Invariant Feature Transform(SIFT)
tor によって検出された特徴点に対し,その点の画素
を提案した [4].SIFT は,回転・スケール変化等に
値や微分値から算出した値を特徴量とし,画像の回
–1–
34. 2009年:仮想カメラワーク技術が製品化
仮想カメラワーク + 時間短縮処理
panning
Original A B C D E F G H I J
Speech
Writing
Output B C E F' G H I' J
zooming
入力:HF(1980*1024) 90分 出力:QVGA(320*240) 60分
入力:MPEG-HD(1920*1080) 90分
関連メンバー: 横井 隆雄, 遠山 聖司, 桐井 孝嘉,篠木雄大,古川拓弥