最近は画像認識・検索で用いられるデータセットも大規模化が進んでいます。 いくつか代表的なものや最近見つけたものをまとめてみます。 (ここでの目安は、教師つきデータは10万枚以上、教師なしデータは100万枚以上のもの) ImageNet http://www.image-net.org/ 自然言語処理の分野で有名なWordNetのオントロジーに従って、各単語(今のところ名詞のみ)に対応する画像を収集したものです。Amazon Mechanical Turk を利用し、質の高いデータセットを構築するように工夫されています。日々データは蓄積・更新されており、2012年1月現在、約1400万枚の画像データ(2万2千カテゴリ)が集まっているようです。 アノテーションは基本的に1画像1カテゴリで、一部の画像には物体の位置を示すbounding boxもついています。カテゴリによっては十分な数の画像がな