この投稿は クローラー/スクレイピング Advent Calendar 2014の12月23日用です。 はじめに人間って凄い。 まずはこの画像を御覧ください。 図1 各国のECサイトの画像 Eコマースのサイトで、商品の詳細のページを見るだけですぐに商品名、価格を判断出来ましたよね? それが英語のサイトでも中国語のサイトでも、韓国語のページでも分かりましたよね? 凄いですね。 人間のスクレイピング能力人間は恐ろしいほどのスクレイピング能力を持っている事が分かりました。 ソースも見ない、タグも見ないで、なんとなく雰囲気だけでスクレイピングしています。 もしこの能力をコンピュータに移植できたら凄いことですね。 もし、先ほどの画像を身の回りのインターネットに一番疎い人に見せてみて下さい。 きちんとスクレイピング出来たでしょうか? おそらく出来なかった事が多いのではないかと思います。 こんな事させて
