HTML::FeaturedImage - URLに含まれる画像のうち、重要そうなものを取り出すためのPerlモジュール - fubaはてなのひとつまえのHTML::Feature::Engine::TsubuanLike - fubaはてなを読んでzuzara : ブログの記事本文を抽出するスクリプトをつくってみたのアルゴリズムがどうだったかなーと読み返して。 美しくないですが、HTMLだけでなくレンダリングしたときにどれくらいの面積を占めるかという情報を利用すると精度が上がると思います。たいていは一番でかい面積を占めてるのがメインのコンテンツになっているとおもわれます。ただ、その親要素は当然メインの部分よりも大きい面積を持っているのでそのへんはちょっと細工が必要ですが、判断材料としては有用です。本文でない部分が面積が一番大きくて目立っているのはあんまりないと予想できるので、もうあきらめ