バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。 が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの