久々の更新になってしまった。前回Google App Engine Pipeline APIを紹介したが、 その中でCascadingというキーワードが出てきたと思う。 今回はずっと気になっていたCascadingとやらHadoopの関連プロジェクトについて触れてみたい。 ただWordCountをやってみるのはもう飽きたのでw 今回はより実用的にApacheログの解析をやってみたい。 下記のログファイルを解析に使う。 Cascadingアプリケーションのソースは下記 処理の内容について、細かく説明するのはまた次回以降。(まだ調査、勉強中です。。) 大まかに処理の流れを追うと入力データ(ソース)から必要な部分を抽出し、 "ip", "time", "method", "event", "status", "size"という項目をもつタプル(データベースの行やレコードとよく似ている)に整形する
WordCountサンプル CascadingでHadoopチュートリアルのWordCountと同様の処理を行うプログラム。 package jp.hishidama.hadoop.cascading.wordcount; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import cascading.flow.Flow; import cascading.flow.FlowConnector; import cascading.flow.FlowProcess; import cascading.operation.Aggregator; import cascading.operation.AggregatorCall; import cascading.operation.BaseOperati
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く