This site has been archived. Please visit the Adobe Blog for the latest Adobe articles.
Hiveのセットアップは、Hadoopが正常に実行できてる環境下で、アーカイブ(hive-0.7.0-bin.tar.gz)を適当な場所に解凍します。HADOOP_HOMEの設定とhiveのbinにPATHを通して、hiveコマンドを実行するのみです。 hiveコンソールが起動します。 まずapacheログのテーブルを作成します。とりあえずログのフォーマットはcommonです。combinedはこのあとで。 hive> CREATE TABLE apachelog ( > ipaddress STRING, identd STRING, user STRING,finishtime STRING, > requestline string, returncode INT, size INT) > ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2
こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く