Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

LTSVに関するyassのブックマーク (5)

  • Apacheのアクセスログを爆速でLTSVに変換する

    Apacheのアクセスログ(commonあるいはcombined形式)をLTSVに変換するツールをJavaで書いてみた。 使い方: mcp.jarをダウンロードし、 cat access_log | java -cp mcp.jar net.jumperz.app.MCP.MCP net.jumperz.io.multicore.example.MCombined2LTSV パースするコードそのものはこんな感じで普通。正規表現は使っていない。たぶんJava1.4以上でコンパイル可能。 こういう処理をさくっとマルチコア対応にするためのフレームワーク、MCPというのを作ったので、早速利用してみると、手元の4コアのマシンでは約140万行/秒(common形式のログ)という爆速で変換が終了する。dankogai氏が書かれているperlスクリプトより約20〜30倍速い(正規表現を使うかどうかという点

    Apacheのアクセスログを爆速でLTSVに変換する
  • ログをLTSVやJSONで保存した場合のサイズ比較 - stanaka's blog

    追記(2/17) 変換スクリプトを見せてほしい、という要望があったので、 https://gist.github.com/stanaka/4967403 に上げておきました。ltsvを読み込んでオプションで指定したフォーマット(デフォルト JSON)に変更します。 追記ここまで LTSVの盛り上りも収束してきていますが、サイズに関する懸念があがっていたので、確認してみました。 手近にあったアクセスログ 186万件ほどを対象に、 ssv .. Combined Log Formatの拡張で、ラベルなし (レスポンス時間とか10個ぐらいのフィールドを拡張しています) json .. ラベルあり ltsv .. ラベルあり の3パターンで試してみました。 まずは行数を確認しておきます。 % wc -l access_log.json 1861706 access_log.json未圧縮だと、 a

    ログをLTSVやJSONで保存した場合のサイズ比較 - stanaka's blog
  • ltsview ─ LTSVフォーマットフィルタ (Text::LTSV 0.03) - naoyaのはてなダイアリー

    LTSV が行指向な Key-Value フォーマットで捗る話 - naoyaのはてなダイアリー で試作した LTSV のフォーマッタが思いの他捗ったので ltsview という名前でもう少し機能を整えてみました。 Text::LTSV に同梱する形で先ほど CPAN に shipit したので、CPAN で取得可能になったら cpanm Text::LTSV で ltsview ごとインストールされるはずです。なお github は https://github.com/naoya/perl-Text-LTSV です。 $ cat example/example_log.ltsv time:05/Feb/2013:15:34:47 +0000 host:192.168.50.1 req:GET / HTTP/1.1 status:304 size:0 referer:- ua:Mozil

    ltsview ─ LTSVフォーマットフィルタ (Text::LTSV 0.03) - naoyaのはてなダイアリー
  • LTSVフォーマットなログを fluentd + GrowthForecast で料理 - naoyaのはてなダイアリー

    ここ数年のデータ解析の重要性の高まりから、ログに関するソリューションが方々で活発に探求されている昨今でございます。ウェブサーバーの単純なアクセスログをそのまま保存するではなく追加情報を添加してみたり、あるいはアプリケーションから直接ログを吐いてそれらをデータウェアに投げ込んで・・・というのも当然のように行うようになりましたね。 しかしあまり自由度のない access_log の combined フォーマット。さてどうしたもんか・・・ ここで id:stanaka の登場です。 Labeled Tab Separated Valueというのは、はてなで使っているログフォーマットのことで、広く使われているTSV(Tab Separated Value)フォーマットにラベルを付けて扱い易くしたものです。はてなでは、もう3年以上、このフォーマットでログを残していて、one-linerからflue

    LTSVフォーマットなログを fluentd + GrowthForecast で料理 - naoyaのはてなダイアリー
  • Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog

    追記(2/8 11:30) id:naoyaによる一連のまとめが【今北産業】3分で分かるLTSV業界のまとめ【LTSV】 - naoyaのはてなダイアリーにあります。 また、仕様などをまとめるために http://ltsv.org/ を立ち上げました。 追記ここまで Labeled Tab Separated Values (LTSV) というのは、はてなで使っているログフォーマットのことで、広く使われているTSV(Tab Separated Value)フォーマットにラベルを付けて扱い易くしたものです。はてなでは、もう3年以上、このフォーマットでログを残していて、one-linerからfluentd、Apache Hiveまで幅広く便利に使えています。 ログフォーマットに期待されることは、 フォーマットが統一されている → 共通のツールで集計し易い 新しいフィールドの追加が容易 → サー

    Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog
  • 1