タグ

embulkに関するhiroyukimのブックマーク (8)

  • Embulkでやりたいことリスト(2015年7月版) - Blog by Sadayuki Furuhashi

    バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテーブル にロードしたいというようなユースケースに対応する機能。 設定ファイルの構文はissueに書いてあるように、default: に書き並べた設定に対して、jobs: に書いた設定をマージしたものを実際の設定ファイルとして実行していく方法で良さそう。しかし、fliters: は配列なので、default: に書かれた filters: に jobs: に書かれた filters: をどうマージするか、あまり良

    Embulkでやりたいことリスト(2015年7月版) - Blog by Sadayuki Furuhashi
  • Embulkを使って大量の謎ログを読み込ませる手順 - Qiita

    Embulkを使って大量の謎ログを読み込ませる手順 2015.3.16: @hiroysatoさんから教えていただいたnewコマンドをベースにした方法へ大幅に書き換え。 背景 セキュリティ関係のなんとかみたいな仕事をしていると、ある時急に数TBの謎のログを手渡されて「これ明日までになんか解析してみて」みたいなムチャぶりが飛んでくることがあります。このようなデータ分析では分析手法云々という前に、正規化してDBに取り込んだりする作業に相当の労力が必要になります。こういう事案に対していまどきなデータ転送ソフトウエアであるembulkを使うとだいぶ分析にとりかかれるまでの作業が楽になるのではないかと思ったので、一連の手順をまとめてみました。 前提条件 大きいサイズ(数GB〜数TB)のログデータを取り込みたい ログデータは1行1レコード形式のテキストで複数ファイルに分割されている ログの出力形式など

    Embulkを使って大量の謎ログを読み込ませる手順 - Qiita
  • ファイルを分割して入力するEmbulkプラグインを作ってみた - 今日もプログラミング

    Embulkの並列処理 Embulkは、処理を複数のタスクに分割して並列に実行する仕組みを備えている。 しかし、標準のファイル入力プラグインでは、単純に1つのファイルを入力すると1タスクにしかならないようだ(こちら参照)。 ソースを読んでみると、複数ファイルを読むと複数タスクになるようだ。 試しにこんな感じに4ファイルを用意して、 /test └in ├in1.csv ├in2.csv ├in3.csv └in4.csv こんなymlファイルを用意して実行したら、 in: type: file path_prefix: '/test/in' parser: type: csv columns: - {name: id, type: string} - {name: name, type: string} out: type: file path_prefix: '/test/out' fi

    ファイルを分割して入力するEmbulkプラグインを作ってみた - 今日もプログラミング
  • 並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その1 - 夢とガラクタの集積場

    こんにちは。 ようやくKinesisSpoutが一段楽したので次のネタを。 先日「データ転送ミドルウェア勉強会」が開催され、 そこでバルクデータロードツール『Embulk』が公開されました。 データのバルクロードというと、定番のOSSというのがなくて、 HDFSにバルクデータをロードする時はhadoopコマンドで行う・・などを行っていたのですが、 それがツールでできるというのは非常にありがたいですね。 で、既に使ってみた方の事例はいくつか挙がっていますので、実際にどう作られているかを見てみようと思います。 ・・・ええ、Javaでプラグインが書けるようになるまで実際に動かすかソース読むしか出来ないからですね。 1.embulkのモジュール構成 embulkGitHubを確認してみますと、下記3つのモジュールで構成されています。 embulk-cli embulk-core embulk-s

    並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その1 - 夢とガラクタの集積場
  • 並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その2:初期化 - 夢とガラクタの集積場

    こんにちは。 前回は起動時のさわりだけでしたので、今回からまともに中身を読む形になりますね^^; 1.クラス概要構成 JRubyによる起動処理部分が終わり、 Javaに戻ったのでまずはJavaクラスの概要構成から確認してみます。 概要の構成はこれだけです。 EmbulkGuiceによるインジェクションで必要なオブジェクトを取得して 使用する形になるので、固定的に起点となるRunnerクラスから参照が行われているのは 上記の図の要素だけになります。 各クラスの解説は下記の通りです。 Runner JRubyから起動されるEmbulk来のメインクラス。 各種オブジェクトの初期化後、run/cleanup/guess/previewといった個別コマンドの処理を行うクラス。 DataSourceImpl システムプロパティに設定されたembulk関連の定義(embulk.で始まるもの)を J

    並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる(その2:初期化 - 夢とガラクタの集積場
  • データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi

    Treasure Data, Inc. 古橋貞之です。 来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。 入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、 トランザクション制御 冪等性 高速性 スキーマを使ったvalidation などの拡張を備えています。 1回で使

    データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi
  • Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

    ども、大瀧です。 日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

    Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
  • 1