[B! embulk] hiroyukimのブックマーク

Embulkでやりたいことリスト（2015年7月版） - Blog by Sadayuki Furuhashi

バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテーブルにロードしたいというようなユースケースに対応する機能。設定ファイルの構文はissueに書いてあるように、default: に書き並べた設定に対して、jobs: に書いた設定をマージしたものを実際の設定ファイルとして実行していく方法で良さそう。しかし、fliters: は配列なので、default: に書かれた filters: に jobs: に書かれた filters: をどうマージするか、あまり良

hiroyukim 2015/07/21

リンク

Embulkを使って大量の謎ログを読み込ませる手順 - Qiita

Embulkを使って大量の謎ログを読み込ませる手順 2015.3.16: @hiroysatoさんから教えていただいたnewコマンドをベースにした方法へ大幅に書き換え。背景セキュリティ関係のなんとかみたいな仕事をしていると、ある時急に数TBの謎のログを手渡されて「これ明日までになんか解析してみて」みたいなムチャぶりが飛んでくることがあります。このようなデータ分析では分析手法云々という前に、正規化してDBに取り込んだりする作業に相当の労力が必要になります。こういう事案に対していまどきなデータ転送ソフトウエアであるembulkを使うとだいぶ分析にとりかかれるまでの作業が楽になるのではないかと思ったので、一連の手順をまとめてみました。前提条件大きいサイズ（数GB〜数TB）のログデータを取り込みたいログデータは1行1レコード形式のテキストで複数ファイルに分割されているログの出力形式など

hiroyukim 2015/03/15

embulk

リンク

ファイルを分割して入力するEmbulkプラグインを作ってみた - 今日もプログラミング

Embulkの並列処理 Embulkは、処理を複数のタスクに分割して並列に実行する仕組みを備えている。しかし、標準のファイル入力プラグインでは、単純に1つのファイルを入力すると1タスクにしかならないようだ（こちら参照）。ソースを読んでみると、複数ファイルを読むと複数タスクになるようだ。試しにこんな感じに4ファイルを用意して、 /test └in ├in1.csv ├in2.csv ├in3.csv └in4.csv こんなymlファイルを用意して実行したら、 in: type: file path_prefix: '/test/in' parser: type: csv columns: - {name: id, type: string} - {name: name, type: string} out: type: file path_prefix: '/test/out' fi

hiroyukim 2015/03/13

embulk

リンク

並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その１ - 夢とガラクタの集積場

こんにちは。ようやくKinesisSpoutが一段楽したので次のネタを。先日「データ転送ミドルウェア勉強会」が開催され、そこでバルクデータロードツール『Embulk』が公開されました。データのバルクロードというと、定番のOSSというのがなくて、 HDFSにバルクデータをロードする時はhadoopコマンドで行う・・などを行っていたのですが、それがツールでできるというのは非常にありがたいですね。で、既に使ってみた方の事例はいくつか挙がっていますので、実際にどう作られているかを見てみようと思います。・・・ええ、Javaでプラグインが書けるようになるまで実際に動かすかソース読むしか出来ないからですね。 1.embulkのモジュール構成 embulkのGitHubを確認してみますと、下記3つのモジュールで構成されています。 embulk-cli embulk-core embulk-s

hiroyukim 2015/02/17

リンク

並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その２：初期化 - 夢とガラクタの集積場

こんにちは。前回は起動時のさわりだけでしたので、今回からまともに中身を読む形になりますね＾＾； 1.クラス概要構成 JRubyによる起動処理部分が終わり、 Javaに戻ったのでまずはJavaクラスの概要構成から確認してみます。概要の構成はこれだけです。 EmbulkはGuiceによるインジェクションで必要なオブジェクトを取得して使用する形になるので、固定的に起点となるRunnerクラスから参照が行われているのは上記の図の要素だけになります。各クラスの解説は下記の通りです。 Runner JRubyから起動されるEmbulkの本来のメインクラス。各種オブジェクトの初期化後、run/cleanup/guess/previewといった個別コマンドの処理を行うクラス。 DataSourceImpl システムプロパティに設定されたembulk関連の定義（embulk.で始まるもの）を J

hiroyukim 2015/02/09

embulk

リンク

データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi

Treasure Data, Inc. 古橋貞之です。来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、トランザクション制御冪等性高速性スキーマを使ったvalidation などの拡張を備えています。１回で使

hiroyukim 2015/01/28

embulk

リンク

Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

ども、大瀧です。本日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

hiroyukim 2015/01/28

embulk
td

リンク

オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

hiroyukim 2015/01/28

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

embulkに関するhiroyukimのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス