[B! 収集] sh19910711のブックマーク

sh19910711 id:sh19910711

収集に関するsh19910711のブックマーク (86)

PythonでEmbulkを動的に実行する - Qiita
はじめに ETLツールの一種であるEmbulkでは、データ転送の処理をyamlで設定して実行します。動的に処理内容を変更したい場合、yamlの一部を環境変数に置き換えることができます。しかし、処理内容を実行ごとに変化させたい場合、環境変数で設定をするのは面倒です。例えば、出力するファイル名に実行時間を加えたい場合などには、環境変数を逐一変更することになります。この記事では、Python用のテンプレートエンジンであるjinja2を使って、簡単にyamlの設定ファイルを動的生成する方法について紹介します。より作り込んだシステムが必要な場合には、Digdagなどのワークフローエンジンを使うことが良いです。そもそもEmbulkとは EmbulkとはOSSのバッチ型のデータ転送ツールです。ストリーミングデータを対象にしたfluentdと対になるようなツールです。コンパクトながら、たくさんの入
sh19910711 2024/06/16
"Embulk: 処理内容を実行ごとに変化させたい場合、環境変数で設定をするのは面倒 + ファイル名に実行時間を加えたい場合など + jinja2でyamlを動的に生成 / Embulkに限らず、設定ファイルの管理などにも使えそう" 2022

*data

*program

python

収集
リンク
SSM Inventory を使って便利に EC2 棚卸し（ハマりどころを添えて）
セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security
sh19910711 2024/06/13
"SSM Inventory: OS・アプリケーション・ネットワーク情報など + コンソールで簡易的な統計が見られる / リソースデータ同期を使ってS3へ出力 + マルチアカウント環境での集約も可能 > Athenaでクエリを流して棚卸し"

*data

*infra

aws

収集

sys*
リンク
Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside
こんにちは。機械学習チームにてレコメンドの改善を行っているgumigumi4fです。この記事では、Fluentdにて収集したログをBigQueryに挿入する際に使用しているプラグインを置き換えることによって、高スループットかつ低コストを実現した話について紹介します。背景 pixivではアクセスログやアプリケーションログ等をBigQueryに収集し、分析できるような仕組みを構築しています。 BigQueryへアクセスログを挿入する際はFluentdとそのプラグインであるfluent-plugin-bigqueryを用いて直接BigQueryへ書き込むようになっていたのですが、その際にログ欠損が起こることが問題となっていました。ログの欠損はピークタイムで発生しており、そのピークタイムのログの流量は概ね毎秒30000logとかなり多く、実際Fluentdのworkerプロセスが1work
sh19910711 2024/06/11
"fluent-plugin-bigquery: ログの流量は概ね毎秒30000 + Fluentdのworkerプロセスが1workerあたりCPUを1コア恒常的に使い切っているなど頭打ちのような挙動 + ログ欠損が起こる / Storage Write API を用いる新たなFluentd向けプラグインを開発"

*data

*infra

gcloud

dwh

収集
リンク
trocco+JIRAで完成の定義を記入していない課題一覧をBigQueryに同期してデータポータルで可視化する
モチベーションスクラムでは完成の定義とはプロダクトバックログアイテムが品質基準を満たしたインクリメントであることを示す記述です。リファインメント時にプロダクトオーナーと開発者が合意を取った上で記入してから、スプリントで着手するのが理想ですが、記入が完了していないまま着手に取り掛かってしまっている課題が無いかを確認したいことがありました。今回はそのためにやったことを残します。対象読者既にtroccoを導入している方最終イメージこんな感じでアクティブスプリント内で完成の定義の記入が終わっていない課題の内容を可視化することができます。カスタムフィールドのIDを確認カスタムフィールドが用意できたら、タイトルから詳細を編集をクリックします。 https://xxxxx.atlassian.net/secure/admin/EditCustomField!default.jspa?i
sh19910711 2024/05/25
"記入が完了していないまま着手に取り掛かってしまっている課題が無いかを確認したい / troccoではJQLを使って課題の絞り込みを行うことができ + 他にAirbyteも検討したのですが、JQLに対応していなかった（2022.03" 2022

*data

*service

knowledge

収集

gcloud

dwh
リンク
OpenLDAPのログをElastic AgentのCustom Logsで取り込む - Qiita
はじめに Elasticsearchでログを取り込むと言えばBeatsかLogstash、という方も多いと思いますが、Kibanaから集中管理できるElastic Agentが広く使われています。 Elastic Agentについてはこちらの記事をご参照ください。 https://qiita.com/yukshimizu/it ems/abec12ac46749db46b40 BeatsやLogstashでは取得側でパース等の設定をしていましたが、Elastic AgentではIngest Pipelineを使用してElasticsearch側でパースを行います。 Ingest Pipelineについてはこちらに正式ドキュメントがあります。 https://www.elastic.co/guide/en/elasticsearch/reference/8.11/ingest.html 本記事
sh19910711 2024/05/24
"BeatsやLogstashでは取得側でパース等の設定をしていましたが、Elastic AgentではIngest Pipelineを使用してElasticsearch側でパース / Integrationsというのは、BeatsのModuleのようなもの / Dashboard等も自動で作成" 2023

*data

search

収集

sys*
リンク
Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita
概要 Splunkが DeepLearningに対応しました（驚き）。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして複数の NLP ライブラリが利用可能です。今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた
sh19910711 2024/05/08
"Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019

*data

*software

機械学習

収集
リンク
n8nでワークフローを自動化した話 / 20220914_n8n
2022ランキング圏外から2023ランキング入りを実現したテックブログ運営について / 2023-07-28-QiitaEngineerFesta
sh19910711 2024/05/07
"iPaaS: 異なるSaaS同士を接続してデータ統合したりタスクを実行 / n8n: 柔軟性があり拡張性の高いワークフロー自動化ツール + セルフホスティングも可能 / OGP取得 + サムネイル用画像をS3に保存 + Notionに投稿" 2022

*service

workflow

--

knowledge

収集
リンク
スクレイピング時に本文だけを抽出する最高精度ツールが優秀！【日本語版も公開】 - Qiita
n,pはそれぞれnegative(ノイズ),positive(本文)を基準とした時の評価を表します。例としてノイズ部分をN,本文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に本文を抽出できているかを評価していると考えればよいでしょう。元のデータでの再現学習も問題無く行えました。また日本語対応版もおおよそ元論文と同程度の精度が出ています。要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能
sh19910711 2024/05/06
"boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020

*algorithm

NLP

収集

--

系列

cs.LG
リンク
OktaログをMicrosoft Sentinelに取り込んでみた - APC 技術ブログ
はじめにこんにちは、エーピーコミュニケーションズ iTOC事業部 BzD部 0-WANの坂口です。今回は、OktaのログをMicrosoft Sentinelに格納する方法をご紹介します。想定アーキテクチャ想定するアーキテクチャは、下図のとおりです。 Azure Functions 定期的にOktaに接続してログを収集します。 Log Analytics workspace 収集したOktaログを格納します。 Microsoft Sentinel Log Analytics workspaceに格納されたログを参照・分析します。ログ格納の手順 Oktaの監査ログとイベントログを収集する手順です。下記データコネクタを利用します。 learn.microsoft.com 手順1. Okta API Tokenの作成手順2. Okta Single Sing-Onコンテンツのインスト
sh19910711 2024/04/20
"Azure Functions + Log Analytics workspace + Microsoft Sentinel / Microsoft Sentinel: 様々なコネクタが準備されており、Microsoft製品でなくても容易にログを収集することができ + 従量課金のため、パイロット導入もしやすい"

*security

*data

Azure

収集
リンク
NLBでfluentdのforwardパケットを分散させてみた - Qiita
AWSの新しいロードバランサであるNLB(Network Load Balancer)を使ってfluentdのforwardパケットを分散してみたので、レポートをまとめておく。 NLB自体については、クラスメソッドのブログ等で紹介されているのでそちらを参照するのが分かり易い。静的なIPを持つロードバランサーNetwork Load Balancer（NLB）が発表されました！試してわかった NLB の細かいお作法ざっくり言うと、TCPプロトコルを対象にしたALBって感じ。ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い。ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる。利用までの流れターゲットグループを作成し、TCPレベルでコネクションが貼れるかのヘルスチェックの設定をするインスタンスもしくは対象IPと、ポートの組を
sh19910711 2024/04/20
"NLB: TCPプロトコルを対象にしたALB + ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い / ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる" 2017

*network

aws

収集
リンク
FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある
三行で FireLens を使うことで ECS で稼働するアプリケーションのログ転送を簡単に実装できるしかし、ドキュメントに記載されている設定例をそのまま利用しただけでは実はログの取りこぼしがあったログの取りこぼしを防ぐためにコンテナ間の依存関係とHealthcheckの設定を行った FireLens とは FireLens　を簡単に言うと、「ECS のタスク定義の記述だけで Fluent Bit / Fluentd を使ったログ転送用のサイドカーコンテナが利用できる機能」でしょうか。 FireLens という個別のサービスやソフトウェアが存在するわけでは無いようです。詳細は以下を参照ください。症状私が関わったとあるサービスでは ECS を使ってアプリケーションを稼働させていて、アプリケーションのログは FireLens により Fluent Bit を使ってログ転送を行っていま
sh19910711 2024/04/20
"FireLens: ログ転送用のサイドカーコンテナが利用できる機能 + ECS で稼働するアプリケーションのログ転送を簡単に実装できる / 依存元コンテナが立ち上がった段階でその依存先コンテナが立ち上がっていないケース"

*data

aws

収集

--

container
リンク
分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS
sh19910711 2024/04/14
"Aurora MySQLにあるデータをEmbulkを用いてBigQueryに連携 + Lookerなどを通して社内利用 / Aurora S3 Export: 100GBで$1.2~1.3程度 / RdsStartExportTaskOperator: Airflowサーバーのバージョンが低くて利用ができなかった"

*data

datalake

aws

収集
リンク
請求書発行のためにEmbulkを使って爆速でデータを集約した話 - 一休.com Developers Blog
こんにちは。宿泊開発チームの菊地です！このエントリは一休.com Advent Calendar 2023 12日目の記事です。昨日は id:rotom によるSlack Enterprise Grid における情報バリアの設計でした。その他の素敵なエントリも以下のリンクからご覧ください。 qiita.com 私はEmbulkを使って、各プロダクトの請求データを集約する機能を担当しました。今回は、Embulkの紹介とふりかえりをしていきたいと思います！背景課題解決策 Embulkとは？今回の課題に対してEmbulkがマッチした理由 union: 複数のデータソースを連結する config.ymlの記述例 lookup: 複数のデータソースを結合する config.ymlの記述例ふりかえりとくに良かったこと config.ymlの取り回しのよさが開発スピードをあげてくれた c
sh19910711 2024/04/12
"Embulk: 2023年3月からは、社に限定せず広くコアチームを結成し設計検討を行っていく方針が発表 + 業務としてのOSS開発のアンビバレンスなど、かなり実情に即した部分まで言及 / union: input プラグインを組み合わせられる" 2023

*data

収集

OSS
リンク
Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog
こんにちは、スタッフエンジニアの @kenkoooo です。Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb をオープンソースとして公開しました。 github.com Embulk とは？データをロードするすごい OSS です。プラグイン形式でデータの入力や出力を定義することができるため、各種 SQL や BigQuery などだけでなく、スプレッドシートやアクセス解析など様々な入力元・出力先に対応しています。公式サイト: Embulk Snowflake とは？データを集めたり加工したりするデータプラットフォームです。estie でメッチャ流行ってます。 dbt-snowflake のテストフレームワークを作った話 - estie inside blog estie にデータを使って意思決定したいことが 62 個もある話
sh19910711 2024/02/11
"Embulk を使って Snowflake からデータを読み込むプラグインが存在しない / embulk-input-jdbc: あくまで一般的な JDBC ドライバーに対応 + Snowflake 特有のキーペア認証などには一部のみしか対応していません"

*data

収集

dwh
リンク
300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークスエンジニアブログ
これはクラウドワークスアドベントカレンダー 24日目の記事です。前日は畑中さんの制作会社出身のデザイナーが事業会社に入って感じた５つの悩み事でした。事業会社とデザイン制作会社の違いから生まれる悩みをどう解決したかが伝わる記事でした。クラウドワークスSREチームの @kangaechu です。最近はM1 Macを購入しました。M1 Macはアプリケーションの対応状況がまだまだなので、Goをソースからクロスコンパイルするなど、今までやったことがないことができてちょっと楽しいです。でももう少しネイティブのアプリが揃うと嬉しいな。アドベントカレンダーはSREチームに入ってからの2年間にチームでやってきたことに続き、2つめのエントリとなります。前回の記事で、Docker化したシステムの一つとしてfluentd（ログ基盤）を挙げました。ここではそのログ基盤についての詳細を書いていきます。
sh19910711 2023/03/29
2020 / "Fluent Bit: クラウドプロバイダや、ElasticsearchやKafkaなどのプラグインが同梱 / Kinesis Firehoseへの出力プラグインはFluent Bit 1.6から本家で実装されているので、現在は追加のプラグインは不要です"

*data

収集

*infra

aws
リンク
Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
構想は半年ほど前？ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか？』という問題があります。例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。そこで、大量に収集するログデータを、少ない時間ロスで（つまり一時ファイルに保存したデータを再度DBにインポート
sh19910711 2022/09/10
fluent-plugin-arrow-file / "発生したデータを『どうやってSQLで処理できるようDBにインポートするか？』 / Fluentd から Apache Arrow 形式ファイルを出力 + 直接 PG-Strom から読み出す / データをインポートする事なく PostgreSQL から参照"

*data

収集

rdb

datalake
リンク
メモ Embulkの歴史、過去・現在、これから #shinjukugl - by shigemk2
メモ Embulkの歴史、過去・現在、これから #shinjukugl embulkとは embulk fluentdのバッチプラグインアーキテクチャ JRuby/Java/Scala/Kotlin 並列処理並行処理 guess リトライレジューム yamlベース -2015 プラグインの数はfluentdよりは少ない初期はcsvパースとかvim出力とか Qiitaのembulkのまとめ(2015/2/16) http://www.embulk.org/plugins/ 組み込みプラグイン覚書コマンドヘルプさまざまな人々の貢献 sakamaさん BQ用プラグイン BQにデータをアップロードできる組み込みCSVフォーマッターの修正 hito4_tさん JDBCまわりの大幅な回収 Oracle/SQLServerまわり civitaspoさん JSONまわりのプラグインを作成 s
sh19910711 2022/07/06
2017 / "2015: プラグインの数はfluentdよりは少ない + 初期はcsvパースとかvim出力とか / 2016: WebDBとかでの紹介 + Excelプラグインが脚光を浴びる"

*history

*data

収集
リンク
NetFlowを使ってネットワーク機器のトラフィックを見てみる
はじめまして、プラットフォームサービスの恩田です。今回はNetFlowを利用してネットワーク機器を通過するパケットをコレクタサーバに収集し、elasticsearch＋kibanaで可視化してみようと思います。 NetFlowとは？NetFlowとはネットワーク上を流れるトラフィックフローを受動的にモニタできる機能です。これまでもSNMP等でネットワーク機器を通過するパケットのトラフィック量や CPU、メモリ使用率などについては情報を取得できました。 NetFlowでは、SNMPでは取得できなかったクライアントPCのIPアドレスや宛先IPアドレス、ポート番号(TCP/80番ポート)などネットワーク機器を通過するパケットの詳細な情報を取得することが可能です。検証環境今回はVM環境に以下のような検証環境を構築してみます。 VyOS ： OSSのソフトウェアルータ。今回NetFlow
sh19910711 2022/04/13
"NetFlow: ネットワーク上を流れるトラフィックフローを受動的にモニタできる機能 + SNMPで取得していた情報よりも細かく情報を取得できる / fluent-plugin-netflow: VyOSを経由する通信をNetFlowでサーバーに転送"

*data

収集

*infra

*network

sys*
リンク
絶対的に使った方がいいLogstashのMultiple Pipelinesについて書いてみた - Qiita
はじめにおはです！ Logstashのフィルタの中でもGrokが好きなぼくが、Advent Calendar11日目を書かせていただきますーあ、でも今回は、Grokについては書かないですよ！じゃあ、何書くの？Grokしか脳のないお前が何を書くのさーそりゃ、あれだよ！Logstash 6.0がGAされたので、待ちに待ったMultiple Pipelinesについて書くしかないでしょ！てことで、LogstashのMultiple Pipelinesについて、ゆるーく書いていきます( ﾟДﾟ)ゞﾋﾞｼｯ構成について今回テストするにあたって使用した構成は以下です。 Amazon Linux AMI 2017.09.1 (HVM) Logstash 6.0 logstash-input-s3 Elasticsearch 6.0 Kibana 6.0 X-Pack 6.0 ちなみに、もろ
sh19910711 2022/02/09
2017 / "Multiple Pipelines: hoge.confに対して複数のデータソースを組み込んでいたものを、分割することができちゃう / Worker数などもPipeline毎に割り当てることができる"

*data

search

収集
リンク
fluentdでPostgreSQLで起こった変更を取得する - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
sh19910711 2022/02/07
2018 / "PostgreSQLが出力したトランザクションログ（WAL）から変更情報を取ってくるので、他の処理への影響を少なく抑えることができます / Logical Decoding側もプラグイン形式 + 好きな形式に変更結果を表すことができる"

*data

rdb

収集
リンク
1 2 3 4 5 次のページ