Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

収集に関するsh19910711のブックマーク (86)

  • PythonでEmbulkを動的に実行する - Qiita

    はじめに ETLツールの一種であるEmbulkでは、データ転送の処理をyamlで設定して実行します。 動的に処理内容を変更したい場合、yamlの一部を環境変数に置き換えることができます。 しかし、処理内容を実行ごとに変化させたい場合、環境変数で設定をするのは面倒です。例えば、出力するファイル名に実行時間を加えたい場合などには、環境変数を逐一変更することになります。 この記事では、Python用のテンプレートエンジンであるjinja2を使って、簡単にyamlの設定ファイルを動的生成する方法について紹介します。より作り込んだシステムが必要な場合には、Digdagなどのワークフローエンジンを使うことが良いです。 そもそもEmbulkとは EmbulkとはOSSのバッチ型のデータ転送ツールです。ストリーミングデータを対象にしたfluentdと対になるようなツールです。コンパクトながら、たくさんの入

    PythonでEmbulkを動的に実行する - Qiita
    sh19910711
    sh19910711 2024/06/16
    "Embulk: 処理内容を実行ごとに変化させたい場合、環境変数で設定をするのは面倒 + ファイル名に実行時間を加えたい場合など + jinja2でyamlを動的に生成 / Embulkに限らず、設定ファイルの管理などにも使えそう" 2022
  • SSM Inventory を使って便利に EC2 棚卸し(ハマりどころを添えて)

    セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security

    SSM Inventory を使って便利に EC2 棚卸し(ハマりどころを添えて)
    sh19910711
    sh19910711 2024/06/13
    "SSM Inventory: OS・アプリケーション・ネットワーク情報など + コンソールで簡易的な統計が見られる / リソースデータ同期を使ってS3へ出力 + マルチアカウント環境での集約も可能 > Athenaでクエリを流して棚卸し"
  • Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside

    こんにちは。 機械学習チームにてレコメンドの改善を行っているgumigumi4fです。 この記事では、Fluentdにて収集したログをBigQueryに挿入する際に使用しているプラグインを置き換えることによって、高スループットかつ低コストを実現した話について紹介します。 背景 pixivではアクセスログやアプリケーションログ等をBigQueryに収集し、分析できるような仕組みを構築しています。 BigQueryへアクセスログを挿入する際はFluentdとそのプラグインであるfluent-plugin-bigqueryを用いて直接BigQueryへ書き込むようになっていたのですが、その際にログ欠損が起こることが問題となっていました。 ログの欠損はピークタイムで発生しており、そのピークタイムのログの流量は概ね毎秒30000logとかなり多く、実際Fluentdのworkerプロセスが1work

    Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside
    sh19910711
    sh19910711 2024/06/11
    "fluent-plugin-bigquery: ログの流量は概ね毎秒30000 + Fluentdのworkerプロセスが1workerあたりCPUを1コア恒常的に使い切っているなど頭打ちのような挙動 + ログ欠損が起こる / Storage Write API を用いる新たなFluentd向けプラグインを開発"
  • trocco+JIRAで完成の定義を記入していない課題一覧をBigQueryに同期してデータポータルで可視化する

    モチベーション スクラムでは完成の定義とはプロダクトバックログアイテムが品質基準を満たしたインクリメントであることを示す記述です。 リファインメント時にプロダクトオーナーと開発者が合意を取った上で記入してから、スプリントで着手するのが理想ですが、記入が完了していないまま着手に取り掛かってしまっている課題が無いかを確認したいことがありました。 今回はそのためにやったことを残します。 対象読者 既にtroccoを導入している方 最終イメージ こんな感じでアクティブスプリント内で完成の定義の記入が終わっていない課題の内容を可視化することができます。 カスタムフィールドのIDを確認 カスタムフィールドが用意できたら、タイトルから詳細を編集をクリックします。 https://xxxxx.atlassian.net/secure/admin/EditCustomField!default.jspa?i

    trocco+JIRAで完成の定義を記入していない課題一覧をBigQueryに同期してデータポータルで可視化する
    sh19910711
    sh19910711 2024/05/25
    "記入が完了していないまま着手に取り掛かってしまっている課題が無いかを確認したい / troccoではJQLを使って課題の絞り込みを行うことができ + 他にAirbyteも検討したのですが、JQLに対応していなかった(2022.03" 2022
  • OpenLDAPのログをElastic AgentのCustom Logsで取り込む - Qiita

    はじめに Elasticsearchでログを取り込むと言えばBeatsかLogstash、という方も多いと思いますが、Kibanaから集中管理できるElastic Agentが広く使われています。 Elastic Agentについてはこちらの記事をご参照ください。 https://qiita.com/yukshimizu/items/abec12ac46749db46b40 BeatsやLogstashでは取得側でパース等の設定をしていましたが、Elastic AgentではIngest Pipelineを使用してElasticsearch側でパースを行います。 Ingest Pipelineについてはこちらに正式ドキュメントがあります。 https://www.elastic.co/guide/en/elasticsearch/reference/8.11/ingest.html 記事

    OpenLDAPのログをElastic AgentのCustom Logsで取り込む - Qiita
    sh19910711
    sh19910711 2024/05/24
    "BeatsやLogstashでは取得側でパース等の設定をしていましたが、Elastic AgentではIngest Pipelineを使用してElasticsearch側でパース / Integrationsというのは、BeatsのModuleのようなもの / Dashboard等も自動で作成" 2023
  • Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

    概要 Splunkが DeepLearningに対応しました(驚き)。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。 もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして 複数の NLP ライブラリが利用可能です。 今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。 ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた

    Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita
    sh19910711
    sh19910711 2024/05/08
    "Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019
  • n8nでワークフローを自動化した話 / 20220914_n8n

    2022ランキング圏外から2023ランキング入りを実現したテックブログ運営について / 2023-07-28-QiitaEngineerFesta

    n8nでワークフローを自動化した話 / 20220914_n8n
    sh19910711
    sh19910711 2024/05/07
    "iPaaS: 異なるSaaS同士を接続してデータ統合したりタスクを実行 / n8n: 柔軟性があり拡張性の高いワークフロー自動化ツール + セルフホスティングも可能 / OGP取得 + サムネイル用画像をS3に保存 + Notionに投稿" 2022
  • スクレイピング時に本文だけを抽出する最高精度ツールが優秀!【日本語版も公開】 - Qiita

    n,pはそれぞれnegative(ノイズ),positive(文)を基準とした時の評価を表します。 例としてノイズ部分をN,文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に文を抽出できているかを評価していると考えればよいでしょう。 元のデータでの再現学習も問題無く行えました。また日語対応版もおおよそ元論文と同程度の精度が出ています。 要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

    スクレイピング時に本文だけを抽出する最高精度ツールが優秀!【日本語版も公開】 - Qiita
    sh19910711
    sh19910711 2024/05/06
    "boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020
  • OktaログをMicrosoft Sentinelに取り込んでみた - APC 技術ブログ

    はじめに こんにちは、エーピーコミュニケーションズ iTOC事業部 BzD部 0-WANの坂口です。 今回は、OktaのログをMicrosoft Sentinelに格納する方法をご紹介します。 想定アーキテクチャ 想定するアーキテクチャは、下図のとおりです。 Azure Functions 定期的にOktaに接続してログを収集します。 Log Analytics workspace 収集したOktaログを格納します。 Microsoft Sentinel Log Analytics workspaceに格納されたログを参照・分析します。 ログ格納の手順 Oktaの監査ログとイベントログを収集する手順です。下記データコネクタを利用します。 learn.microsoft.com 手順1. Okta API Tokenの作成 手順2. Okta Single Sing-Onコンテンツのインスト

    OktaログをMicrosoft Sentinelに取り込んでみた - APC 技術ブログ
    sh19910711
    sh19910711 2024/04/20
    "Azure Functions + Log Analytics workspace + Microsoft Sentinel / Microsoft Sentinel: 様々なコネクタが準備されており、Microsoft製品でなくても容易にログを収集することができ + 従量課金のため、パイロット導入もしやすい"
  • NLBでfluentdのforwardパケットを分散させてみた - Qiita

    AWSの新しいロードバランサであるNLB(Network Load Balancer)を使ってfluentdのforwardパケットを分散してみたので、レポートをまとめておく。 NLB自体については、クラスメソッドのブログ等で紹介されているのでそちらを参照するのが分かり易い。 静的なIPを持つロードバランサーNetwork Load Balancer(NLB)が発表されました! 試してわかった NLB の細かいお作法 ざっくり言うと、TCPプロトコルを対象にしたALBって感じ。 ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い。 ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる。 利用までの流れ ターゲットグループを作成し、TCPレベルでコネクションが貼れるかのヘルスチェックの設定をする インスタンスもしくは対象IPと、ポートの組を

    NLBでfluentdのforwardパケットを分散させてみた - Qiita
    sh19910711
    sh19910711 2024/04/20
    "NLB: TCPプロトコルを対象にしたALB + ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い / ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる" 2017
  • FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある

    三行で FireLens を使うことで ECS で稼働するアプリケーションのログ転送を簡単に実装できる しかし、ドキュメントに記載されている設定例をそのまま利用しただけでは実はログの取りこぼしがあった ログの取りこぼしを防ぐためにコンテナ間の依存関係とHealthcheckの設定を行った FireLens とは FireLens を簡単に言うと、「ECS のタスク定義の記述だけで Fluent Bit / Fluentd を使ったログ転送用のサイドカーコンテナが利用できる機能」でしょうか。 FireLens という個別のサービスやソフトウェアが存在するわけでは無いようです。 詳細は以下を参照ください。 症状 私が関わったとあるサービスでは ECS を使ってアプリケーションを稼働させていて、アプリケーションのログは FireLens により Fluent Bit を使ってログ転送を行っていま

    FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある
    sh19910711
    sh19910711 2024/04/20
    "FireLens: ログ転送用のサイドカーコンテナが利用できる機能 + ECS で稼働するアプリケーションのログ転送を簡単に実装できる / 依存元コンテナが立ち上がった段階でその依存先コンテナが立ち上がっていないケース"
  • 分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

    はじめに こんにちは!Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。 分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。 このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。 切替前のデータ連携処理 先述した通り、BAS

    分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
    sh19910711
    sh19910711 2024/04/14
    "Aurora MySQLにあるデータをEmbulkを用いてBigQueryに連携 + Lookerなどを通して社内利用 / Aurora S3 Export: 100GBで$1.2~1.3程度 / RdsStartExportTaskOperator: Airflowサーバーのバージョンが低くて利用ができなかった"
  • 請求書発行のためにEmbulkを使って爆速でデータを集約した話 - 一休.com Developers Blog

    こんにちは。宿泊開発チームの菊地です! このエントリは 一休.com Advent Calendar 2023 12日目の記事です。昨日は id:rotom によるSlack Enterprise Grid における情報バリアの設計でした。その他の素敵なエントリも以下のリンクからご覧ください。 qiita.com 私はEmbulkを使って、各プロダクトの請求データを集約する機能を担当しました。今回は、Embulkの紹介とふりかえりをしていきたいと思います! 背景 課題 解決策 Embulkとは? 今回の課題に対してEmbulkがマッチした理由 union: 複数のデータソースを連結する config.ymlの記述例 lookup: 複数のデータソースを結合する config.ymlの記述例 ふりかえり とくに良かったこと config.ymlの取り回しのよさが開発スピードをあげてくれた c

    請求書発行のためにEmbulkを使って爆速でデータを集約した話 - 一休.com Developers Blog
    sh19910711
    sh19910711 2024/04/12
    "Embulk: 2023年3月からは、社に限定せず広くコアチームを結成し設計検討を行っていく方針が発表 + 業務としてのOSS開発のアンビバレンスなど、かなり実情に即した部分まで言及 / union: input プラグインを組み合わせられる" 2023
  • Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog

    こんにちは、スタッフエンジニアの @kenkoooo です。Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb をオープンソースとして公開しました。 github.com Embulk とは? データをロードするすごい OSS です。プラグイン形式でデータの入力や出力を定義することができるため、各種 SQL や BigQuery などだけでなく、スプレッドシートやアクセス解析など様々な入力元・出力先に対応しています。 公式サイト: Embulk Snowflake とは? データを集めたり加工したりするデータプラットフォームです。estie でメッチャ流行ってます。 dbt-snowflake のテストフレームワークを作った話 - estie inside blog estie にデータを使って意思決定したいことが 62 個もある話

    Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog
    sh19910711
    sh19910711 2024/02/11
    "Embulk を使って Snowflake からデータを読み込むプラグインが存在しない / embulk-input-jdbc: あくまで一般的な JDBC ドライバーに対応 + Snowflake 特有のキーペア認証などには一部のみしか対応していません"
  • 300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークス エンジニアブログ

    これは クラウドワークス アドベントカレンダー 24日目の記事です。前日は 畑中 さんの制作会社出身のデザイナーが事業会社に入って感じた5つの悩み事でした。事業会社とデザイン制作会社の違いから生まれる悩みをどう解決したかが伝わる記事でした。 クラウドワークスSREチームの @kangaechu です。最近はM1 Macを購入しました。M1 Macはアプリケーションの対応状況がまだまだなので、Goをソースからクロスコンパイルするなど、今までやったことがないことができてちょっと楽しいです。でももう少しネイティブのアプリが揃うと嬉しいな。 アドベントカレンダーはSREチームに入ってからの2年間にチームでやってきたことに続き、2つめのエントリとなります。前回の記事で、Docker化したシステムの一つとしてfluentd(ログ基盤)を挙げました。ここではそのログ基盤についての詳細を書いていきます。

    300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークス エンジニアブログ
    sh19910711
    sh19910711 2023/03/29
    2020 / "Fluent Bit: クラウドプロバイダや、ElasticsearchやKafkaなどのプラグインが同梱 / Kinesis Firehoseへの出力プラグインはFluent Bit 1.6から本家で実装されているので、現在は追加のプラグインは不要です"
  • Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

    構想は半年ほど前?ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。 そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』という問題があります。 例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。 そこで、大量に収集するログデータを、少ない時間ロスで(つまり一時ファイルに保存したデータを再度DBにインポート

    Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
    sh19910711
    sh19910711 2022/09/10
    fluent-plugin-arrow-file / "発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』 / Fluentd から Apache Arrow 形式ファイルを出力 + 直接 PG-Strom から読み出す / データをインポートする事なく PostgreSQL から参照"
  • メモ Embulkの歴史、過去・現在、これから #shinjukugl - by shigemk2

    メモ Embulk歴史、過去・現在、これから #shinjukugl embulkとは embulk fluentdのバッチ プラグインアーキテクチャ JRuby/Java/Scala/Kotlin 並列処理 並行処理 guess リトライ レジューム yamlベース -2015 プラグインの数はfluentdよりは少ない 初期はcsvパースとかvim出力とか Qiitaのembulkのまとめ(2015/2/16) http://www.embulk.org/plugins/ 組み込みプラグイン覚書 コマンドヘルプ さまざまな人々の貢献 sakamaさん BQ用プラグイン BQにデータをアップロードできる 組み込みCSVフォーマッターの修正 hito4_tさん JDBCまわりの大幅な回収 Oracle/SQLServerまわり civitaspoさん JSONまわりのプラグインを作成 s

    メモ Embulkの歴史、過去・現在、これから #shinjukugl - by shigemk2
    sh19910711
    sh19910711 2022/07/06
    2017 / "2015: プラグインの数はfluentdよりは少ない + 初期はcsvパースとかvim出力とか / 2016: WebDBとかでの紹介 + Excelプラグインが脚光を浴びる"
  • NetFlowを使ってネットワーク機器のトラフィックを見てみる

    はじめまして、プラットフォームサービスの恩田です。 今回はNetFlowを利用してネットワーク機器を通過するパケットを コレクタサーバに収集し、elasticsearch+kibanaで可視化してみようと思います。 NetFlowとは?NetFlowとはネットワーク上を流れるトラフィックフローを受動的にモニタできる機能です。 これまでもSNMP等でネットワーク機器を通過するパケットのトラフィック量や CPU、メモリ使用率などについては情報を取得できました。 NetFlowでは、SNMPでは取得できなかったクライアントPCIPアドレスや宛先IPアドレス、 ポート番号(TCP/80番ポート)などネットワーク機器を通過するパケットの 詳細な情報を取得することが可能です。 検証環境今回はVM環境に以下のような検証環境を構築してみます。 VyOS : OSSのソフトウェアルータ。今回NetFlow

    NetFlowを使ってネットワーク機器のトラフィックを見てみる
    sh19910711
    sh19910711 2022/04/13
    "NetFlow: ネットワーク上を流れるトラフィックフローを受動的にモニタできる機能 + SNMPで取得していた情報よりも細かく情報を取得できる / fluent-plugin-netflow: VyOSを経由する通信をNetFlowでサーバーに転送"
  • 絶対的に使った方がいいLogstashのMultiple Pipelinesについて書いてみた - Qiita

    はじめに おはです! Logstashのフィルタの中でもGrokが好きなぼくが、Advent Calendar11日目を書かせていただきますー あ、でも今回は、Grokについては書かないですよ! じゃあ、何書くの?Grokしか脳のないお前が何を書くのさー そりゃ、あれだよ!Logstash 6.0がGAされたので、待ちに待ったMultiple Pipelinesについて書くしかないでしょ! てことで、LogstashのMultiple Pipelinesについて、ゆるーく書いていきます( ゚Д゚)ゞビシッ 構成について 今回テストするにあたって使用した構成は以下です。 Amazon Linux AMI 2017.09.1 (HVM) Logstash 6.0 logstash-input-s3 Elasticsearch 6.0 Kibana 6.0 X-Pack 6.0 ちなみに、もろ

    絶対的に使った方がいいLogstashのMultiple Pipelinesについて書いてみた - Qiita
    sh19910711
    sh19910711 2022/02/09
    2017 / "Multiple Pipelines: hoge.confに対して複数のデータソースを組み込んでいたものを、分割することができちゃう / Worker数などもPipeline毎に割り当てることができる"
  • fluentdでPostgreSQLで起こった変更を取得する - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    fluentdでPostgreSQLで起こった変更を取得する - Qiita
    sh19910711
    sh19910711 2022/02/07
    2018 / "PostgreSQLが出力したトランザクションログ(WAL)から変更情報を取ってくるので、他の処理への影響を少なく抑えることができます / Logical Decoding側もプラグイン形式 + 好きな形式に変更結果を表すことができる"