Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

kimutanskのブックマーク (6,279)

  • Realtime Malicious Login Detector with Flink CEP

    kimutansk
    kimutansk 2017/11/07
    FlinkCEP、Streamに普通のFlinkで絞ってそれ以後にCEPでいいなら、CEP部の記述を簡略化できそうではありますね。
  • サーバレスアーキテクチャによる時系列データベースの構築と監視 / Serverlessconf Tokyo 2017

    サーバレスアーキテクチャによる時系列データベースの構築と監視

    サーバレスアーキテクチャによる時系列データベースの構築と監視 / Serverlessconf Tokyo 2017
    kimutansk
    kimutansk 2017/11/06
    各種指標は参考になります。あとはS3上の保存形式はメトリクス毎に、時系列DBみたいに差分保存なのか、それともS3だから容量気にせずにデータ形式はDynamoとかと同様に保存なのか・・・気になります。
  • Apache Kafka Goes 1.0

    It has been seven years since we first set out to create the distributed streaming platform we know now as Apache Kafka®. Born initially as a highly scalable messaging system, Apache Kafka has evolved over the years into a full-fledged distributed streaming platform for publishing and subscribing, storing, and processing streaming data at scale and in real-time. Since we first open-sourced Apache

    Apache Kafka Goes 1.0
    kimutansk
    kimutansk 2017/11/01
    KafkaStreamAPIの追加・運用性改善、KafkaConnectメトリクスの拡充、Brokerメトリクスの拡充、Java9サポート、認証失敗ログ出力、JBOD対応強化、冪等Producerで同時接続数複数設定可能と。
  • ScalaCheck + ScalaTest で Property-Based Testing する | DevelopersIO

    こんにちは、山崎です。 ひとつのテストをたくさんのテストデータに対して実施したい時、fixtureにテスト用のデータを定義するというのが良くあるパターンだと思います。しかし、データの構造を変更するたびに必要になる、fixtureの大量のテストデータの手動での変更は辛い作業になってしまうことが多いと思います。 そこで今回は、データをランダムに生成することでそんな悩みを解決するProperty-Based Testingを、ScalaCheckとScalaTestにより実行する方法についてご紹介します。 Property-Based Testingとは ランダムに生成された値を使用してテストを行うことで、テスト対象のコードの満たすべき性質を検証するテストです。 今回はScalaのProperty-Based TestingのライブラリであるScalaCheckを使用します。 さっそく例を見てい

    ScalaCheck + ScalaTest で Property-Based Testing する | DevelopersIO
    kimutansk
    kimutansk 2017/11/01
    大抵テストデータをファイルにランダム生成してやってましたが、こちらの方がいいか・・・
  • Deep dive into stateful stream processing in structured streaming by Tathagata Das

    Deep dive into stateful stream processing in structured streaming by Tathagata Das Stateful processing is one of the most challenging aspects of distributed, fault-tolerant stream processing. The DataFrame APIs in Structured Streaming make it very easy for the developer to express their stateful logic, either implicitly (streaming aggregations) or explicitly (mapGroupsWithState). However, there ar

    Deep dive into stateful stream processing in structured streaming by Tathagata Das
    kimutansk
    kimutansk 2017/10/31
    全体構成、Spark as a Compilerとしての説明、UDFの使い方、Watermark、各種Join説明、レイテンシとStateのトレードオフなど相当トピック満載ですね。素晴らしい。
  • AbemaTVにPrometheusというモニタリングシステムを導入した話

    この記事はCyberAgent Developers Advent Calendar 2016 24日目の記事です。23日目はdekatotoroさんの「Apple TV – tvOS入門」でした。 こんにちは、AbemaTVサーバサイドエンジニアのギアです。 去年は新卒のiOSエンジニアとして、「ReactiveCocoaとMVVMモデル」という記事を書きましたが、今年はサーバサイドに関することを書きます。 はじめに この前にAbemaTVはモニタリング・アラートのため、主にStackdriver, Bugsnag, StatusCakeというサービスを使っています。しかし、Stackdriverはデフォルトである程度のGCP (Google Cloud Platform) 上のリソースに対するメトリクスしかありません。各マイクサービス間の通信やサービスのカスタマイズメトリクスなどのアプ

    AbemaTVにPrometheusというモニタリングシステムを導入した話
    kimutansk
    kimutansk 2017/10/31
    メトリクスとファイルのマッピングや、k8sのサービスディスカバリの設定は参考になります。一度始めるといろんなものを入れたくなるんですよね・・
  • Easy, scalable, fault tolerant stream processing with structured streaming - with Tathagata Das

    Easy, scalable, fault tolerant stream processing with structured streaming - with Tathagata Das Last year, in Apache Spark 2.0, Databricks introduced Structured Streaming, a new stream processing engine built on Spark SQL, which revolutionized how developers could write stream processing application. Structured Streaming enables users to express their computations the same way they would express a

    Easy, scalable, fault tolerant stream processing with structured streaming - with Tathagata Das
    kimutansk
    kimutansk 2017/10/31
    StreamingQueryListenerと、streamingMetricsは今度入れますかね。format:deltaはparquetファイル出力などの場合発生するギャップへの対処ですか。データストアではなく、こういう形で出してきますか。
  • 本当は恐ろしい分散システムの話

    2. 2Copyright©2017 NTT corp. All Rights Reserved. 諸説あるが、ここでの定義は「部分的な故障を許容するシステム」の事 複数台のコンピュータを接続して信頼性を高めたり データが途中で化けても再送したり訂正したり 一部のコンピュータが突然故障しても引き継いだり 故障を設計の一部に組み込む事が必須となる 分散システムとは 3. 3Copyright©2017 NTT corp. All Rights Reserved. • 世はまさに分散システム戦国時代 • Hadoopを皮切りに次々出てくる巨大分散OSS • シリコンバレーでも分散ミドルウェアベンチャーが多数出現 • 高信頼なシステムを作ろうと思った場合には複数台のマシンによる高可用構成 が前提になる • Google、Facebook、Amazon等はもちろん • 金融、流通などのエンタープラ

    本当は恐ろしい分散システムの話
    kimutansk
    kimutansk 2017/10/30
    Chaos Engineeringはステップ踏む過程からしてできる企業は相当限られそうな。前半も毎度のように面白いですが、契約や理論を実際の実装に落とし込むのはやはり辛く苦しい。
  • Efficient UD(A)Fs with PySpark

    Nowadays, Spark surely is one of the most prevalent technologies in the fields of data science and big data. Luckily, even though it is developed in Scala and runs in the Java Virtual Machine (JVM), it comes with Python bindings also known as PySpark, whose API was heavily influenced by Pandas. With respect to functionality, modern PySpark has about the same capabilities as Pandas when it comes to

    kimutansk
    kimutansk 2017/10/30
    Pyspark、UDAF書くためにはScalaで書かなければいけないので面倒だなぁ、と思ってましたが、Pandasに変換すれば一応できるわけですか。やりたいかはさておき。
  • A brave new world in mutable big data relational storage (Strata NYC 2017)

    kimutansk
    kimutansk 2017/10/24
    何に軸足を置いてるかで差分が出るという流れでもっていくのはわかりやすい。KuduはUpdateヘビーではなくInsertヘビーなシナリオに向くのは保存形態から来るものでしょうから、これもトレードオフか
  • Big Data Processing at Spotify: The Road to Scio (Part 2) - Spotify Engineering

    In this part we’ll take a closer look at Scio, including basic concepts, its unique features, and concrete use cases here at Spotify. Basic Concepts Scio is a Scala API for Apache Beam and Google Cloud Dataflow. It was designed as a thin wrapper on top of Beam’s Java SDK, while offering an easy way to build data pipelines in idiomatic Scala style. We drew most of our inspiration for the API from S

    Big Data Processing at Spotify: The Road to Scio (Part 2) - Spotify Engineering
    kimutansk
    kimutansk 2017/10/24
    BeamのScalaラッパーだけ思いきや、BigQueryのCaseClass作成などの要素もありましたか。
  • Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering

    インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。 それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。 これらの知見が少しでもお役に立てばと思い、ここで共有いたします。 なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe

    Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering
    kimutansk
    kimutansk 2017/10/23
    事例3、事例4あたりはそろそろぶつかってきそうなので確認しておきますか。unarchiveはまだドキュメントそのあたり読めていなかった。
  • Fluentd 入門 〜運用に必要な基礎知識〜

    最近業務で Fluentd を触ることが出てきて入門したんですが、最初のうちはトラブルが起きた時に何が起きているのか、どう対処したら良いのかがさっぱりわからなかったので、「Fluentd ってログの収集とかに使われるやつでしょ?」程度の知識しかなかった過去の自分に向けて「とりあえずこれぐらいは知っておけ!」と言いたい内容をまとめてみました。 トラブルが起きた時にどの処理で問題が起きているのか素早くコードを追うことができて、データの消失を最小限に抑えつつ適切に対処できるようになることを目的としています。 なお、現時点で最新版の Fluentd v0.14.21 を対象にしています。 アジェンダ Getting Started Fluentd のアーキテクチャ Processes Supervisor process Worker process Threads Input thread En

    Fluentd 入門 〜運用に必要な基礎知識〜
    kimutansk
    kimutansk 2017/10/23
    全体の流れがざっとわかるのはありがたいですね。説明にもよさそうです。
  • Monitoring at AbemaTV

    A consistent delivery process with GitOps style for any application on any platform

    Monitoring at AbemaTV
    kimutansk
    kimutansk 2017/10/23
    k8sのラベルを基に監視対象を決めるケースですか。で、やはり増えてくるとPrometheusからデータを集めるようになりますよね。Prometheusはそれ自体はやりやすい。
  • AWS Black Belt - AWS Glue

    1. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 1 アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 下佐粉 昭 2017.10.18 【AWS Black Belt Online Seminar】 AWS Glue 2. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 自己紹介 下佐粉 昭(しもさこ あきら) Twitter - @simosako 所属: アマゾン ウェブ サービス ジャパン 技術統括部 エンタープライズソリューション部 ソリューションアーキテクト 好きなAWSサービス:Redshift, RDS, S3 人間が運用等から解放されて楽にな

    AWS Black Belt - AWS Glue
    kimutansk
    kimutansk 2017/10/19
    VPC内でマネージドなジョブコンテナが起動するようなノリですか。EMR上でやるのと、Glueでやるのと、同じことをやると価格どう違いますかね。
  • ネットフリックスの値上げから考えるサブスクリプションモデルの適切なKPI設定|なおゆき

    Netflixアメリカで10月から値上げになって、近々日でも値上げになる可能性が高いらしいですね。 Netflixが日で提供を開始したのは2015年。この年は、Apple MusicAmazonプライムビデオ、AWA や LINE MUSIC が提供を開始し、サブスク元年と呼ばれました。 「所有」から「利用」へ、「商品」から「サービス」へ、「販売」から「月額課金」へ。このビジネスモデルは “サブスクリプション”( “サブスク” )と呼ばれ、最近では、ファッションのレンタルサービス、“メチャカリ” が欅坂46をCMに起用して(※2)大々的に展開しています。そのキャッチコピーは・・・ しかし、Twitterではこんな反応も多いです。 サブスクリプションという言葉が、どこまで市民権を得ているかわかりませんが、アメリカでは、カミソリの「Dollar Shave Club」や歯ブラシの「G

    ネットフリックスの値上げから考えるサブスクリプションモデルの適切なKPI設定|なおゆき
    kimutansk
    kimutansk 2017/10/18
    解約率/定期利益率/成長効率性指標。複数サービスが統合して会社の項目につながる場合、各サービスや分析の現場では、どうチームとしてのKPIに出来ますかね。そこが乖離していきますので。
  • Prometheus Storage

    This document discusses time series data storage and querying in Prometheus. It describes how Prometheus stores time series data as chunks on disk in a key-value store format, with compression to reduce storage needs. It also explains how Prometheus handles ingesting new time series data through appending to in-memory chunks before writing to disk, and how it handles querying time series data thro

    Prometheus Storage
    kimutansk
    kimutansk 2017/10/16
    時系列データの保存としては極めてベーシックな方式ですか。その分わかりやすい。WAL方式なのでデータの欠損はあり得ますが、その分効率がいい。監視用だとそれで問題ないですしね。
  • Kafkaコンシューマのリバランスはいつ行われるか - n-agetsumaの日記

    Kafkaのコンシューマグループに、コンシューマを追加すると、各コンシューマがどのパーティションを読み取るか再割り当てするリバランスが行われる。 Kafka0.11.0.1を対象に、以下の観点でKafkaの実装を調べてみた結果をまとめる。 リバランスはいつ行われるのか なぜ新規コンシューマ追加しても、すぐにメッセージ配信が始まらないのか リバランスが起こった時に重複メッセージ処理は発生しないか リバランスはいつ行われるのか KafkaConsumer.poll()メソッドの内部で行われる。 Kafkaのコンシューマの実装はだいたい以下のようになる。コード全体はgist参照。 Kafka Comsumer Sample · GitHub KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties()); co

    Kafkaコンシューマのリバランスはいつ行われるか - n-agetsumaの日記
    kimutansk
    kimutansk 2017/10/16
    JoinGroup待ち時の障害とか、今度シーケンス追ってみますかね。autoCommitをするか否かはrebalance時もどちらのスタンスに倒すかに依りますか。
  • Benchmarking Structured Streaming on Databricks Runtime Against State-of-the-Art Streaming Systems

    Unified governance for all data, analytics and AI assets

    Benchmarking Structured Streaming on Databricks Runtime Against State-of-the-Art Streaming Systems
    kimutansk
    kimutansk 2017/10/13
    この手のはどうしてもチューニングは各自のが得意なのでそのあたりの差分が出ますが・・・ただ、流量計測の方式とかそのあたりは色々参考になりそうです。
  • Introducing AthenaX, Uber Engineering’s Open Source Streaming Analytics Platform

    EngineeringIntroducing AthenaX, Uber Engineering’s Open Source Streaming Analytics PlatformOctober 9, 2017 / Global Uber facilitates seamless and more enjoyable user experiences by channeling data from a variety of real-time sources. These insights range from in-the-moment traffic conditions that provide guidance on trip routes to the Estimated Time of Delivery (ETD) of an UberEATS order—and every

    Introducing AthenaX, Uber Engineering’s Open Source Streaming Analytics Platform
    kimutansk
    kimutansk 2017/10/10
    UberのSQLによるストリーミング解析プラットフォームAthenaXがOSS化?SQLでのスケールするストリーム処理系プラットフォームですが、どのくらい使えるのか・・?