kimutanskのブックマーク - はてなブックマーク

kimutansk id:kimutansk

kimutanskのブックマーク (6,279)

Realtime Malicious Login Detector with Flink CEP
kimutansk 2017/11/07
FlinkCEP、Streamに普通のFlinkで絞ってそれ以後にCEPでいいなら、CEP部の記述を簡略化できそうではありますね。

stream

flink
リンク
サーバレスアーキテクチャによる時系列データベースの構築と監視 / Serverlessconf Tokyo 2017
サーバレスアーキテクチャによる時系列データベースの構築と監視
kimutansk 2017/11/06
各種指標は参考になります。あとはS3上の保存形式はメトリクス毎に、時系列DBみたいに差分保存なのか、それともS3だから容量気にせずにデータ形式はDynamoとかと同様に保存なのか・・・気になります。
リンク
Apache Kafka Goes 1.0
It has been seven years since we first set out to create the distributed streaming platform we know now as Apache Kafka®. Born initially as a highly scala ble messaging system, Apache Kafka has evolved over the years into a full-fledged distributed streaming platform for publishing and subscribing, storing, and processing streaming data at scale and in real-time. Since we first open-sourced Apache
kimutansk 2017/11/01
KafkaStreamAPIの追加・運用性改善、KafkaConnectメトリクスの拡充、Brokerメトリクスの拡充、Java9サポート、認証失敗ログ出力、JBOD対応強化、冪等Producerで同時接続数複数設定可能と。

kafka
リンク
ScalaCheck + ScalaTest で Property-Based Testing する | DevelopersIO
こんにちは、山崎です。ひとつのテストをたくさんのテストデータに対して実施したい時、fixtureにテスト用のデータを定義するというのが良くあるパターンだと思います。しかし、データの構造を変更するたびに必要になる、fixtureの大量のテストデータの手動での変更は辛い作業になってしまうことが多いと思います。そこで今回は、データをランダムに生成することでそんな悩みを解決するProperty-Based Testingを、ScalaCheckとScalaTestにより実行する方法についてご紹介します。 Property-Based Testingとはランダムに生成された値を使用してテストを行うことで、テスト対象のコードの満たすべき性質を検証するテストです。今回はScalaのProperty-Based TestingのライブラリであるScalaCheckを使用します。さっそく例を見てい
kimutansk 2017/11/01
大抵テストデータをファイルにランダム生成してやってましたが、こちらの方がいいか・・・

scala

unittest
リンク
Deep dive into stateful stream processing in structured streaming by Tathagata Das
Deep dive into stateful stream processing in structured streaming by Tathagata Das Stateful processing is one of the most challenging aspects of distributed, fault-tolerant stream processing. The DataFrame APIs in Structured Streaming make it very easy for the developer to express their stateful logic, either implicitly (streaming aggregations) or explicitly (mapGroupsWithState). However, there ar
kimutansk 2017/10/31
全体構成、Spark as a Compilerとしての説明、UDFの使い方、Watermark、各種Join説明、レイテンシとStateのトレードオフなど相当トピック満載ですね。素晴らしい。

stream

spark
リンク
AbemaTVにPrometheusというモニタリングシステムを導入した話
この記事はCyberAgent Developers Advent Calendar 2016 24日目の記事です。23日目はdekatotoroさんの「Apple TV – tvOS入門」でした。こんにちは、AbemaTVサーバサイドエンジニアのギアです。去年は新卒のiOSエンジニアとして、「ReactiveCocoaとMVVMモデル」という記事を書きましたが、今年はサーバサイドに関することを書きます。はじめにこの前にAbemaTVはモニタリング・アラートのため、主にStackdriver, Bugsnag, StatusCakeというサービスを使っています。しかし、Stackdriverはデフォルトである程度のGCP (Google Cloud Platform) 上のリソースに対するメトリクスしかありません。各マイクサービス間の通信やサービスのカスタマイズメトリクスなどのアプ
kimutansk 2017/10/31
メトリクスとファイルのマッピングや、k8sのサービスディスカバリの設定は参考になります。一度始めるといろんなものを入れたくなるんですよね・・

prometheus

monitoring
リンク
Easy, scalable, fault tolerant stream processing with structured streaming - with Tathagata Das
Easy, scala ble, fault tolerant stream processing with structured streaming - with Tathagata Das Last year, in Apache Spark 2.0, Databricks introduced Structured Streaming, a new stream processing engine built on Spark SQL, which revolutionized how developers could write stream processing application. Structured Streaming enables users to express their computations the same way they would express a
kimutansk 2017/10/31
StreamingQueryListenerと、streamingMetricsは今度入れますかね。format:deltaはparquetファイル出力などの場合発生するギャップへの対処ですか。データストアではなく、こういう形で出してきますか。

stream

spark
リンク
本当は恐ろしい分散システムの話
2. 2Copyright©2017 NTT corp. All Rights Reserved. 諸説あるが、ここでの定義は「部分的な故障を許容するシステム」の事複数台のコンピュータを接続して信頼性を高めたりデータが途中で化けても再送したり訂正したり一部のコンピュータが突然故障しても引き継いだり故障を設計の一部に組み込む事が必須となる分散システムとは 3. 3Copyright©2017 NTT corp. All Rights Reserved. • 世はまさに分散システム戦国時代 • Hadoopを皮切りに次々出てくる巨大分散OSS • シリコンバレーでも分散ミドルウェアベンチャーが多数出現 • 高信頼なシステムを作ろうと思った場合には複数台のマシンによる高可用構成が前提になる • Google、Facebook、Amazon等はもちろん • 金融、流通などのエンタープラ
kimutansk 2017/10/30
Chaos Engineeringはステップ踏む過程からしてできる企業は相当限られそうな。前半も毎度のように面白いですが、契約や理論を実際の実装に落とし込むのはやはり辛く苦しい。

distributed
リンク
Efficient UD(A)Fs with PySpark
Nowadays, Spark surely is one of the most prevalent techno logies in the fields of data science and big data. Luckily, even though it is developed in Scala and runs in the Java Virtual Machine (JVM), it comes with Python bindings also known as PySpark, whose API was heavily influenced by Pandas. With respect to functionality, modern PySpark has about the same capabilities as Pandas when it comes to
kimutansk 2017/10/30
Pyspark、UDAF書くためにはScalaで書かなければいけないので面倒だなぁ、と思ってましたが、Pandasに変換すれば一応できるわけですか。やりたいかはさておき。

spark

python
リンク
A brave new world in mutable big data relational storage (Strata NYC 2017)
kimutansk 2017/10/24
何に軸足を置いてるかで差分が出るという流れでもっていくのはわかりやすい。KuduはUpdateヘビーではなくInsertヘビーなシナリオに向くのは保存形態から来るものでしょうから、これもトレードオフか

kudu
リンク
Big Data Processing at Spotify: The Road to Scio (Part 2) - Spotify Engineering
In this part we’ll take a closer look at Scio, including basic concepts, its unique features, and concrete use cases here at Spotify. Basic Concepts Scio is a Scala API for Apache Beam and Google Cloud Dataflow. It was designed as a thin wrapper on top of Beam’s Java SDK, while offering an easy way to build data pipelines in idiomatic Scala style. We drew most of our inspiration for the API from S
kimutansk 2017/10/24
BeamのScalaラッパーだけ思いきや、BigQueryのCaseClass作成などの要素もありましたか。

beam
リンク
Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering
インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。これらの知見が少しでもお役に立てばと思い、ここで共有いたします。なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe
kimutansk 2017/10/23
事例3、事例4あたりはそろそろぶつかってきそうなので確認しておきますか。unarchiveはまだドキュメントそのあたり読めていなかった。

prometheus
リンク
Fluentd 入門〜運用に必要な基礎知識〜
最近業務で Fluentd を触ることが出てきて入門したんですが、最初のうちはトラブルが起きた時に何が起きているのか、どう対処したら良いのかがさっぱりわからなかったので、「Fluentd ってログの収集とかに使われるやつでしょ？」程度の知識しかなかった過去の自分に向けて「とりあえずこれぐらいは知っておけ！」と言いたい内容をまとめてみました。トラブルが起きた時にどの処理で問題が起きているのか素早くコードを追うことができて、データの消失を最小限に抑えつつ適切に対処できるようになることを目的としています。なお、現時点で最新版の Fluentd v0.14.21 を対象にしています。アジェンダ Getting Started Fluentd のアーキテクチャ Processes Supervisor process Worker process Threads Input thread En
kimutansk 2017/10/23
全体の流れがざっとわかるのはありがたいですね。説明にもよさそうです。
リンク
Monitoring at AbemaTV
A consistent delivery process with GitOps style for any application on any platform
kimutansk 2017/10/23
k8sのラベルを基に監視対象を決めるケースですか。で、やはり増えてくるとPrometheusからデータを集めるようになりますよね。Prometheusはそれ自体はやりやすい。
リンク
AWS Black Belt - AWS Glue
1. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 1 アマゾンウェブサービスジャパン株式会社ソリューションアーキテクト下佐粉昭 2017.10.18 【AWS Black Belt Online Seminar】 AWS Glue 2. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 自己紹介下佐粉昭（しもさこあきら） Twitter - @simosako 所属：アマゾンウェブサービスジャパン技術統括本部エンタープライズソリューション部ソリューションアーキテクト好きなAWSサービス:Redshift, RDS, S3 人間が運用等から解放されて楽にな
kimutansk 2017/10/19
VPC内でマネージドなジョブコンテナが起動するようなノリですか。EMR上でやるのと、Glueでやるのと、同じことをやると価格どう違いますかね。

aws
リンク
ネットフリックスの値上げから考えるサブスクリプションモデルの適切なKPI設定｜なおゆき
Netflix、アメリカで10月から値上げになって、近々日本でも値上げになる可能性が高いらしいですね。 Netflixが日本で提供を開始したのは2015年。この年は、Apple Music やAmazonプライムビデオ、AWA や LINE MUSIC が提供を開始し、サブスク元年と呼ばれました。「所有」から「利用」へ、「商品」から「サービス」へ、「販売」から「月額課金」へ。このビジネスモデルは “サブスクリプション”（ “サブスク” ）と呼ばれ、最近では、ファッションのレンタルサービス、“メチャカリ” が欅坂46をCMに起用して（※2）大々的に展開しています。そのキャッチコピーは・・・しかし、Twitterではこんな反応も多いです。サブスクリプションという言葉が、どこまで市民権を得ているかわかりませんが、アメリカでは、カミソリの「Dollar Shave Club」や歯ブラシの「G
kimutansk 2017/10/18
解約率／定期利益率／成長効率性指標。複数サービスが統合して会社の項目につながる場合、各サービスや分析の現場では、どうチームとしてのKPIに出来ますかね。そこが乖離していきますので。
リンク
Prometheus Storage
This document discusses time series data storage and querying in Prometheus. It describes how Prometheus stores time series data as chunks on disk in a key-value store format, with compression to reduce storage needs. It also explains how Prometheus handles ingesting new time series data through appending to in-memory chunks before writing to disk, and how it handles querying time series data thro
kimutansk 2017/10/16
時系列データの保存としては極めてベーシックな方式ですか。その分わかりやすい。WAL方式なのでデータの欠損はあり得ますが、その分効率がいい。監視用だとそれで問題ないですしね。

prometheus
リンク
Kafkaコンシューマのリバランスはいつ行われるか - n-agetsumaの日記
Kafkaのコンシューマグループに、コンシューマを追加すると、各コンシューマがどのパーティションを読み取るか再割り当てするリバランスが行われる。 Kafka0.11.0.1を対象に、以下の観点でKafkaの実装を調べてみた結果をまとめる。リバランスはいつ行われるのかなぜ新規コンシューマ追加しても、すぐにメッセージ配信が始まらないのかリバランスが起こった時に重複メッセージ処理は発生しないかリバランスはいつ行われるのか KafkaConsumer.poll()メソッドの内部で行われる。 Kafkaのコンシューマの実装はだいたい以下のようになる。コード全体はgist参照。 Kafka Comsumer Sample · GitHub KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties()); co
kimutansk 2017/10/16
JoinGroup待ち時の障害とか、今度シーケンス追ってみますかね。autoCommitをするか否かはrebalance時もどちらのスタンスに倒すかに依りますか。

kafka

stream
リンク
Benchmarking Structured Streaming on Databricks Runtime Against State-of-the-Art Streaming Systems
Unified governance for all data, analytics and AI assets
kimutansk 2017/10/13
この手のはどうしてもチューニングは各自のが得意なのでそのあたりの差分が出ますが・・・ただ、流量計測の方式とかそのあたりは色々参考になりそうです。

stream

spark

flink
リンク
Introducing AthenaX, Uber Engineering’s Open Source Streaming Analytics Platform
EngineeringIntroducing AthenaX, Uber Engineering’s Open Source Streaming Analytics PlatformOctober 9, 2017 / Global Uber facilitates seamless and more enjoyable user experiences by channeling data from a variety of real-time sources. These insights range from in-the-moment traffic conditions that provide guidance on trip routes to the Estimated Time of Delivery (ETD) of an UberEATS order—and every
kimutansk 2017/10/10
UberのSQLによるストリーミング解析プラットフォームAthenaXがOSS化？SQLでのスケールするストリーム処理系プラットフォームですが、どのくらい使えるのか・・？

stream
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ