Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

kimutanskのブックマーク (6,279)

  • Instaclustr Kafka Meetup Sydney Presentation

    kimutansk
    kimutansk 2018/06/14
    ST1/GP2の比較はありがたい。JDK9の暗号関連改善の影響に、Partitionの増加はスループットにはそれほど影響しないなど、いいなぁ。
  • Why is My Stream Processing Job Slow? with Xavier Leaute

    kimutansk
    kimutansk 2018/06/14
    ストリーム処理の遅延のあるあるではありますが、見るべき観点挙げとしてはいいなぁ。常時可視化した上で対応しないとオーバーヘッドで死にますが。
  • RealTime Recommendations @Netflix - Spark

    kimutansk
    kimutansk 2018/06/07
    NRTレコメンデーション、各地でストリームでEnrichして集約、バッチでモデル更新してレコメンデーションと。実行部はMaration+Mesosですか。
  • CentOS7.5 の fsnotify がレースコンディションを起こすバグを nginx + td-agent + in_tail プラグインで踏む - hibomaの日記

    2018/7/18 追記 3.10.0-862.9.1.el7 で fix されました hiboma.hatenadiary.jp 2018/7/4 追記 最新の情報はこちらにまとめています hiboma.hatenadiary.jp 2018/6/16 追記 CentOS Plus の kernel-plus では修正が入っています. 詳しくはこちらをご覧ください hiboma.hatenadiary.jp エントリの概要 CentOS7.5 の fsnotify() がレースコンディションを起こすバグを、 nginx + td-agent (fluentd) + in_tail プラグインで踏んだ際の調査内容を記していきます. イントロダクション このエントリを書いた時点では、CentOS 7.5.1804 以降でリリースされているカーネルは 3つありますが、カーネルの fsnotif

    CentOS7.5 の fsnotify がレースコンディションを起こすバグを nginx + td-agent + in_tail プラグインで踏む - hibomaの日記
    kimutansk
    kimutansk 2018/06/06
    普通にCentOS7.5でnginxのログをFluentdでtailするというシンプルな構成で踏み抜く奴ですか。バージョンの組み合わせは確認しよう・・・
  • jjugccc2018 app review postmortem

    3. アジェンダ • 自己紹介 • アーキテクチャの説明 • レビューについて – どのレベルで? – どういう観点で? – 指摘が多いもの/具体的な内容 • 性能問題 – JVMの話 – JVMの外の話 • 障害例 • ボトルネックの見つけ方 • 負荷試験 • おまけ 3 4. 自己紹介 • Name: Kiyotaka Suzuki • Twitter: @tamtam180 • Main works – SquareEnix (5.5Y) • PlayOnline, FF-XIV, etc. – SmartNews (4Y〜) • Cross-functional Expert Team – Software Engineer – 広告, 公共 4

    jjugccc2018 app review postmortem
    kimutansk
    kimutansk 2018/05/28
    レビュー観点一覧いいですね。あとはAWSのHTTP通信化ができるのは知らなかった。その周りの負荷が大きくなった場合は構成次第ですが試してみますか。
  • Instant Netty Startup using GraalVM Native Image Generation

    In this article we demonstrate how you can achieve instant startup for Netty, a non-blocking I/O Java networking framework. We do this by compiling the Netty application into a native executable with GraalVM. First we discuss why we think this is important, then we detail what steps are necessary to enable ahead-of-time compilation of Java bytecode, and finally we show how to do it on a sample Net

    Instant Netty Startup using GraalVM Native Image Generation
    kimutansk
    kimutansk 2018/05/23
    GraalVMのAOTコンパイルで起動速度とフットプリント大きく改善するものの、クラスロードメモリダイレクトアクセスやらで大制約が出て、どう対処するかの話。何か一回りしてきた感はあります
  • Streaming SQL Foundations: Why I ❤ Streams+Tables

    Video and slides synchronized, mp3 and slide download available at URL https://bit.ly/2rtxaMm. Tyler Akidau explores the relationship between the Beam Model and stream & table theory. He explains what is required to provide robust stream processing support in SQL and discusses concrete efforts that have been made in this area by the Apache Beam, Calcite, and Flink communities, compare to other off

    Streaming SQL Foundations: Why I ❤ Streams+Tables
    kimutansk
    kimutansk 2018/05/14
    Strataのと大体同じですが、データ処理についてStreamとTableを使って抽象化してとらえるという観点を語っているのはやはりいいなぁ。
  • なぜデータ基盤を作ったのか?「ゼクシィ縁結び・恋結び」で必要になった理由

    システム、プロセス、カルチャーをいかにエンジニアリングするか 連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』では「データ基盤」の構築事例を紹介します。具体的には、オンライン婚活サービス「ゼクシィ縁結び」ならびにその姉妹サービス「ゼクシィ恋結び」の開発現場において、筆者が実際に行ったことを題材としています。 データ基盤を実際に構築するのは容易ではありません。構築したデータ基盤を実際に利用し続けてもらうのはさらに難しいことです。 多くの関係者がデータを加工すると、似ている意味を持っていても微妙に異なるデータが生成されてしまい、どのデータが正しいのか誰も分からなくなってしまいます。きちんと全員に使われるためにはデータの持つ意味や加工ロジックを誰かが整理しなければいけません。 また、モダンなツールを使って派手なダッシュボードを構築しても、それだけでは1週間後には誰も見なくなって

    なぜデータ基盤を作ったのか?「ゼクシィ縁結び・恋結び」で必要になった理由
    kimutansk
    kimutansk 2018/05/13
    まずは集めるで進めると断片化、過度の共通化は正確性落として文化が定着せず、緊急度高ばかり対応すると運用コストが爆発、やってみて痛い目見ることが多い分、連載は楽しみですね。
  • データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate / 20180425

    統計やらNight!!データマイニングMeet up #2 @ウィルゲート の発表資料です。 refs. http://yuzutas0.hatenablog.com/entry/2018/05/17/083000

    データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate / 20180425
    kimutansk
    kimutansk 2018/05/13
    この手のデータ集計・分析のプロセスやフロー、別に分析に生かすだけでなく、組織内のデータの流れのプロセスという形で統一化できそうな気がするんですよね。
  • Kapacitor - Real Time Data Processing Engine

    kimutansk
    kimutansk 2018/05/10
    Kapacitor+Teregraf+Influxdbについて、今まで資料見たことありませんでしたが、こういうDSLで定義できましたか。
  • Vespa 機能紹介 #yjmu

    2. チュートリアル資料 https://yahoojapan.github.io/vespa-tutorial/ • 氏名 • 矢野 友貴 (やの ゆうき) • 所属 • ヤフー株式会社 D&S統括部 • サイエンス的ななにか • 業務 • むかーしVespaのサービス運用してた • 検索モデリングとかチョットデキル • 最近はSolrに浮気中 自己紹介 Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 1 3. チュートリアル資料 https://yahoojapan.github.io/vespa-tutorial/ • Vespaの日語向けのチュートリアル資料を以下に公開してます • 詳しい使い方はそちらを参照してください • この発表ではVespaの特徴的な機能をSolr/E

    Vespa 機能紹介 #yjmu
    kimutansk
    kimutansk 2018/05/05
    流石にすぐにどうこうということはないでしょうけど、後から公開された方が周辺の機能はさておき、ベースのアーキテクチャ部が優秀なことは多いので、気長に見てみますかね
  • Introducing the Confluent Operator: Apache Kafka® on Kubernetes

    Introducing the Confluent Operator: Apache Kafka on Kubernetes Made Simple At Confluent, our mission is to put a Streaming Platform at the heart of every digital company in the world. This means, making it easy to deploy and use Apache Kafka and Confluent Platform—the de-facto Streaming Platform—across a variety of infrastructure environments. In the last few years, the rise of Kubernetes as the c

    Introducing the Confluent Operator: Apache Kafka® on Kubernetes
    kimutansk
    kimutansk 2018/05/05
    EBSでKafkaクラスタ構築していた頃からそうでしたが、ネットボリュームという形で実質ストレージが分離され、BooKieへのデータ保存とある意味似た構成ですが、これはKafkaの利点を増強するのか、殺すのか。
  • Kafka vs Pulsar @KafkaMeetup_20180316

    2. Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2 自己紹介 栗原 望 経歴: ▪ 2012/04 ヤフー株式会社に新卒入社 ▪ 2012/10 ユーザーの属性情報に関連する社内向けプラットフォームの開発 ▪ 2015/07 ヤフオクのBEシステム再構築 ▪ 2016/10 「Pulsar」を使った社内向けメッセージングプラットフォームの開発 ▪ 2017/06~ 「Pulsar」のコミッター 趣味: ▪ ぷよぷよテトリス ▪ ボードゲームいろいろ 3. Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3 Apache Pulsar Yahoo! Inc.(現:Oath)で開発された

    Kafka vs Pulsar @KafkaMeetup_20180316
    kimutansk
    kimutansk 2018/05/05
    Kafka、やはりBrokerと実際のストレージが密結合なのが個別にスケールしにくく、厄介になってきた気が。ただ、その分関連ミドルは少なくおさえているわけで、それは両面あるんでしょうね。
  • Multitenancy: Kafka clusters for everyone at LINE

    Yuto Kawamura from LINE Corporation presented on their use of Apache Kafka clusters to provide multitenancy for different internal teams. They face challenges in ensuring isolation between client workloads and preventing abusive clients. Their solutions include request quotas to limit client resource usage, slow logs to identify slow requests, and changes to the broker code to pre-warm caches and

    Multitenancy: Kafka clusters for everyone at LINE
    kimutansk
    kimutansk 2018/05/05
    Cache上にない場合のブロックをHandler側に移し、LatestでないSegmentのみ実行することで他の即対応可能なリクエストに影響を出さないようにすることでマルチテナンシと同等、という状態に持って行ったわけですか。
  • How to Avoid Drowning in GDPR Data Subject Requests in a Data Lake

    kimutansk
    kimutansk 2018/05/02
    カラムナーストレージ等で保存しているData Lakeからデータを物理削除するのはやたらと大変なんですよね・・・一旦は削除フラグで、定期的にバッチで消し込むしかないというのが。げふ。
  • データの民主化とサービスレベルについて話しました@分析基盤Meetup #shinjukugl - 下町柚子黄昏記 by @yuzutas0

    セプテーニ・オリジナル様が主催する新宿Geek Lounge#4 分析基盤MeetupでLTをしました。 スライド 『データ基盤を支える民主化とサービスレベル』 「いかにビジネス価値を最大化し続けるか」という来の目的から、データ基盤1を見直すキッカケになればと思います。 PyCon JP 2017でベストトークアワード優秀賞を受賞した発表(構築編)の続き(運用編)をチラ見せです。 データ基盤は使われてこそ意味がある 世の流れは「やってみた」から「価値創出・運用」志向に推移しています(例:DataOps、機械学習工学、MLOps) 「俺の考えた最強のダッシュボード」では1週間で誰も見なくなります データの民主化 事務スタッフ(非エンジニア)がBigQueryを叩いています!すごい浸透! チームごとの民主化状況をモニタリングして必要なアクションを実施しています 民主化には3つの壁があることが

    データの民主化とサービスレベルについて話しました@分析基盤Meetup #shinjukugl - 下町柚子黄昏記 by @yuzutas0
    kimutansk
    kimutansk 2018/04/24
    「新システムの構築に比べてエンジニアにとって華がない」というよりは人間系メインになって、違う点で楽しめる方でないとモチベーションがわきにくいというのが要因な気はします。
  • Outshift | Kafka on Kubernetes - using etcd

    Get emerging insights on innovative technology straight to your inbox. At Banzai Cloud we are building a cloud agnostic, open source next generation CloudFoundry/Heroku-like PaaS, Pipeline, while running several big data workloads natively on Kubernetes. Apache Kafka is one of the cloud native workloads we support out-of-the-box, alongside Apache Spark and Apache Zeppelin. If you’re interested in

    Outshift | Kafka on Kubernetes - using etcd
    kimutansk
    kimutansk 2018/04/23
    K8s上でKafkaを用いるためにはKafkaをZKでなくetcd上で動作させたいというのはわかりますが、Kafkaの機能的に依存してるので、どこまでできますかね。現状チケットは進んではいないと。
  • 大げさな分析資料はいらない。メルカリの「意思決定」を支えるデータアナリストの役割 | SELECK [セレック]

    〜そのデータで、意思決定は変わりますか? 戦略の策定、新機能の検証、さらに広報まで。組織を横断して最適なデータ活用を実現する、メルカリのBIチームとは〜 データを活用できる組織とできない組織、その違いはどこにあるのだろうか。 国内唯一の「ユニコーン企業」とも称される、株式会社メルカリ。同社の東京オフィスでは、2018年4月時点で7名のデータアナリストから成るBI(Business Intelligence)チームが、経営目標の達成をデータ分析で支える役割を担っている。 チームのマネージャーを務める樫田 光さんは、「『分析こんなに頑張りました』という大げさな資料は、意思決定をする側には必要ない」と語る。 その言葉通り、同社では分析の結果をあくまでもスピード重視で共有。また、できるだけ多くの人がデータを活用できるようにするため、組織を横断した仕組みづくりも強化している。 例えばその活動のひとつ

    大げさな分析資料はいらない。メルカリの「意思決定」を支えるデータアナリストの役割 | SELECK [セレック]
    kimutansk
    kimutansk 2018/04/21
    データが大事と思っている人が会社の過半数いるかは・・大事ですね。分析自体に価値はなく、意思決定しなければ意味がないのも。後付けでこういう文化を入れ込むにはどうすればいいんですかねぇ
  • https://blogs.oracle.com/developers/post/announcing-graalvm-run-programs-faster-anywhere

    kimutansk
    kimutansk 2018/04/18
    様々な言語の共通実行環境で、複数言語間のパフォーマンスチューニング法細分化やデータ連携の容易性に寄与すると。Arrowのデータ構造共通化はありましたが、今度はこのレイヤですか。
  • 機械学習の精度と売上の関係

    4. ビジネス面の制約条件を考える • 「人工知能で何とかしてください」 • この案件はどのタイプの利益モデルか? • 人間のリプレイスが目的なので、人間より精度が高ければよい? • 今の人間の精度は95%位なので、それよりも精度が高くなければ使えない • 今の人間の精度は60%位なので、それよりも精度が高くなければ使えない • 60%であれば、簡単なルールベースや画像処理で到達できる可能性が高い • 機械学習を使わなくても改善が出来る • 要求される精度次第で、使う技術が異なる • 自らの立ち位置によって、精度売上曲線の意味が変わってくる • 内製と下請け 5. YahooGoogleYahooは自社の検索ビジネスをロジスティック型だと思い込んでいた • これ以上投資しても売上が増えないと思っていた • http://blog.livedoor.jp/lionfan/archiv

    機械学習の精度と売上の関係
    kimutansk
    kimutansk 2018/04/08
    30%も感覚値とはいえ、改善するのですか・・・ボリューム見合いでコストに見合うかを機械学習や分析で関係性を結び付けてはいましたが、こういう形で可視化されるのはありがたい所。