タグ

ブックマーク / takuti.me (6)

  • データよりもストーリーを、相関よりも因果を。

    この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 Netflixの "Inside Bill's Brain" で Think Week に入るビル・ゲイツの映像を見た。これに影響されて、今年のゴールデンウィークは家にこもり、スマホとPCの電源を完全に切ってを読み込んでいた。 最近の個人的な興味は、物事の裏側にある「ストーリー」や「コンテクスト」の持つ力にある。 ストーリーを伝えられないプロダクトの虚しさ データ時代の「リアル」の価値 “いいもの”ってなんだろう 表面的なデータ分析では測ることのできない、もっと深いところにある“なにか”。顧客に寄り添い、個の存在を重んじ、パーソナライズされた体験を提供する・・・その意義はなんとなく分かるのだけど、同時に、こういう話はどうも抽象的で掴みどころがない。誰かその質をもっと論理的に説明してくれないだろうか

    データよりもストーリーを、相関よりも因果を。
    clavier
    clavier 2020/05/19
  • 異常検知のための未来予測:オウム返し的手法からHolt-Winters Methodまで

    Holt-Winters Method(別名: Triple Exponential Smoothing)というデータの予測手法がある。これについて素晴らしい解説記事があるので読みながら実装していた。 コードは takuti/anompy にある。 この手法、Graphite が実装しているということもあり、近年ではDevOpsコミュニティを中心に一躍有名になったんだとか。 ここでは解説記事の内容に沿って、Holt-Winters Method に至るまでに知っておくべき手法たちの“気持ち”をまとめる。数式は元記事やWikipediaに譲る。 問題 『連続するN点の時系列データを観測していたとき、N+1点目の値を予測する問題』を考える。 もし次の瞬間の値が予測できれば、そこからデータの“異常”を察知することができる。 たとえばDatadogなどで監視しているシステムのメトリクスを対象とすれ

    異常検知のための未来予測:オウム返し的手法からHolt-Winters Methodまで
  • Yahoo!の異常検知フレームワーク"EGADS"

    Yahoo!がOSSとして開発している異常検知フレームワーク "EGADS" (Extensible Generic Anomaly Detection System) について書いた次の論文を読んだ: Generic and Scalable Framework for Automated Time-series Anomaly Detection (KDD 2015) リアルタイムなデータをモデリングする種のアルゴリズムの実装とはどうあるべきなのか、という話は難しい。 僕も異常検知や情報推薦のためのアルゴリズムをパッケージ化してみてはいるものの、 時系列データの入力、モデリング、予測、出力といったコンポーネントをいかに切り分けて実装するか バッチとオンラインアルゴリズムのバランスをいかに取るか どこまで自動化して、どこにヒューリスティクスを取り入れる余地を残すか といった点は当に悩ま

    Yahoo!の異常検知フレームワーク"EGADS"
  • TF-IDFで文書内の単語の重み付け

    『いくつかの文書があったとき、それぞれの文書を特徴付ける単語はどれだろう?』こんなときに使われるのがTF-IDFという値。 TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表します。たくさん出てくる単語ほど重要! $\textrm{tf}(t,d)$ 文書 $d$ 内のある単語 $t$ のTF値 $n_{t,d}$ ある単語 $t$ の文書 $d$ 内での出現回数 $\sum_{s \in d} n_{s,d}$ 文書$d$内のすべての単語の出現回数の和 IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表します。いくつもの文書で横断的に使われている単語はそんなに重要じゃない! $\textrm{idf}(t)$ ある単語 $t$ のIDF値 $N$ 全文書数 $\textrm{df}(t)$

    TF-IDFで文書内の単語の重み付け
  • Amazonの推薦システムの20年

    IEEE Internet Computingの2017年5・6月号に "Two Decades of Recommender Systems at Amazon.com" という記事が掲載された。 2003年に同誌に掲載されたレポート "Amazon.com Recommendations: Item-to-Item Collaborative Filtering" が Test of Time、つまり『時代が証明したで賞』を受賞したことをうけての特別記事らしい 1。 「この商品を買った人はこんな商品も買っています」という推薦で有名なAmazonが1998年にその土台となるアルゴリズムの特許を出願してから20年、彼らが 推薦アルゴリズムをどのような視点で改良してきたのか 今、どのような未来を想像するのか その一端を知ることができる記事だった。 アイテムベース協調フィルタリング 20年前も

    Amazonの推薦システムの20年
  • ストリームデータ解析の世界

    機械学習アドベントカレンダー2015 8日目】 ストリームデータ解析 という分野がある。ある生成元から絶えずデータが到来する環境で、いかにそれらを捌くかという話。「時間計算量はほぼ線形であって欲しいし、空間計算量も小さく抑えつつ精度を担保したいよね」ということを考える世界。個人的に最近はそのあたりの情報を追いかけていたので、整理も兼ねてその世界を俯瞰したい。 すごいリンク集 はじめに、この分野で外せないと思うリンクを3つ挙げておく。 ■ SML: Data Streams YahooGoogleの研究所を経てCMUの教授をしているAlex Smola先生の講義の一部(スライド+動画あり)。理論からシステムアーキテクチャまで包括した実際的な機械学習ならこの人。この人の機械学習サマースクールの講義は最高だった。 古典的なものから最近のものまで、代表的なアルゴリズムについて直感的な説明といい

    ストリームデータ解析の世界
  • 1