タグ

統計に関するpetite_blueのブックマーク (63)

  • Suspicious data pattern in recent Venezuelan election | Statistical Modeling, Causal Inference, and Social Science

    Luis Zambrano writes: Here’s a little “fake stats in the wild” gem that I think you and your followers will find at the least somewhat amusing. Amid strong allegations of fraud in the recent Venezuelan elections, a curious “statistical” fact, that by itself seems to be a strong indicator of blatant fraud, has been thrown around lately on Twitter. On Sunday night, more than 6 hours after ballots we

  • 日本人女性の「平均顔」と印象による顔の特徴を解析

    花王株式会社(社長・長谷部佳宏)ビューティリサーチ&クリエーションセンター※1とメイクアップ研究所は、日人女性の顔を調査解析し、目や口などのパーツの配置および形状から、日人女性の「平均フェースプロポーション」を確認するとともに、印象の違いに影響を与える顔の特徴を明らかにしました。今後、この成果を、個性や美の多様性が重視される現代におけるメイクアップ提案の基盤情報として活用していきます。 今回の研究成果は、第25回日顔学会大会(2020年10月3~4日・オンライン開催)にて発表しました。 ※1 組織改編により化粧品美容部から名称変更 背景 昨今、自分の個性を生かしたメイクをしたいという声が多く聞かれます。花王グループのカネボウ化粧品は、1982年に、日人女性の顔を調査し、目や鼻、口などのパーツの大きさや配置の美しいバランスを定め、パーツの配置によって印象が変化することを報告しています

    日本人女性の「平均顔」と印象による顔の特徴を解析
  • 「データビジュアライゼーションの基礎」のまとめ グラフ編

    こんにちは、Wantedlyでデータサイエンティストをしている樋口です! 先日会社で買ってもらったデータビジュアライゼーションの基礎を読みました。データ可視化について網羅的にわかりやすく書かれており参考になったため、記事にまとめてみました。書籍の英語版は無料で公開されているため、よければこちらも参考にしてみてください。 データビジュアライゼーションの知識を学ぶことで、科学的に誤った表現をせずに、芸術的に美しい表現ができ、明確で明瞭かつ魅力的にデータから得られる示唆を伝えることができる様になります。📊 記事では、特定のライブラリや描画手段によらないデータ可視化の基礎について紹介します。 分量が多くなってしまったので、記事ではデータビジュアライゼーションの”グラフ"にのみ着目しています。グラフ以外の構成要素(色、タイトル、テキスト、etc.)については別途記事にしたいと思います。 記事

    「データビジュアライゼーションの基礎」のまとめ グラフ編
  • We think this cool study we found is flawed. Help us reproduce it.

    We found this cool study about randomness that we wanted to show you. But…there is something we saw in the data that made us question the results. Can you help us reproduce the study and figure things out?

    We think this cool study we found is flawed. Help us reproduce it.
  • コグニカル

    コグニカルは、足りない知識を掘り下げて理解する学習サイトです。

  • P² quantile estimator: estimating the median without storing values | Andrey Akinshin

  • 心理統計学の授業で教材に使えるオープンデータ集

    はじめに 統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる

    心理統計学の授業で教材に使えるオープンデータ集
  • データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事例が色々載っていて面白いです。 ということで、今回はこの記事を全訳にならない範囲で抄訳して、その内容を吟味してみようと思います(直訳しても意味が取りづらい箇所が多かったためかなりの部分を抄訳ながら意訳しています:こういう訳の方が良いなどのコメントあれば是非お寄せください)。言わずもがなですが、こういう海外記事紹介をやる時はネタ切れということです、悪しからず。。。 元記事の内容 1. Not fully understand objective function(目的関数が何か

    データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ
  • 事前分布について

    渡辺ホームに戻る 私たちの研究室で行ってきた研究成果の中に ベイズ法や変分ベイズ法の数学的構造の解明があります. その発表の際に事前分布あるいは事前確率について尋ねられることが多いので, まとめておくことにしました. ☆☆☆ 統計モデルおよび事前分布については,100年近く以前の誤った考えがあまりにも広まってしまっているので, 多くの人にとって,このページを読むためには先入観や「解説の説明」をいったん忘れて, 自分自身で考えていただく必要があるかもしれません. 以下で説明することは現代の統計学者にとってはごく普通のことです. 普通すぎるので改めて言葉で語られることがないだけです. (注1)【ベイズ法は主観的で・最尤法は客観的】という意見は100年くらい前の誤った考えです. ベイズ法でも最尤法でも「統計モデルが主観的に定められている」という点は同じです(注3,注4)。 事前分布はモデリング

  • [グラフ]増えない賃金 - Think outside the box

    就業者数は過去最高で完全失業率も1980年代後半の水準まで低下してきましたが、 totb.hatenablog.com 賃金(現金給与総額)の伸びは依然として緩慢です。*1 フルタイム換算平均賃金(PPP)をOECD主要国と比較します。 金融危機の1997年→2016年は唯一のマイナスで、 世界金融危機の2007年→2016年も南欧の劣等生と大差ありません(ギリシャは別格)。 増える就業者と増えない賃金を繋いでいるのが、好調な企業業績です。 ウォーレン・バフェットは資家(投資家)が階級闘争に勝利したと言っていましたが、 Warren Buffett: "There’s been class warfare for the last 20 years, and my class has won" http://t.co/a5haX6LF via @ThePlumLineGS — Washi

    [グラフ]増えない賃金 - Think outside the box
  • [グラフ]増える就業者 - Think outside the box

    就業者が急増して季節調整値は1997年6月のピークを更新しています。 以下、原数値の12か月移動平均を用います。 就業者を 正規の職員・従業員 非正規の職員・従業員 役員 自営業主・家族従業者 別に示します。 12か月移動平均の2014年1月からの増減を見ると、直近は女の非正規が急増しています。 産業を 医療,福祉 医療,福祉を除くサービス業計 その他の産業計 に三分して12か月移動平均の2014年1月からの変化を見ると、 医療,福祉の増加が2016年末から急減速 サービス業計は2015年後半から増加して2017年末から加速 その他産業計は2016年末から増加して今年に入って加速 しています。 就業率の変化にも年齢階級の偏りがあります。 外国人労働者は安倍政権下の5年間でほぼ倍増。 続く(⇩) totb.hatenablog.com

    [グラフ]増える就業者 - Think outside the box
  • 時系列データで相関を出してはいけないのなら空間データでも相関を出してはいけないのではないか - 廿TT

    以前に エクセルで無相関検定:失業率と野菜摂取量の相関 - 廿TT というエントリを書いた。 めちゃくちゃ批判されるかと思ったけどそうでもなかった。 じ、時系列データに対して単純な相関を算出している。。。 https://t.co/3yUB5ZEhRo— 統計たん@Rアイドル (@stattan) 2016年7月15日 「時系列データに対して単純な相関を見るのは意味がない」というのはどうやら統計に詳しい人の間では常識なようです。 なぜそうなるのかは正直よくわかっていないのですが、どうも自己相関のある系列どうしで相関係数を見ると、その系列どうしがまったく別々に動いていたとしても(両者がランダム・ウォークしていたとしても)、有意な相関や絶対値の大きい相関係数が得られやすいようです。 だとすると、これは時系列データに限った話ではないはず。 たとえば都道府県のデータだって隣り合う県どうしは影響しあ

    時系列データで相関を出してはいけないのなら空間データでも相関を出してはいけないのではないか - 廿TT
  • http://chasen.org/~daiti-m/paper/vb-to-vae.pdf

  • (調査メモ)逐次モンテカルロ法(Sequential Monte-Carlo Methods) - Qiita

  • 逐次モンテカルロ法(パーティクル・フィルター)について

    僕は別に逐次モンテカルロ法(SMC)の熱心の信者というわけではないけれど,少し知識があるので覚書を書いてみる.簡単化のためにデータyが与えられた時の状態変数xのフィルタリング問題を例とするが,適用範囲はこの限りではない. 1 カルマンフィルターと比較して,SMCは非線形かつ非ガウスの一般的な隠れマルコフモデルを扱える. 2 MCMCとSMCとの違いについて.ターゲットが事後分布のときに,SMCは事後分布と共に周辺尤度も同時に計算できる.またこれらは各点で得られる.推定も名前の通り逐次的に行うので,バッチ推定ではなくいわゆるオンライン推定を行っている.計算コストもSMCの方が一般的に少ない.最終時点での分布のみに興味がある場合は各点での結果を保存する必要はない.バーンインの確認とか,ステップサイズはどうするのだとか,採択率をどの程度が最適だとかとか,そういったものも必要ない.あと分散のバウン

  • 2次元以上のスポット検出を行う統計モデル - StatModeling Memorandum

    1次元の場合の変化点検出は以下の記事で扱いました。 状態空間モデルでシステムノイズに非ガウス分布(1次元の変化点検出) - StatModeling Memorandum 二つの時系列データの間に「差」があるか判断するには - StatModeling Memorandum 変化点検出のポイントは状態空間モデルのシステムモデルに「ほとんどの場合は0の近くの値を生成するが,まれにとても大きな値を生成する」という性質を持つ分布を使うことでした。そこで、上記の例ではコーシー分布を使いました。しかし、コーシー分布はかなり厄介な分布なので逆関数法を利用したコーディングをしないとうまくサンプリングできません。そのため2次元以上の場合の同様のモデル(マルコフ場モデル)に拡張することができません。2次元の場合のマルコフ場モデルについては以下の記事で簡単に扱いました(少しコードが古いです)。詳しくは書籍「S

    2次元以上のスポット検出を行う統計モデル - StatModeling Memorandum
  • 機械学習で抑えておくべき損失関数(回帰編) - HELLO CYBERNETICS

    はじめに ニューラルネットワーク 損失関数を考えるモチベーション 回帰の損失関数 色々な損失関数 二乗損失 分位損失 Huber損失 感度損失(ε-許容損失) 損失関数の図示 二乗損失 分位損失 Huber損失 ε-感度損失(ε-許容損失) 比較 損失関数の使い分け1 損失関数の使い分け2 損失関数の使い分け3 最後に 分類に関する損失関数 はじめに 機械学習における教師あり学習では、入力に対してパラメータを用いて関数を構築し、正解データに対して損失を定義し、これを最小化する手続きを取ります。 損失を、色々なとの組に対して計算し、その総和が最小化されるようにを決めることを学習と呼びます。これにより未知のデータを入力した時に、それに対する正解をが出力してくれることを期待するのです。 学習がの最小化という目標に従っている以上、このをどのような形にするのかが重要になるのは言うまでもありません。

    機械学習で抑えておくべき損失関数(回帰編) - HELLO CYBERNETICS
  • 【統計学】【R】分位点回帰を使ってみる。 - Qiita

    分位点回帰、という手法のご紹介です。 通常の回帰直線は、$x$が与えられた時の$y$の条件付き期待値(平均)と解釈できますが、分位点回帰では、25%分位点、とか95%分位点、等で使われる "分位点" をベースに回帰直線を引いてみようというものです。 何はともあれ、まずはこれを使ってグラフを書いて可視化を試みます。 #1.誤差の分散が説明変数に依存した正規分布の例# 説明変数$x$が小さいところでは誤差の分散が小さく、大きいところでは誤差の分散も大きくなるようなケースです。そんなデータを生成して試しています。 分位点回帰では、分位点ごとに異なる $\beta$が設定されるので、それぞれ傾きが異なります。 分位点回帰の実行結果 下から順に5%, 10%, 25%, 75%, 90%, 95%の分位点回帰直線と、通常の回帰直線です。 まずはデータを生成して散布図を描きます。 # 未インストールな

    【統計学】【R】分位点回帰を使ってみる。 - Qiita
  • 動的時間伸縮法 / DTW (Dynamic Time Warping) を可視化する - StatsFragments

    いま手元に 20万件くらいの時系列があって、それらを適当にクラスタリングしたい。どうしたもんかなあ、と調べていたら {TSclust} というまさになパッケージがあることを知った。 このパッケージでは時系列の類似度を測るためのさまざまな手法 (=クラスタリングのための距離) を定義している。うちいくつかの手法を確認し、動的時間伸縮法 / DTW (Dynamic Time Warping) を試してみることにした。 DTWの概要 時系列相関 (CCF) の場合は 片方を 並行移動させているだけなので 2つの系列の周期が異なる場合は 相関はでにくい。 DTW では 2つの時系列の各点の距離を総当りで比較した上で、系列同士の距離が最短となるパスを見つける。これが DTW 距離 になる。そのため、2つの系列の周期性が違っても / 長さが違っても DTW 距離を定義することができる。 アルゴリズム

    動的時間伸縮法 / DTW (Dynamic Time Warping) を可視化する - StatsFragments
  • ofmind.net

    ofmind.net 2020 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy