タグ

statisticsに関するsanryuuのブックマーク (6)

  • 専門外の人でも『遺伝統計学の基礎』を読むべき理由|Colorless Green Ideas

    遺伝研究者だけでなく、統計を使う必要がある人ならば読むに値する。やさしくはないが、様々な統計手法が分かりやすく書かれている。また、概念でなく、目的や意義をベースに説明しているという特徴がある。 はじめに 今日は、以下の遺伝統計学に関するを紹介したい。タイトルに「遺伝統計学」と書かれているが、遺伝と関係のない分野の人にとっても、統計を学ぶ際に有用なであると思う。 山田亮 (2010). 『遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析』 東京:オーム社. このは、タイトルにあるように、遺伝に関わる現象を数理的・統計的に扱う手法について書かれている。このため、出てくる事例は遺伝に関するものが多いが、こので扱われている数理的・統計的手法は他の分野に通用する。 また、説明も非常に分かりやすく、かなり読みやすい教科書である。遺伝の研究者であるかどうかに関わらず、統計を使う必要がある分

  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
  • SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ

    SVMツールで有名なLIBSVMの作者らがまとめた "A Practical Guide to Support Vector Classification" という良資料[1]の日語解説資料をまとめてみたので公開. SVM実践ガイド (A Practical Guide to Support Vector Classification) View more presentations from sleepy_yoshi 元資料はこちら 資料作成のきっかけは,まわりの人に「SVMとかいう手法使ったんだけど,機械学習よくわからなくてさ」という感じで相談を受けて「カーネルは何使ってるの?」「素性のスケーリングはした?」「Cパラメータは調整した?」というようなことを聞くのだけれど,「???」というやりとりにうんざりしたから. その都度,Cパラメータというものがありまして〜,カーネルというものが

    SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
  • 1