Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

statisticsに関するkazuya030のブックマーク (20)

  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • パッケージユーザーのための機械学習(1):決定木 - 渋谷駅前で働くデータサイエンティストのブログ

    (※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。 あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした(笑)。 ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います

    パッケージユーザーのための機械学習(1):決定木 - 渋谷駅前で働くデータサイエンティストのブログ
  • 2 個の時系列データの相関を考えるときは... - 裏 RjpWiki

    Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学 http://abrahamcow.hatenablog.com/entry/2014/09/11/024924 「時系列データの相関係数はあてにならない……のか? 教えて下さい」なんだけど... 私のコメントが気に触ることが多いようなのですが(特に悪意はないつもりなんですけど,すみませんね) 私は,経済学とか時系列についてはよく知らないのですが,「これは「見せかけの相関(擬似相関;spurious correlation)」の例だ」ということならば,偏相関係数を考えればよいのではないでしょうかね??社会学などでは当たり前のように使われていると思うのですが。 > set.seed(1) > x = cumsum(rnorm(100)) > set.seed(2) > y = cumsu

    2 個の時系列データの相関を考えるときは... - 裏 RjpWiki
    kazuya030
    kazuya030 2014/09/12
    その2あり。とても参考になる
  • 「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京

    「はじめてでもわかるRandomForest (ランダムフォレスト) 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京 濱田晃一 (hamadakoichi) Read less

    「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
  • 「統計学関連なんでもあり」の過去ログ--- 042

  • ロジスティック回帰

    かなり前(最終更新日2012-08-12)にざっと書いて放置していたページを少しずつ更新しています。ロジスティック回帰と変数選択もご覧ください。 合格の予測(1次元) 100点満点の模擬テストを20人が受験しました。点数は次の通りです: x = c(4,5,17,17,19,19,29,41,45,47,49,54,56,58,70,76,88,88,93,97) この20人がその後実際の試験を受験して,合否が判明しました。合 = 1,否 = 0 で表すと,次のようになりました: y = c(0,0,0,0,0,0,1,1,1,0,0,1,1,0,1,1,1,1,1,1) プロットしてみましょう: plot(x, y, xlim=c(0,100), ylim=c(-0.2,1.2), yaxt="n") axis(2, at=c(0,1), labels=c(0,1), las=1) x

  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • google analyticsのデータを使って、Rの決定木(mvpart)プログラムを動かした

  • Rと樹木モデル(2) - フリーソフトによるデータ解析・マイニング 第19回

    2.分類木 関数rpartでは、分岐の基準としてはGini係数 Gini Index= あるは情報量エントロピー Entrory= が用いられている。式の中のはノード内のクラスのデータである。 デフォルトではGini係数が設定されている。分岐基準エントロピーの指定は、引数split=”information”を用いる。 (1) 樹木の作成 関数rpartを用いた樹木の作成について例を用いて説明する。ここでもirisのデータを用いることにする。 >library(mvpart)    #あるいはlibrary(rpart)  > iris.rp<-rpart(Species~.,data=iris) 上記のコマンドの実行で、デフォルトに設定された条件の下でrpartの分類木が作成される。作成された樹木の結果は、次のように関数printで返すことができる。関数のprintに用いたdigitは返

  • 『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実はGoogleブックスで立ち読み可能です 拙著公式サポートページと相互リンクしています。サンプルデータと正誤表はこちらをご参照ください ということで、以下の通り拙著『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)が日発売と相成りました(都内の大型書店では先週半ばから先行販売している模様です)。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行(ソフトカバー)この商品を含むブログ

    『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
  • 重回帰分析

    重回帰分析 ■(単)回帰分析 単回帰分析では一つの従属変数(目的変数)を、一つの独立変数(説明変数)で予測する事を考える。 具体的にはy = a + bx という回帰直線(モデル)でデータを代表させる。このためにデータからこの回帰直線の切片(a)と傾き(b)を最小2乗法によって求める。 モデルの当てはまりのよさは決定係数(R2:相関係数の2乗)で表される。また、分散分析で検定ができる。 切片と傾きは、t検定によって検定(ゼロでないかどうかの検定)できる。 ■重回帰分析 重回帰分析では一つの目的変数を、複数の説明変数で予測する事を考える。このような手続きをとる事によって、どの説明変数が、どの程度目的変数に影響を与えているかを知る事ができる。 たとえば3つの独立変数がある場合、重回帰式は y = a + b1x1 + b2x2 + b3x3 となる。それぞれの独立変数にかかっている係数を「偏回

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 03 「重回帰分析」の入門

    2013/07/27 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会  第11回 重回帰分析 にて発表した内容です。Read less

    03 「重回帰分析」の入門
  • 心理統計の注意点:重回帰分析についての注意点

    重回帰分析について 1.単回帰・重回帰分析における基的な注意点 単回帰分析とは,ある従属変数を1つの独立変数で予測するための分析で,独立変数が2つ以上の場合は重回帰分析となります.以下両者を回帰分析と呼びます.具体的にどのような数式で求められるかなどに関しては,ある程度分かっているものとして,この節ではその使用上の実際的な注意点などに触れていきたいと思います. 回帰分析で最も押さえておかなければならないポイントは,変数間の「相関関係」(正確には分散と共分散)によって回帰係数が決定されているという事実です.つまり質は「相関係数(の関数)」なのです.独立変数,従属変数を標準化した上で算出される回帰係数を標準回帰係数といいますが,単回帰分析の場合,これはまさに独立変数と従属変数の相関係数そのものです.重回帰分析によって算出される(標準)偏回帰係数も,独立変数と従属変数,そして独立変数間の相

  • [R] Rで重回帰分析で交互作用を検討する方法(pequodパッケージ) | Sunny side up!

    普段は自作の統計プログラムHADを使って分析していますが,人にいろいろ教えるときにはRも使っている清水です。 さて,今回はRで重回帰分析で交互作用を検討する方法について解説します。 昔,Rで重回帰分析で交互作用を検討するためのコードをアップしていたのですが,最近はもっと便利にできるパッケージがあるようです。というか僕が知らなかっただけか・・・ これについては,DARMという広大の院生・ポスドクが中心となってやっている勉強会のページで知りました(ここ)。まぁネタぱくってる,っていう話なんですけど(笑)。ぜひDARMのページも見てやってください。 ここでは,次のようなサンプルデータを使います。20しか見えませんが,200人のデータです。サンプルデータはこちらからダウンロードできます。 これを”dat”に読み込みます。 dat <- read.csv("sampledata.csv") まずは2

  • ステップワイズ?それとも強制投入法?-SPSSで多変量ロジスティック回帰分析/統計解析- - 論文作成にあたり統計処理に困っています。先... - Yahoo!知恵袋

    どのようなデータかまったく分からないので、一般的なことしか言えませんが、以下のようなことが一般的には言えます。 1. 45個も説明変数を考慮するのであれば、まずは多重共性性について十分注意する必要があります。 http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg6.html 多数の説明変数を扱う場合、この問題を考慮しないと致命的な過ちを犯してしまう可能性があります。この問題は、一般的な重回帰でも、ロジスティック回帰でも同じです。VIFなどを用いて、多重共線性の問題を排除する必要があると思います。 2. 階層性に注意する必要があります。 例えば、サンプリングデータがあるグループに分かれている場合、特にロジスティック回帰などでは過分散が生じる可能性が非常に高くなります。グループが少ない場合は、ダミー変数として説明変数に投入すること

    ステップワイズ?それとも強制投入法?-SPSSで多変量ロジスティック回帰分析/統計解析- - 論文作成にあたり統計処理に困っています。先... - Yahoo!知恵袋
  • 文系のための「多次元データの要約」(2)

    分散共分散行列と相関係数行列を用いることで、様々な定量的手法が可能となる。 実際の手法については「中級レベル」で解説するとして、要するに、 これら行列の意味を理解することは極めて重要である。 そもそも、この二つの行列は、どのようなものであったか? たしか、分散共分散行列は、各変数の分散が対角成分に並び、 それ以外の成分には「共分散」が入っているような「対称行列」であった。 一方、相関係数行列は、対角成分に「1」が並び、 それ以外の部分には「相関係数」が入っているような行列であった。 相関係数行列は、変数間の関係を一目で確認できるので、色々と重宝するのだった。 ふむふむ。そのような話を確かにした。何か「問題」でもあるのか? 実は、2変数の相関係数の話では気づかなかったのであるが、 多変数の相関係数行列にしてみると、ある種の疑惑が生まれる。 当に、二つの変数の関係「のみ」を表しているのか?

  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 多変量解析

  • TANAKA Katsuto

  • 1