Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

統計に関するdecoy2004のブックマーク (21)

  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
  • 競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ

    記事のタイトル通り、競馬で回収率100%を超える方法を見つけたので、その報告をする。 ちなみに、この記事では核心部分はぼかして書いてあるため、読み進めたとしても「競馬で回収率100%を超える方法」が具体的に何なのかを知ることはできない。(私は当に有効な手法を何もメリットが無いのに公開するほどお人好しではないので) 当に有効な手法を見つけたいのであれば、あなた自身がデータと向き合う以外の道は無い。 ただし、大まかな仕組み(あと多少のヒントも)だけは書いておくので、もしあなたが独力でデータ解析を行おうという気概のある人物なのであれば、この記事はあなたの助けとなるだろう。 ちなみに、これは前回の記事の続きなので、読んでない方はこちらからどうぞ。 stockedge.hatenablog.com オッズの歪みを探す さて、前回からの続きである。 前回の記事のブコメで「回収率を上げたいならオッズ

    競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • https://jp.techcrunch.com/2015/05/15/jp20150515xica/

    https://jp.techcrunch.com/2015/05/15/jp20150515xica/
  • 多重回帰分析 - Qiita

    前編を書いたので今回は後編かと思いきや、まったく別の話題で多重回帰分析の話です。 回帰分析は計量経済学などの応用分野の基礎にあたる重要な分析方法で、数値計算と回帰式の当てはめ、統計学的解釈を含みます。以前の重回帰分析では当に軽く表面をなぞるだけでしたので、今回はもう少し深く掘り下げてみたいと思います。 多重回帰分析の定義 さまざまな経済現象においては必ずしも 1 つの変数が 1 つの要因で決定されるわけではありません。たとえばある家計の費は、その家計の所得および家族の構成人数で決まるかもしれませんが、費が所得だけで決まると考えたり構成人員数だけで決まると考えたりするといずれも必要な説明要因を省いていることになります。 一般的な K 変数からなる多重回帰モデルは次のように与えられます。 具体的にデータを追いながら説明していきたいと思います。 回帰分析の対象となるサンプルデータ 上に挙げ

    多重回帰分析 - Qiita
  • Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

    今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。 今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みのが大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばRだけでリスト作れるなぁと思ったのでした。 というわけで、主に僕が持っているor読んだことがあるを中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いRは沢山ありますよーという旨予めお断りしておきます。 そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRのってあるのかなぁ。。。初学者はまずはExcel

    Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計学の代表的な手法を実践する (1) - Qiita

    西内啓氏著書の「統計学が最強の学問である」と「統計学が最強の学問である実践編」はシリーズ累計 37 万部を突破する異例のベストセラーとなりました。読まれた方も多いのではないでしょうか。 この前後 2 冊では、統計学の教科書に登場する様々な手法を「一般化線形モデル」という考え方に基づき一枚の表にまとめています。 ここではその表を引用致します。 統計学が最強の学問である p170 一般化線形モデルをまとめた一枚の表 統計学が最強の学問である実践編 p344 統計学の理解が劇的に進む 1 枚の表増補版 これらの 2 冊は、ビジネスでよく使う統計手法について、一通りそれらがどういう意味を成しているか、どのようなアイデアから生まれてどう使えばいいかといったことが解説されています。 また上著実践編 p357 では書では得られない 3 つの知識として ツールと実データを使った実践 数理面での手法の深い

    統計学の代表的な手法を実践する (1) - Qiita
    decoy2004
    decoy2004 2015/02/13
    カイ二乗検定
  • 統計学の代表的な手法を実践する (6) 〜 ビジネスにおける分析の流れ - Qiita

    統計学の代表的な手法について、人気書籍「統計学が最強の学問である実践編」に掲載されている一般化線形モデルをまとめた一枚の表を最初に掲げひとつひとつ多変量解析の手法を追ってきました。今回は実際のデータを分析していくにあたり留意すべき事項をまとめます。このあたり上記書籍からの引用抜粋を含みます。 ビジネスにおける分析の手順 今まで説明したとおり 量的なアウトカムに対しては重回帰分析 質的なアウトカムに対してはロジスティック回帰 をおこなうことでどんなアウトカムと説明変数の関係性も分析できるようになります。 手法や指標の意味がわかったあとでも、実際に使いこなそうとすると難しいところがいくつかあり、その代表的なものは「どの説明変数をいくつ使えば良いか」というインプット、「出てきた結果変数からどういう意味を読み取りどう解釈してどうアクションを取るか」というアウトプットの二大側面に整理できます。 まず

    統計学の代表的な手法を実践する (6) 〜 ビジネスにおける分析の流れ - Qiita
  • NYSOL – 超高速な大規模データ解析を実現するソフトウェアツール

    超高速な大規模データ解析を 実現するソフトウェアツール NYSOL makes it easier and faster to analyze big data. NYSOLver2.4.2 SOFTWARE LIST GitHub NYSOL Manual ※NYSOLは日発のオープンソース(無料)です。 *NYSOL is open source software in Japan LICENSE 最新情報NEWS 2019.06.05 SOFTWARE NYSOLのDockerイメージ公開 2019.05.23 SOFTWARE nysol_pympiのインストールメモ 2018.09.20 INFORMATION WebbleバージョンのKIZUNAを公開しました。 Back Number NYSOLとはABOUT NYSOL 大規模データの解析に関する様々な大学やプロジェクト

  • MCMD2

    Mコマンドマニュアル 対応NYSOLバージョン: Ver. 2.4 履歴: 2016年6月30日 : 集計処理コマンドについての注意点追記、パラメータ微修正 2015年12月24日 : Ver. 2.4 対応、assert機能追加 2014年10月 6日 : Ver. 2.0 対応 2014年4月30日 : 例題のError修正など 2014年3月10日 : nysolパッケージへの統合に伴いインストール方法変更 2014年2月15日 : mxml2csv追加,微修正 2013年11月2日 : mpadding,mvnullto,mvdelnull追加,微修正 2013年9月20日 : 初期リリース June 30, 2016 Copyright ©2013-2014 by NYSOL CORPORATION

  • 当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

    どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間

    当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
    decoy2004
    decoy2004 2015/02/07
    awk と何が違うの?
  • 統計学の代表的な手法を実践する (3) 〜 続・ロジスティック回帰 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    統計学の代表的な手法を実践する (3) 〜 続・ロジスティック回帰 - Qiita
  • 4万台以上のHDDを運用して得たモデル別故障率の「生データ」が公開されダウンロード可能に

    By Daniel "LWS" Nimmervoll オンラインストレージサービスBackblazeが公開しているHDD運用データを元にした「メーカー別HDD信頼性レポート」は、特定のメーカーの信頼性の高さや特定メーカー・特定モデルの圧倒的な壊れっぷりなどが一目瞭然で、業界関係者の注目を集めるだけでなく、一般人がHDDを吟味するのに大いに役立っています。しかし、あまりにも突出した故障率の高さを示すモデルの存在が明らかになる一方で、「このデータは当に正しいのか?」という素朴な疑問が沸いてくるのが自然なところ。そんな疑問に答えるべくBackblazeは、これまで運用してきた4万台を超えるHDDのS.M.A.R.T.(スマート)値の「生データ」を一挙に公開。故障率の集計の仕方まで解説しています。 Hard Drive Test Data - Determining Failure Rates

    4万台以上のHDDを運用して得たモデル別故障率の「生データ」が公開されダウンロード可能に
    decoy2004
    decoy2004 2015/02/05
    温度とかも入ってるのかな?
  • 「アメリカのプログラマの給料が高い」は本当か? - NomoLog

    こんな記事を見つけました。 アメリカプログラマーの言語別年収wwwwwwwww で、上の記事で引用されている表がこちら 1$=100円とすると、大体1000万円から800万円のレンジですね。 で、こちらが日のプログラマの言語別年収 プログラミング言語別!求人給与額ランキング 大体400万円から300万円のレンジですね。夢も希望もありません。 訂正 プログラミング言語別!求人給与額ランキング に表記してある給与は下限金額であるというご指摘を受けました。 つまり、Pythonプログラマを雇う会社は平均して最低380万円程度払っているということです。私がソースをきちんと読んでいませんでした。大変申し訳ありませんでした。 プログラミング言語別給与のソースは他に発見できませんでしたが、”プログラマ”として一括りにしたソースはいくつかありました。 プログラマーの平均年収 プログラマーの給料・年収

    「アメリカのプログラマの給料が高い」は本当か? - NomoLog
  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。

    dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
    decoy2004
    decoy2004 2014/09/16
    awk ワンライナーで相関係数、ピアソンの積率相関係数など。
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
    decoy2004
    decoy2004 2011/08/07
    同じ手法なのに違う呼び名が付いている