タグ

statisticsに関するtetzlのブックマーク (42)

  • データ分析失敗事例集 - 共立出版

    【データサイエンティストたちの悪夢】 ・上司が「AI使ってます」と言いたいだけのプロジェクト ・自分が期待した結果しか認めないクライアント ・プロジェクト終盤でもまだ手に入らないデータ ・分析手法にしか興味がない分析者 ・最終報告後にやっと決まる仕様 【その分析、もう失敗しているかも…… 失敗を回避し、成功に近づくためのガイド】 書は、第一線で活躍するデータサイエンティストたちが経験した、データ分析プロジェクトの「失敗」をもとに再構成された25の事例が収録されている。これらの臨場感あふれる事例から、データの活用に関わる人たちが、失敗を避けるために何をしてはならないのか、について学びとることができる。プロジェクトの失敗の予兆となる致命的な要因を察知し、失敗に至る「毒薬」を飲まないように注意するための知見が書には随所に含まれている。 データの活用に関わる分析者、そして、分析を依頼する立場と

    データ分析失敗事例集 - 共立出版
  • 22年の超過死亡、11万3千人 前年から倍増、コロナ影響か | 共同通信

    Published 2023/04/05 20:56 (JST) Updated 2023/04/06 08:23 (JST) 死者数が例年の水準をどれだけ上回ったかを示す「超過死亡」が、2022年に最大約11万3千人に上ったとの推計を国立感染症研究所などが5日、明らかにした。21年の最大約5万人から倍増し、新型コロナウイルスの流行が影響した可能性がある。厚生労働省に新型コロナ対策を助言する専門家組織の会合で示された。 厚労省の集計によると4日までの1週間に報告された国内の新型コロナ新規感染者数は前週比1.03倍。18都道府県で増加し、福井が1.35倍、北海道、秋田が1.30倍と高かった。 感染研の分析では、オミクロン株派生型「XBB・1.5」の割合は37%と推定され、ウイルスの型の中では最多。

    22年の超過死亡、11万3千人 前年から倍増、コロナ影響か | 共同通信
  • はじめに — マンガと学ぶデータビジュアライゼーション

    はじめに# データビジュアライゼーションとは,数値や文章などのデータに基づいた情報を,人間が理解しやすい形に視覚化する技術を指します. このサイトは,文化庁のメディア芸術データベース・ラボ(MADB Lab)で公開されている四大少年誌( 週刊少年サンデー, 週刊少年ジャンプ, 週刊少年チャンピオン, 週刊少年マガジン )のデータを用いて,データビジュアライゼーションの学習を手助けすることを目指しています. データビジュアライゼーション(に限らずデータ分析全般)の学習において重要なのは,分析対象のデータに興味を持てるかどうかです. 書では約47年の四大少年誌のマンガ作品データを採用しているため,モチベーションを保ちつつ学習を進めることが可能です.

  • 中小企業の支援、対象業種の判断できず 国交省の統計不正の影響で:朝日新聞デジタル

    ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 --><!--株価検索 中⑤企画-->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">

    中小企業の支援、対象業種の判断できず 国交省の統計不正の影響で:朝日新聞デジタル
    tetzl
    tetzl 2022/01/05
    ニーメラーのあれ感もある|「急いで調査する随契」でっちあげていつもの界隈に仕事行ったらウケる(ウケない
  • 短時間労働者の賃金統計 厚労省が調査法の変更申請せず 大学教授や医師らの追加で時給が急上昇 :東京新聞 TOKYO Web

    厚生労働省が賃金統計で短時間労働者の賃金を集計する際、2020年分から時給が高い大学教授や医師らを加えたのに、統計法で義務付けられた総務相への変更申請をしていなかったことが分かった。高給の職種を加えたことで平均の時給は前年比23%上昇。総務相が専門家の意見を聴くため諮問する統計委員会の審議も経ておらず、変更の手続きや意図の説明責任が問われる。 (渥美龍太) この統計は「賃金構造基統計調査」と呼ばれ、重要度が高い国の基幹統計。厚労省は調査や集計の方法を20年分から大幅に変更することを決め、先月末に結果を初公表していた。集計対象の約3割を占める短時間労働者は、主にパートなどの非正規労働者で、一部に正社員も含む。 これまでは時給3000円超の医師や塾講師らを除く平均時給を算出。今回から厚労省は、短時間労働者の多様な働き方を反映するには全体像の把握が必要だとし、全てを含む「全体集計」に変更した。

    短時間労働者の賃金統計 厚労省が調査法の変更申請せず 大学教授や医師らの追加で時給が急上昇 :東京新聞 TOKYO Web
    tetzl
    tetzl 2021/04/07
    よっしゃ今年の最低賃金全国1300円以上にしようぜ
  • 『コロナ感染マップ、誰も作らないので私が作りました』

    マスメディア報道のメソドロジーマスメディア報道の論理的誤謬(ごびゅう:logical fallacy)の分析と情報リテラシーの向上をメインのアジェンダに、できる限りココロをなくして記事を書いていきたいと思っています(笑) 緊急事態宣言が都道府県ごとに解除される中、ハッキリ言ってピントがズレているのは、専門家会議が感染者の【空間分布 spatial distribution】を定量的に把握することなく、都道府県ごとの感染者数の時間変動のみを参考にブレイン・ストーミングによって緊急事態の解除の可否を検討していることです。 緊急事態の空間的な解除を見極めるにあたって、当に重要なことは、特定地域の感染率の空間分布の挙動が時間の経過とともにどのように変化しているかという【時空間挙動 spatio-temporal behaviors】を把握することです。また、同一都道府県内においても歴然とした【不

    『コロナ感染マップ、誰も作らないので私が作りました』
    tetzl
    tetzl 2020/05/19
    丹後とか人口密度とか含む地理感覚がないとミスリードするなと思ったし、だからこそ行政みたいな個別の生活に責任のある立場からは出せないのでは|社会的感染なので旧国単位の規制は有効かもね
  • #検察庁法改正案に抗議した人は本当はどのくらいいたのか|tori

    5月8日から,突然 #検察庁法改正案に抗議します というタグがトレンド入りしました. どのくらいの量ツイートされたのかを見てみると,5月8日20時から5月11日15時までの間に,リツイートを含めて4,732,473件,リツイートを除くと,564,797ツイート,拡散に関わったユーザは588,065アカウントでした. 1時間ごとのツイート数を見るとこんな感じ. なんでこんな爆発的に広まったんでしょうか.これだけ広まると,逆にボットとかスパムの影響じゃないの?と考えてしまうのがソーシャルメディア研究者の基です. というわけで,調べてみましょう. 早速データを収集します.今回は周辺データも見ようということで,「#検察庁法改正案に抗議します」だけじゃなくて,「検察庁」「定年延長」「三権分立」でデータを収集しました. ツイートしたのはボットだったのか?まず最初に疑われるのが,ボットが大量にRTした

    #検察庁法改正案に抗議した人は本当はどのくらいいたのか|tori
    tetzl
    tetzl 2020/05/12
    労作。ただ3日間のデータで70RT以上をスパム臭いとするには閾値が低い気がする。元々政権批判してる著名人(漫画家とか)でも連続RTされてる方もいたので連鎖反応の範疇では。(フォローしてたらRT非表示考えるけど…)
  • 【数学】「検査で陽性だった人が実際に病気である確率は数%程度」とかいうやつ、何? - アジマティクス

    「精度99%の検査で陽性だった人が実際に病気である確率は数%程度」とかいう話、聞いたことがある人もいるかと思います。 「1000人に一人がかかる病気があり、あなたはこの病気かどうかを精度99%で判定できる検査を受けたところ、なんと陽性であった。あなたが実際にこの病気にかかっている確率はいくらか」というやつのことです。 「陽」という字にポジティブな響き※があるので、いい意味だったか悪い意味だったかちょっと迷ってしまうかもしれませんが、「陽性である」というのは「検査したら反応が出る」というくらいの意味です。※響きも何も、「ポジティブ」なんですけどね… ウイルス感染症のPCR検査のケースで言うならば、陽性であるとは「検体(採取した粘膜や痰などのこと)から基準を超えた量のウイルスの遺伝子が検出される」ということになるでしょうか。 で、あなたは陽性だったわけです。初めてこの話を聞いた人ならいやそりゃ

    【数学】「検査で陽性だった人が実際に病気である確率は数%程度」とかいうやつ、何? - アジマティクス
  • 政府基幹統計、4割の22統計に間違い 抽出方法など:朝日新聞デジタル

    「毎月勤労統計」をめぐる厚生労働省の不正調査問題をうけ、政府が56ある基幹統計が適正に調査されているか点検した結果、4割にあたる22統計に計31件の間違いなど何らかの問題があったことが24日、わかった。このうち統計法違反に該当する可能性がある間違いも21統計あった。 点検結果をまとめた総務省が同日発表した。24日夜に記者会見した三宅俊光・総務省政策統括官は、「(過少給付につながった)毎月勤労統計のような重大な事案はなかった」としているが、政府の統計の取り扱いのずさんさが改めて浮き彫りになった形だ。統計を所管する同省は今後、調査結果を同省の統計委員会に諮り、233ある一般統計も含めて点検し、再発防止策を探る「専門部会」も新たに作る方針。 データの数値に誤りがあったのは国土交通省の「建設工事統計」。1事業者が施工高などを「百万円単位」で書くべきところ、「万円単位」で記入したため、公表した全体の

    政府基幹統計、4割の22統計に間違い 抽出方法など:朝日新聞デジタル
    tetzl
    tetzl 2019/01/24
    年金のあれみたいに中国に投げた方が精度高かったのでは、というのも含めてやばいとしか…
  • 勤労統計問題の原因は「COBOLプログラムのバグ」 – アゴラ

    厚生労働省の毎月勤労統計調査についての特別監察委員会の報告書が出され、樋口委員長の記者会見が行われた。疑問も残るが、おおむね事実関係は明らかになった。焦点になっている東京都の大企業の抽出調査については次の通り: 2003年5月22日付の事務連絡に「事業所規模500人以上の抽出単位においては、今回から全国調査でなく、東京都の一部の産業で抽出調査を行うため注意すること」と書かれている。この事務連絡は雇用統計課長の決裁をへて他部局にも公式に伝達されており、隠蔽の事実はない。 当時の担当課長は「抽出調査としたことについて、覚えていないが当時自分が決裁したと思われる決裁文書を見たらそのように残っていたのでそうなのだと思う。ただ、抽出していたとしても労働者数に戻す復元を行っていれば問題ない」と供述しているが、この復元が行われた形跡がない。 システム改修を行った担当係によると「外部業者等に委託することな

    勤労統計問題の原因は「COBOLプログラムのバグ」 – アゴラ
    tetzl
    tetzl 2019/01/23
    報告読めばわかるけど別に「COBOLだから仕方ない」でなく「何でそんな状況放置してたんだボケ猛省しろ」な感じだからね…監査委員長は元内閣府統計委員長で現JILPT理事長=ガチ専門家でデータの主要ユーザーだから(gkbr
  • 勤労統計の資料を廃棄 厚労省04~11年分、再集計は困難 | 毎日新聞

    厚生労働省の「毎月勤労統計」の不正調査問題で、不正なデータを補正するために必要な基礎資料のうち、2004~11年分が紛失や廃棄されていたことが判明した。同省が17日の総務省統計委員会で明らかにした。統計委員会の西村清彦委員長は統計として成立しない可能性に言及。厚労省は引き続き資料を探す方針だが、政府の基幹統計に穴が開く異例の事態に発展する可能性が出てきた。【大久保昂、神足俊輔】 厚労省や総務省によると、欠損しているのは(1)07年1月分の事業所からの回答書(2)10年に事業所の業種分類方法を変更した際の基礎資料(3)10年以前の雇用保険データ――など。(2)と(3)はデータを実態に近づける補正作業に必要だという。(2)の一部は既に廃棄されたとしている。

    勤労統計の資料を廃棄 厚労省04~11年分、再集計は困難 | 毎日新聞
    tetzl
    tetzl 2019/01/18
    「不正なデータを補正するために必要な基礎資料のうち、2004~11年分が紛失や廃棄されていたことが判明した」GMPとかGLPで不備あってそれやったら業務停止とかさせるくせにー!!
  • 互助会の構造をGephiで可視化してみる - ゆとりずむ

    こんにちは、らくからちゃです。 以前ぶらっとインターネットをぶらぶらしていたら、こんな記事を見つけました。 『パナマ文書』の問題については、いいなー偉い人は沢山お金持っててさー、と遠い世界の話にしか感じられませんでしたが、解析手法については中々興味深いお話でした。 今回の流出事件では、2.6TBもの大量のデジタルデータが流出されたと言われています。しかし、このデータの中から、資金の流れの関連性を分析していくのは、人力では不可能に近い作業です。そこで今回力を発揮したのが『グラフ解析』という手法です。 グラフ解析とは何か グラフというと、折れ線であったり縦棒であったり、そういった数値を可視化するツールとしての印象をお持ちかもしれませんが、数学の用語としては様々な要素と要素の関係性を分析するツールという意味で用いられます。 つーても分かりづらいかもしれませんが、『人物相関図』のようなものと言えば

    互助会の構造をGephiで可視化してみる - ゆとりずむ
    tetzl
    tetzl 2016/04/27
    「互助会マップ2006(春)」で「ほほう10年前のデータあったのか、比較なのか」と思ったけど知らない人ばっかだなーと思ってから2016の間違いだろうということに気付いた
  • 京都女子大生、ビッグデータ解析で世界一 専門知識なし:朝日新聞デジタル

    京都女子大(京都市東山区)の3年生4人が、ビッグデータから傾向や規則性を見つける「データマイニング」の国際コンペで優勝した。正答率は参加53チームで最高。専門知識は一切なく、世界一に輝いた。 4人は現代社会学部の中原英里さん(22)、松浦由希さん(21)、松美紗子さん(21)、武藤陽穂(あきほ)さん(21)。指導した小波秀雄教授(統計学)は「情報理工系でない学生の優勝は努力のたまもの。受賞を自信につなげてほしい」。 コンペはアジア太平洋地域で知識工学を発展させようと、情報工学系の国際会議「ICONIP」が毎年開催。今年は7~9月に実施され、周辺各国の参加学生たちが競い合った。 出題は「暗号化された新聞記事… この記事は有料会員記事です。有料会員になると続きをお読みいただけます。 この記事は有料会員記事です。有料会員になると続きをお読みいただけます。 この記事は有料会員記事です。有料会員に

    京都女子大生、ビッグデータ解析で世界一 専門知識なし:朝日新聞デジタル
    tetzl
    tetzl 2015/11/30
    ふむー、と思って開いたら小波先生のとこでフアッってなった
  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

    %matplotlib inline import matplotlib.pyplot as plt import matplotlib.cm as cm import numpy as np import seaborn as sns import numpy.random as rd m = 10 s = 3 min_x = m-4*s max_x = m+4*s x = np.linspace(min_x, max_x, 201) y = (1/np.sqrt(2*np.pi*s**2))*np.exp(-0.5*(x-m)**2/s**2) plt.figure(figsize=(8,5)) plt.xlim(min_x, max_x) plt.ylim(0,max(y)*1.1) plt.plot(x,y) plt.show() この図は、平均$\mu$、標準偏差$\sigma$

    【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
    tetzl
    tetzl 2015/11/18
    まず読めなくてそこでつまづく人がいると思うのよね…「ゆうど」って…
  • Amazon.co.jp: データを正しく見るための数学的思考: ジョーダン・エレンバーグ (著), 松浦俊輔 (翻訳): 本

    Amazon.co.jp: データを正しく見るための数学的思考: ジョーダン・エレンバーグ (著), 松浦俊輔 (翻訳): 本
  • Amazon.co.jp: みんなのR -データ分析と統計解析の新しい教科書-: Jared P. Lander (著), Tokyo.R(協力) (著), 高柳慎一 (翻訳), 牧山幸史 (翻訳), 簑田高志 (翻訳): 本

    Amazon.co.jp: みんなのR -データ分析と統計解析の新しい教科書-: Jared P. Lander (著), Tokyo.R(協力) (著), 高柳慎一 (翻訳), 牧山幸史 (翻訳), 簑田高志 (翻訳): 本
  • 【リンク集】グッとくる資料をタダで作ろう?! 統計資料集

  • 初心者でもほぼ無料でR言語を勉強できるコンテンツ10選 - paiza開発日誌

    Photo by Hermann Kaser こんにちは。谷口がお送りします。 ITエンジニアの方の中には「R言語を学習したい」という方も多くいらっしゃるかと思います。 R言語は、データ分析やデータ処理に特化したオープンソースのプログラミング言語です。システムを開発をする他のプログラムミング言語とは位置付けが異なり、統計解析機能が付いていて、解析処理やその結果をグラフィカルに表示することができます。 そのため、多量のデータ解析が求められるソーシャルゲームの解析や、リサーチ、データマイニング、アソシエーション分析が必要な業務の求人が増えています。 また近年データサイエンティストが注目されていることもあり、今後求人が増えることが予想されます。 そこで今回は、プログラミング未経験~初心者の方が、なるべくコストをかけずにR言語に触れられて、学習に役立てられるコンテンツを10件ご紹介していきます。

    初心者でもほぼ無料でR言語を勉強できるコンテンツ10選 - paiza開発日誌
  • 勢いと雰囲気で押し切るトンデモグラフを堂々と掲載してきた日経新聞

    おちゃ @ochaochaocha3 今日の日経 2 面のこのグラフは妥当なのだろうか。「相関」というには左のぐじゃぐじゃなデータが邪魔そうだし、上にぽつんとある点に引っ張られているような。 少子化対策より交付金? nikkei.com/paper/article/… pic.twitter.com/3ZEV63InZw 2014-10-29 07:25:25

    勢いと雰囲気で押し切るトンデモグラフを堂々と掲載してきた日経新聞
    tetzl
    tetzl 2014/11/11
    一回でいいから仕事でこういう線引いて出してみたい(分銅を素手で触ってみたい、みたいな感じで)
  • 「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ

    石井准教授の作成した「統計解析ソフトRのスクリプト集」をオンラインで公開します。名古屋大学教育学部の「心理・教育の統計学」の授業で実際に使用されている教材です。学習・研究にご活用下さい。 2016.4.5 Ver. 4.0βを公開しました。棒グラフオプション、オメガ係数、効果量、標サイズの推定などの記述が加わりました。 2015.3.18 Ver. 3.0βを公開しました。記述統計量の算出の部分を統一的にしたのと、データ例を書籍にあわせて変えています。 2014.11.4 Ver. 2.2βを公開しました。 統計解析ソフトRのスクリプト集 (PDF) 下記のサイトでは、シラバスと講義資料が公開されています。あわせてご活用下さい。 「心理・教育の統計学」(名大の授業) 講義資料 (PDF) ーーー はじめに 石井秀宗 この冊子は,心理学や教育学の研究でよく用いられる統計手法に関して,統計解

    「統計解析ソフトRのスクリプト集」公開のお知らせ - 心理発達科学専攻からのお知らせ
    tetzl
    tetzl 2014/11/10
    すてき!!!!