Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

Rに関するkazuya030のブックマーク (47)

  • Introducing magrittr

    Introducing magrittr Stefan Milton Bache November, 2014 Abstract The magrittr (to be pronounced with a sophisticated french accent) package has two aims: decrease development time and improve readability and maintainability of code. Or even shortr: make your code smokin’ (puff puff)! To achieve its humble aims, magrittr (remember the accent) provides a new “pipe”-like operator, %>%, with which you

    kazuya030
    kazuya030 2017/03/27
    なるへそ、面白い “%T>%”
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
    kazuya030
    kazuya030 2016/04/05
    これは必読
  • "モダンなRで"金融データ解析の基礎

    [KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests

    "モダンなRで"金融データ解析の基礎
    kazuya030
    kazuya030 2016/01/22
    dplyr tidyr のサンプルとして
  • How is Hadley Wickham able to contribute so much to R, particularly in the form of packages?

    Answer (1 of 3): From following Hadley's work, it seems to me that along with being an exceptional programmer and data scientist, and having the advantage of developing R packages as part of his job, Hadley follows a few strategies that serve as useful wisdom for all developers: * He writes pack...

    How is Hadley Wickham able to contribute so much to R, particularly in the form of packages?
  • RStudio Shiny チュートリアル レッスン1 ようこそ Shiny へ - Qiita

    この記事は Shiny 公式サイトのチュートリアルを翻訳したものです。 http://shiny.rstudio.com/tutorial/lesson1/ チュートリアル目次:http://d.hatena.ne.jp/hoxo_m/20151222/p1 LESSON1 ようこそ Shiny へ このレッスンは、Shinyアプリをすぐに作れるようになるためのものです。もし、まだ Shiny パッケージをインストールしていないなら、R を起動してインターネットにつなぎ、以下を実行してください。 このチュートリアルでは、RStudio のプレビュー版を使っていることを前提としています。プレビュー版は Shiny を簡単に動かせるような新機能が含まれています。プレビュー版はここからダウンロードできます。(※記事を書いた時点ではプレビュー版にしか無い機能を使っていましたが、現在はその機能は正式

    RStudio Shiny チュートリアル レッスン1 ようこそ Shiny へ - Qiita
    kazuya030
    kazuya030 2015/12/19
    冬休みにやりたい
  • ggplot2逆引き

  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • ggplot2再入門 - Cybozu Inside Out | サイボウズエンジニアのブログ

    ドーモ、インフラチームの湯谷(@yutannihilation)です。 サイボウズ社内では活発に社内勉強会が行われています。そんな社内勉強会のひとつ、Rと統計の社内勉強会で発表したグラフ描画ツール「ggplot2」についての資料を公開します。 ggplot2再入門 from yutannihilation www.slideshare.net (アニメーションを省略したので少し見づらいスライドもあります。ご容赦ください) Rと統計の社内勉強会について Rと統計の社内勉強会は、マーケティングや開発など様々な部署のデータ分析に興味がある人が集まって始まった勉強会です。なんだかんだでもうかれこれ2年ほど続いています。 毎週一回昼休みに集まって、統計に関するを輪読したり、統計に関連する話題を持ち寄って発表したり、統計的なマサカリが飛んで来たりします。 私は統計のことがあまり分からないので、こうい

    ggplot2再入門 - Cybozu Inside Out | サイボウズエンジニアのブログ
    kazuya030
    kazuya030 2015/10/15
  • データ分析のプロを目指すエンジニア必読の書 - ほくそ笑む

    福島真太朗『データ分析プロセス』を読みました。 データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行この商品を含むブログ (2件) を見る 「データ分析」とひとことで言っても、色々な人たちが色々な考え方で「データ分析」をやっていると思います。 その一大勢力として挙げられるのが「Excelで集計だけしてる人たち」です。これは特にマーケター出身の人が多いのではないでしょうか。*1 一方、最近のデータ分析界隈に増加していると思われるのが「機械学習ツールにデータを入れるだけ」の人たちです。 特にエンジニア出身の方が、上司に「データ分析が流行ってるみたいだから今日からデータ分析やって」と言われて泣きながらやっているケースが多いのではないかと。 そういう人たちは、機械学習についてある程度理解してお

    データ分析のプロを目指すエンジニア必読の書 - ほくそ笑む
    kazuya030
    kazuya030 2015/09/25
    読まねば(`・ω・´)
  • 新型のランダムフォレスト(Random Forest)パッケージ比較:Rborist・ranger・randomForest - My Life as a Mock Quant

    最近、ランダムフォレスト系のパッケージの高速実装が複数 CRAN - Package Rborist CRAN - Package ranger 出てきたので、それ調べておきたい。 各々install.packagesを使えば入るので入れておくこと。また旧型(randomForest)も比較対象にしておく。 まず、速度比較。Rboristだけが"ランダムフォレストの各木において、ノードの分割する際に何個特徴量使うか"のmtry引数がなく、それに近いpredProbオプションを適当に調整して設定している点に注意。これでいいのかあまり自信ない。データはirisだ。 library("Rborist") library("ranger") library("randomForest") library("microbenchmark") microbenchmark( ranger = rang

    新型のランダムフォレスト(Random Forest)パッケージ比較:Rborist・ranger・randomForest - My Life as a Mock Quant
    kazuya030
    kazuya030 2015/09/22
  • dplyrを使いこなす!JOIN編 - Qiita

    はじめに 今回は、複数(主に2つ)のdata.frameを結合する方法についてまとめます。 実際に分析する際に、1つのdata.frameだけで完結することはあんまりなく、マスタデータの結合など複数のdata.frameを組み合わせて使う必要がありますが、またまたdplyrを使えば簡単にできます。 結合と言っても、結構色んな方法があるので、分かりやすいようにチートシートからイメージ図を拝借してきました。 1つのdata.frameを操作する場合は、↓の記事を参照してください。 dplyrを使いこなす!基礎編 dplyrを使いこなす!Window関数編 JOINの種類 JOINの種類は大きく分けて以下の3つあります。 種類 説明

    dplyrを使いこなす!JOIN編 - Qiita
    kazuya030
    kazuya030 2015/09/22
  • R言語の過去と最新の動向

    連載「フリーソフトによるデータ解析・マイニング」は今月号をもって終了となります。 2003年8月に連載第1回として金明哲氏による「データ解析・マイニングとR言語」という記事が掲載されて以来、 約12年半149回に渡り、6名の執筆陣がR言語とデータ解析について解説してきました。 最終回となる今回は、過去10年余りのR言語の国内での普及、 そしてR言語の最新の動向について紹介しながら、有用な情報をピックアップしてみます。 なお今回の記事には著者の主観が多分に反映されていることをご承知おき下さい。 R言語の10余年史 コンピュータのバックアップ履歴を漁ってみたところ、著者自身は大学院生だった2003年頃からRを触り始めて、 2004年夏頃に研究のための分析ツールとしてRを導入していたようです。 この頃のRのバージョンは1.7から1.8だったように記憶しています。 連載の開始時期と著者のR利用

    kazuya030
    kazuya030 2015/09/21
    Rの歴史がすごくわこりやすくまとまってる。動向が激しいので助かる。
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 dplyrを使いこなす!Window関数編 dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデータサイ

    dplyrを使いこなす!基礎編 - Qiita
  • A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ

    こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows

    A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ
  • Rで解析:インタラクティブな散布図作成!「pairsD3」パッケージ

    関係性の把握には散布図が非常に有効と考えています。また、散布図をインタラクティブに操作することで、思いがけない発見をすることがあります。 Plotlyライブラリでもインタラクティブなグラフを作成できますが、散布図に特化した「pairsD3」パッケージが手軽なので紹介します。 なお、作成した散布図はHTMLやshinyで出力できます。shinyの出力は更にインタラクティブです。 パッケージのインストール#パッケージのインストール install.packages("pairsD3")実行コマンドの紹介pairsD3コマンドを実行すると、ブラウザが立ち上がり散布図が表示されます。RStudioはPlotビューア内に表示されます。 #ライブラリの読み込み library("pairsD3") #データの準備 TastData <- data.frame(X = runif(100), Y = r

    Rで解析:インタラクティブな散布図作成!「pairsD3」パッケージ
  • 第46回R勉強会@東京に参加してきた - INPUTしたらOUTPUT!

    Tokyo.Rの発表資料リンクとなっているブログです。そろそろちゃんと更新しないと。。。 第46回R勉強会@東京(#TokyoR) : ATND 第46回R勉強会@東京(#TokyoR)の座席表 - セキココ 第46回R勉強会@東京まとめ - Togetterまとめ 2/22 資料追加 2/23 資料追加 前半セッション 10分で分かるR言語入門 初心者セッションの資料UPしましたー /10分で分かるr言語入門ver2 upload用 http://t.co/wfEqXLshkc #TokyoR— akiaki5516 (@doradora09) 2015, 2月 21 びっきーさんのRとSQLの対応付け、実は先月data.table編が更新されています。 http://t.co/oGhJW2FyjS #TokyoR— Lean OREO (@tetsuroito) 2015, 2月 2

    第46回R勉強会@東京に参加してきた - INPUTしたらOUTPUT!
    kazuya030
    kazuya030 2015/02/22
  • R6パッケージの紹介―機能と実装

    7. 6 既存のOOシステム • S3 – クラスはclass属性として個別のオブジェクトに対して設定 • フォーマルなクラス定義はない • 継承もclass属性で行う – メソッドはジェネリック関数 john <- list(name = "John", age = 40) class(john) <- c("Employee", "Person") # printはジェネリック関数 print #> function (x, ...) #> UseMethod("print") # メソッド定義 print.Person <- function(x) { paste0("こんにちは,", x$name, "です.") } # printで実際に呼ばれるのはprint.Person print(john) #> [1] "こんにちは,Johnです." 8. 7 既存のOOシステム • S

    R6パッケージの紹介―機能と実装
    kazuya030
    kazuya030 2015/02/22
  • R のラムダ式でプレースホルダを使えるようにする #rstatsj - Qiita

    lambda <- function(..., envir = parent.frame()) { if(!require(stringr)) stop("Please install.packages('stringr')") if(!require(lazyeval)) stop("Please install.packages('lazyeval')") args <- lazyeval::lazy_dots(...) args_len <- length(args) args <- Map(function(x) x$expr, args) vars <- unlist(Map(function(x) deparse(x), args[-length(args)])) expr <- as.character(args[length(args)]) if(args_len == 0

    R のラムダ式でプレースホルダを使えるようにする #rstatsj - Qiita
    kazuya030
    kazuya030 2015/02/13
    これはすごい
  • Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments

    R を使っていると、組み込み型の data.frame と大規模データ用パッケージである data.table の差異で思わずはまることがあるので使い方をまとめる。どちらか一方しか使わないようにすれば 差異を気にする必要はないのかも知れないが、、。 基的には データ操作用パッケージ dplyr が data.frame と data.table 両方に対して同じように使えるので、できるだけ dplyr を使って操作するのがよい。 ある程度 複雑な操作であれば最初から dplyr を使うと思うが、列選択, 行選択, 代入など 比較的シンプルな操作はつい 通常の書式で書いてしまう (そしてはまる、、)。また、列名を文字列に入れて処理するなど、dplyr 0.2以前では(シンプルには)書けない処理もあった。 dplyr 0.3でこのあたりの処理が素直に書けるようになっているので、その方法と 通

    Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments
    kazuya030
    kazuya030 2015/01/15
  • ggplot2 の自分用メモ集を作ろう - Triad sou.

    プロットの作製 基プロットを作る Geoms Aesthetics 違う種類のグラフを重ねる 参照線の追加 グループ分け 層別プロット スケールと軸 Scales 軸ラベルやタイトルの変更 軸の表示範囲を変更する 軸の左右の余白を削除する 軸表示の修飾 日時の軸スケール 軸区切り値の変更 軸スケールの変更 (変数変換) プロットのソート (離散型変数の水準をソートしてプロット) 座標系の反転:横向き箱ひげ図 極座標への変換:円グラフ 座標系のアスペクト比の指定 色セットの変更 ggplot2 のデフォルト色セットの定義 任意の色セットの利用 凡例 凡例位置の変更 凡例ラベルの変更 凡例の一部を削除する テーマ (グラフ背景・グリッドの色, マージン, フォント) Themes 定義済み theme の適用と編集 theme 要素と theme() の併用時の注意点 フォント変更 保存 g

    ggplot2 の自分用メモ集を作ろう - Triad sou.
    kazuya030
    kazuya030 2015/01/15