[B! r][xlsx] ishideoのブックマーク

ishideo id:ishideo

rとxlsxに関するishideoのブックマーク (7)

Excelからデータを読み込むR関数(2)readxl::read_excel - 一所懸命に手抜きする
ishideo 2019/02/12
r

rlang

xlsx

readxl

excel
リンク
「Rによるデータクリーニング実践」をやってみた - Qiita
はじめに一般に分析対象となるデータは、欠損やフォーマットの違いなどがあり、そのまま使用することができません。そこで分析の前にはデータを分析可能なデータに変換するクレンジング作業が必要となります。以下のブログでは、クレンジング作業が工数の9割を占めるとの意見もあります。「前処理」のフォーマット共通化やOSS化はできないんだろうか Zansaの会で話した内容は冒頭のslideshareの通りなんですが、改めてその中で口を酸っぱくして訴えたかったポイントの一つに「データサイエンティスト＝マエショリスト」という現実を見なきゃダメだよねー、というのがありまして。これは冗談でも何でもなくて、冒頭の>slideshareでも書いてるようにうっかりすると全工数の9割が前処理*1、なんてこともあったりします。そこで今回はこちらの参考サイトのクレンジング作業を実践してみたいと思います。 Rによるデー
ishideo 2019/02/12
r

rlang

xlsx

readxl

excel

qiita
リンク
大量のExcelファイルの中身をチェック - Qiita
Excelファイル200個に含まれているセルを確認する社でもう10年以上続いている統計セミナーに途中から講師として参加を強要された。これまで数名の社員が担当してきており、資料も課題もすでに用意されているので、それを、そのままやれということだ。内容の良し悪しはともかく、というか、とんでもなく昭和な資料なのだが、そこは我慢する。が、問題は課題の確認で、200名近くの受講生に毎回課題を与えてExcelファイルを提出させている。これを同僚らは１つ１つダブルクリックして開いているという。具体的にはワークシートの適当なセルに正しい「式」が入力されているかなどを確認しているそうな。チェックポイントは一枚のワークシートに10箇所近くあり、チェック対象となるワークシートが2,3枚、そしてこれが約200人分。大量というほどではないけど、手作業でやるには多すぎる。同僚らは丸一日かけているそうな。こんな課
ishideo 2019/02/12
r

rlang

XLConnect

excel

xlsx

qiita
リンク
readr: 高速で柔軟なテーブル読み込み
タブ区切りテキストやCSVファイルを読み込んでdata.frameにするツール。 .gz や .xz などの圧縮ファイルも透過的に読み書き可能。標準でも read.table() や read.csv() があるけど、それらと比べて場合により数倍高速・省メモリ列の名前や型を指定しやすい指定した列だけ読み込むこともできる生data.frameより安全な tibble として返してくれる空白行を勝手にスキップする (1.2から skip_empty_rows = TRUE) 勝手に列名を変更しないする (2.0から name_repair = "unique") stringsAsFactors = FALSE とイチイチ書かなくて文字列を読める R 4.0 から標準関数もこの挙動。 tidyverse に含まれているので、 install.packages("tidyverse
ishideo 2019/02/12
readr

r

rlang

readxl

excel

xlsx
リンク
RでExcelのファイルを読み書きする{xlsx}パッケージの使い方 - Qiita
df <- data.frame(gene_symbol=c("OCT4\n(POU5F1)", "SOX2", "KLF4", "C-MYC"), expression=c(1,6,9,4)) write.xlsx(df, file="test.xlsx", sheetName="sheet1", row.names=F) この方法はシンプルですが，セルの書式設定など高度な設定はできません．例えば，上の例で作成したxlsxファイルをExcelで開いても，OCT4\n(POU5F1)はセル内改行とは認識されません． xlsxファイルの書き出し（複雑なことができる方法） workbookオブジェクト，sheetオブジェクト，CellStyleオブジェクトを作成することで，より高度なxlsxファイルを作成することができます． df <- data.frame(gene_symbol=c("O
ishideo 2019/02/12
r

rlang

xlsx

rjava

qiita
リンク
Javaに依存せずにxlsxを読む - 盆栽日記
R Advent Calendar2014＠Qiitaの２日目です。 Javaに依存したくない方、いると思います。こちらにあるようにこれまでxlsxファイルを扱おうと思うと、多くのパッケージではJavaを必要としていました。そんな事態を解決すべく開発されたのがopenxlsxパッケージです。コード例以下は入出力の例です。 # ブックから直接データフレームとして読み込みたい場合 read.xlsx("iris.xlsx", sheet=1) readWorkbook("iris.xlsx",sheet=1) # 仮想ブックとして読み込みたい場合 loadWorkbook("iris.xlsx") # 出力 # 作成した仮想ブックを出力したい場合 saveWorkbook(wb, file = "iris.xlsx", overwrite = TRUE) # 仮想ブックを作成せずデータ
ishideo 2019/02/12
r

xlsx

rlang

openxlsx

excel
リンク
RでExcelのデータを読む方法
今のところXLConnectパッケージが制約や問題点が少ないようである。 openxlsxパッケージについて追記した。xlsxに限ればこれがお薦めである（ただし注意点あり）。 Hadley Wickhamのreadxlパッケージについて書き足した。爆速かつ完璧。 xlsxパッケージ xlsxパッケージはxls/xlsxファイルを読み書きするためのものである。Javaで書かれたApache POIを使っている。インストールはMacでも簡単に行えた（昨今のセキュリティ事情からJavaをアンインストールした人は使えない）。ワークシートをデータフレームとして読み込む関数は read.xlsx() と read.xlsx2() である。どちらもファイル名とシート番号（1から始まる）を引数とする： data = read.xlsx("test.xls", 1) # または read.xlsx2("t
ishideo 2019/02/12
r

rlang

excel

readxl

openxlsx

xlsx

XLConnect

gdata
リンク
1