Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

rとxlsxに関するishideoのブックマーク (7)

  • Excelからデータを読み込むR関数(2)readxl::read_excel - 一所懸命に手抜きする

  • 「Rによるデータクリーニング実践」をやってみた - Qiita

    はじめに 一般に分析対象となるデータは、欠損やフォーマットの違いなどがあり、そのまま使用することができません。そこで分析の前にはデータを分析可能なデータに変換するクレンジング作業が必要となります。以下のブログでは、クレンジング作業が工数の9割を占めるとの意見もあります。 「前処理」のフォーマット共通化やOSS化はできないんだろうか Zansaの会で話した内容は冒頭のslideshareの通りなんですが、改めてその中で口を酸っぱくして訴えたかったポイントの一つに 「データサイエンティスト=マエショリスト」 という現実を見なきゃダメだよねー、というのがありまして。これは冗談でも何でもなくて、冒頭の>slideshareでも書いてるようにうっかりすると全工数の9割が前処理*1、なんてこともあったりします。 そこで今回はこちらの参考サイトのクレンジング作業を実践してみたいと思います。 Rによるデー

    「Rによるデータクリーニング実践」をやってみた - Qiita
  • 大量のExcelファイルの中身をチェック - Qiita

    Excelファイル200個に含まれているセルを確認する 社でもう10年以上続いている統計セミナーに途中から講師として参加を強要された。これまで数名の社員が担当してきており、資料も課題もすでに用意されているので、それを、そのままやれということだ。内容の良し悪しはともかく、というか、とんでもなく昭和な資料なのだが、そこは我慢する。 が、問題は課題の確認で、200名近くの受講生に毎回課題を与えてExcelファイルを提出させている。これを同僚らは1つ1つダブルクリックして開いているという。具体的にはワークシートの適当なセルに正しい「式」が入力されているかなどを確認しているそうな。 チェックポイントは一枚のワークシートに10箇所近くあり、チェック対象となるワークシートが2,3枚、そしてこれが約200人分。大量というほどではないけど、手作業でやるには多すぎる。同僚らは丸一日かけているそうな。 こんな課

    大量のExcelファイルの中身をチェック - Qiita
  • readr: 高速で柔軟なテーブル読み込み

    タブ区切りテキストやCSVファイルを読み込んでdata.frameにするツール。 .gz や .xz などの圧縮ファイルも透過的に読み書き可能。 標準でも read.table() や read.csv() があるけど、それらと比べて 場合により数倍高速・省メモリ 列の名前や型を指定しやすい 指定した列だけ読み込むこともできる 生data.frameより安全な tibble として返してくれる 空白行を勝手にスキップする (1.2から skip_empty_rows = TRUE) 勝手に列名を変更しない する (2.0から name_repair = "unique") stringsAsFactors = FALSE とイチイチ書かなくて文字列を読める R 4.0 から標準関数もこの挙動。 tidyverse に含まれているので、 install.packages("tidyverse

    readr: 高速で柔軟なテーブル読み込み
  • RでExcelのファイルを読み書きする{xlsx}パッケージの使い方 - Qiita

    df <- data.frame(gene_symbol=c("OCT4\n(POU5F1)", "SOX2", "KLF4", "C-MYC"), expression=c(1,6,9,4)) write.xlsx(df, file="test.xlsx", sheetName="sheet1", row.names=F) この方法はシンプルですが,セルの書式設定など高度な設定はできません. 例えば,上の例で作成したxlsxファイルをExcelで開いても,OCT4\n(POU5F1)はセル内改行とは認識されません. xlsxファイルの書き出し(複雑なことができる方法) workbookオブジェクト,sheetオブジェクト,CellStyleオブジェクトを作成することで,より高度なxlsxファイルを作成することができます. df <- data.frame(gene_symbol=c("O

    RでExcelのファイルを読み書きする{xlsx}パッケージの使い方 - Qiita
  • Javaに依存せずにxlsxを読む - 盆栽日記

    R Advent Calendar2014@Qiitaの2日目です。 Javaに依存したくない方、いると思います。 こちらにあるようにこれまでxlsxファイルを扱おうと思うと、多くのパッケージではJavaを必要としていました。 そんな事態を解決すべく開発されたのがopenxlsxパッケージです。 コード例 以下は入出力の例です。 # ブックから直接データフレームとして読み込みたい場合 read.xlsx("iris.xlsx", sheet=1) readWorkbook("iris.xlsx",sheet=1) # 仮想ブックとして読み込みたい場合 loadWorkbook("iris.xlsx") # 出力 # 作成した仮想ブックを出力したい場合 saveWorkbook(wb, file = "iris.xlsx", overwrite = TRUE) # 仮想ブックを作成せずデータ

    Javaに依存せずにxlsxを読む - 盆栽日記
  • RでExcelのデータを読む方法

    今のところXLConnectパッケージが制約や問題点が少ないようである。 openxlsxパッケージについて追記した。xlsxに限ればこれがお薦めである(ただし注意点あり)。 Hadley Wickhamのreadxlパッケージについて書き足した。爆速かつ完璧。 xlsxパッケージ xlsxパッケージはxls/xlsxファイルを読み書きするためのものである。Javaで書かれたApache POIを使っている。インストールはMacでも簡単に行えた(昨今のセキュリティ事情からJavaをアンインストールした人は使えない)。 ワークシートをデータフレームとして読み込む関数は read.xlsx() と read.xlsx2() である。どちらもファイル名とシート番号(1から始まる)を引数とする: data = read.xlsx("test.xls", 1) # または read.xlsx2("t

  • 1