meanとmean.defaultどちらが速いか問題

以下の結果でどちらが速いかちょっと考えてみてほしい。

> library("microbenchmark")
> microbenchmark(mean(iris$Sepal.Length),
                 mean.default(iris$Sepal.Length))

結果はこちら。mean.defaultの方が速い。

Unit: microseconds
                            expr   min    lq     mean median    uq    max neval cld
         mean(iris$Sepal.Length) 17.60 19.84 22.70733  20.48 21.44 81.280   100   b
 mean.default(iris$Sepal.Length) 12.48 13.76 16.95053  14.40 15.04 89.601   100  a

これはコードの中身をみるとわかるが、ただsumと書いただけではS3クラスのmethod dispatchが走るからである。
method dispatchがなにかわからない方はAdvanced Rを読むとよい。（邦訳もあるよ！）
http://adv-r.had.co.nz/S3.html

R言語徹底解説

作者: Hadley Wickham,石田基広,市川太祐,高柳慎一,福島真太朗
出版社/メーカー: 共立出版
発売日: 2016/02/10
メディア: 単行本
この商品を含むブログ (29件) を見る

ではmean.defaultを指定した方が速いということで、以下の例ではどうなるかまた考えてみてほしい。

> library("dplyr")
> library("microbenchmark")
> microbenchmark(
　　　　　　　　　res1 <- iris %>% group_by(Species) %>% summarise(mean(Sepal.Length)),
　　　　　　　　　res2 <- iris %>% group_by(Species) %>% summarise(mean.default(Sepal.Length)))

結果はこちら。指定しない方が速くなっている。

Unit: milliseconds
                                                                         expr
         res1 <- iris %>% group_by(Species) %>% summarise(mean(Sepal.Length))
 res2 <- iris %>% group_by(Species) %>% summarise(mean.default(Sepal.Length))
      min       lq     mean   median       uq      max neval cld
 1.321609 1.382409 1.435641 1.425929 1.460969 1.837772   100  a 
 1.570250 1.608810 1.715646 1.699051 1.737451 4.227547   100   b

これはdplyrのhybrid evaluationによるもの。
hybrid evaluationの解説はvignetteにまとまっている。
https://cran.r-project.org/web/packages/dplyr/vignettes/hybrid-evaluation.html

ビッグな巨星津駄さんがhybrid evaluationの解説記事書いてくれねえかな

で、私は再三hybrid evaluationについてつぶやいてきたが、市井は「なにそれ食えるの？」みたいな反応であり芳しくない。

あとはwindow functionあたりの話を書いて終わりにしたいけど普段の仕事じゃあまり使わないのでいまいち要を得ない Hybrid evaluationはちょっと無理かな
— penpengusa (@dichika) 2014年2月23日

hybrid evaluationの話は余力があったら書こう
— penpengusa (@dichika) 2014年9月30日

Hybrid evaluation使いこなして「俺の育てたさいきょうdplyrで君とデュエル！！！！」みたいな人グローバルに見てもそんなにいないだろうな
— penpengusa (@dichika) 2015年2月23日

だが近年日本のR界にはRcppのビッグな巨星こと津駄さんが登場したわけですよ。
http://teuder.hatenablog.com/
https://www.gitbook.com/book/teuder/introduction-to-rcpp/details/ja
ということでRcppよくわかってない私じゃなくて日本のRomain Francoisこと津駄さんがhybrid evaluationについて解説書いてくれねえかなあと思っている最近。