[B! 技術：データベース] cha-cha-kiのブックマーク

cha-cha-ki id:cha-cha-ki

技術：データベースに関するcha-cha-kiのブックマーク (9)

情報学研究データリポジトリニコニコデータセット
国立情報学研究所が(株)ドワンゴから提供を受けて研究者に提供しているデータセットです。 2024/11/25 更新データ概要ニコニコ動画コメント等データ「ニコニコ動画」にサービス開始当初から2021年9月30日までに投稿された約2,000万件の動画のメタデータと，それに対する約41億件のコメントデータです。動画データ本体は含まれません。また，ユーザIDは削除されています。動画メタデータタイトル，説明文，タグ，投稿日時，再生数，コメント数などのデータです。 JSON形式のファイルで，1,000ファイル（1ファイルあたり約2万動画分），ファイルサイズは合計で約15GBです。コメントデータコメント本文，投稿日時，書き込み再生位置などのデータです。 JSON形式のファイルで，1つの動画につき1ファイルとなっています。圧縮ファイルで約86GBあり，展開すると合計で約573GBとなりま
cha-cha-ki 2013/05/25
これはすごい

技術：データベース
リンク
入門機械学習
目次訳者まえがきはじめに 1章　 Rを利用する 1.1　機械学習のためのR 1.1.1　Rのダウンロードとインストール 1.1.2　IDEとテキストエディタ 1.1.3　Rパッケージの読み込みとインストール 1.1.4　機械学習のためのRの基礎知識 1.1.5　Rに関する情報 2章　データの調査 2.1　探索と確証 2.2　データとは何か？ 2.3　データ内の列の型を推論する 2.4　意味推論 2.5　数値による要約 2.6　平均値、中央値、最頻値 2.7　分位数 2.8　標準偏差と分散 2.9　探索的データの可視化 2.10　複数の列の関係の可視化 3章　分類：スパムフィルタ 3.1　白か黒か？二値分類 3.2　やさしい条件付き確率入門 3.3　初めてのベイズスパム分類器を書く 3.3.1　分類器を定義し、非スパム（難）でテストする 3.3.2　分類器をすべての種類の電子メールに対し
cha-cha-ki 2012/12/11
技術：データベース
リンク
MongoDBをext3とext4でベンチマークしてみたらext4が圧勝だった。 · DQNEO日記
マシン：ニフティクラウドサーバタイプmini [1vCPU（1GHz）・512MB] ディスク：Disk200 B OS:CentOS release 6.2 (64bit) Mongo DB: mongo db-linux-x86_64-1.6.4 実験方法マシン内で mongod(サーバ)を１プロセス起動する。 mongoシェルを３つ立ち上げる。 mongoシェルから次のようなsaveクエリを無限ループで投げ続ける。 > var x = { a : new Date() , b:(new Date()).toString(), c: 'hoge hoge foobar' , d: 1234567890 }; > while (1) { db.foo.save({ x : x, t : new Date()}) } サーバのログファイルに書かれたアロケーション所要時間を記録。 Wed A
cha-cha-ki 2012/04/25
技術：データベース
リンク
国土数値情報ダウンロードサービス
cha-cha-ki 2012/01/12
技術：データベース
リンク
だいこんで学ぶ計量経済学
経済学にも色々とある。事実解明的/規範的なアプローチの違い、理論/計量/現地調査などの手法の違い、ミクロ/マクロなどの分野の違いがあげられる。ミクロ/マクロの理論は教科書を通じて学びやすいが、どういうものか理解されづらいのは計量経済学（Econometrics）だ。学術以外での計量分析の存在感はとても薄く、実際の研究成果が紹介されるケースも少なく、露出度の高い経済評論家は存在を認知しているのかも疑わしいぐらいだ。緻密なデータ分析を背景とした主張をするブロガーも余り見たことが無い。このように世間での認知度が低いものではあるが、実際の分析手順を見ると実感が沸きやすいものではある。だいこんの需給と価格で、ミクロの計量手法を紹介してみたい。 1. 検証仮説を考える計量の実証研究の仮説の自由度は高い。ただし、分析結果は経済理論との整合性を考えつつ解釈する事が慣例であるため、そこを考えて計量モデル
cha-cha-ki 2012/01/09
技術：データベース
リンク
データマイニング・アルゴリズムのトレンド
HDDの大容量化と分散処理技術の発達でビッグデータの処理が容易になってきたので、ここ数年はデータマイニングが地味なブームになっている（NYT - For Today’s Graduate, Just One Word: Statistics）。2000年代前半のデータウェアハウスのブームではコンセプトだけが先走っていた（大園(2002)）ので、随分と地に足がついた感じだ。しかし人気のアルゴリズムを見ている限りは、まだ十分にデータ分析がされているように思えない。 1. 10年間でソフトウェア的に進歩地に足がついていると言うのは、ソフトウェア的に色々な面で進歩が見られたことだ。ビッグデータの利用が可能になった事から、応用事例が増えているように思える。 1. 分散処理技術の進歩によるビッグデータの利用ハードウェア技術の進歩による高速化も著しいが、分散処理技術の進歩はビッグデータの利用を容易に
cha-cha-ki 2012/01/09
技術：データベース
リンク
フランス政府、公共データの公開サイト「data.gouv.fr」を開設
フランス政府は12月5日付けで、政府機関が発行する情報を公開するプラットフォームとなるWebサイト「data.gouv.fr」を公開しました。政府機関が収集、発行するさまざまな統計情報、地理情報、環境情報、伝染病の情報、予算、支出、調達などを「オープンデータ」として公開します。 Open Data : une source d’informations qualifiées, un vecteur d’innovation et de développement 公共データをこのように公開することの目的は2つあると、サイトの記事「Open Data : une source d’informations qualifiées, un vecteur d’innovation et de développement」（オープンデータ：確実なデータソースからのデータ提供は、発展とイノベーション
cha-cha-ki 2011/12/06
技術：データベース
リンク
さいきんの Rails サービスを高速化をしてみた - 2nd life (移転しました)
先日のももクロハッカソンで出会った wantedly を作ってる仲さんがと言ってたので、面白そうなので wantedly を速くしてみました。 wantedly ちなみにデータが数百万オーダーもなさそうなのに、どのページもログインすると2-5秒ぐらいかかっていたので、確実に速くできそうだなぁという感覚はやる前からありました。アプリケーションサイドのチューニング初心者*1にありがちな問題として SQL に適切にインデックス張ってないキャッシュすべき場所をキャッシュしていない無駄なデータを引きすぎてることがよくあります。ので順に実装を見ていきました。 SQLに適切なインデックスを張ってない張ってありました！びっくり！＼(^o^)／キャッシュすべき場所をキャッシュしていない Facebook API を利用したアプリケーションなんですが、ユーザのデータの取得を毎回馬鹿正直に HT
cha-cha-ki 2011/09/20
うお！！すごく速くなってる…

技術：データベース
リンク
「エキスパートのためのMySQL[運用+管理]トラブルシューティングガイド」発刊のおしらせ。
来たる6月12日、我が入魂の書籍が発刊される運びとなった。執筆を開始したのはすでに一年以上前であり、本ブログでも何度か「執筆中です！」といいながらなかなか発刊に至らずお待たせしてしまったのだが、しかし時間がかかってしまった分、内容には磨きがかかったと思うので期待して頂きたい。書籍のタイトルは「エキスパートのためのMySQL[運用+管理]トラブルシューティングガイド」。筆者にとって初の著書（単著）である。名前にエキスパートと冠している通り、中級〜上級者向けの一冊となっている。初心者の方は、まずMySQL 徹底入門第2版などを先に読んでから本書を購入するといいだろう。以下もくじである。第1章 MySQLの概要 1 MySQLとは 1-1 世界で最も有名なオープンソースのRDBMS 1-2 LAMPの"M" 1-3 History 2 MySQL Serverの種類 2-1 FOSS Exc
cha-cha-ki 2010/06/01
これはすごい

技術：データベース
リンク
1