[B! bigquery] kimutanskのブックマーク

kimutansk id:kimutansk

bigqueryに関するkimutanskのブックマーク (22)

Google BigQuery - コスト計算と最適化
Google Cloud Platform (Google App Engine, Compute Engine, BigQuery や Container Engine など）の情報の日本公式ブログ
kimutansk 2015/12/25
BigQueryで～～溶かした話の後即出てるので結構驚き。結構前から使いすぎによる事例は発生していたということなんですかね。ただ、整備されたと。

gcp

bigquery
リンク
ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
はじめにこれはドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話です【その2】ドリコム Advent Calendar 2015 もあります自己紹介 @ka_nipan 去年のドリコムを支えるデータ分析基盤に引き続き、今年もドリコムのデータ分析基盤を担当しています。分析基盤をTreasure Dataに移行オンプレ環境の Hadoop からTreasure Data に移行しました。また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、徐々にオンプレ環境を離れつつあります。背景オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。さてどうしようかとなった時に、ほぼ迷いなく外部
kimutansk 2015/12/07
比較した結果、TDはお高いものの、職人芸不要で料金も固定になると。「金を出した分だけ楽ができる」は深い・・・

td

redshift

bigquery
リンク
BigQueryで150万円溶かした人の顔 - Qiita
※ かなり前の記事ですが、未だに引用されるので一応追記しておきます。タイトルと画像がキャッチーなのはちょっと反省していますが、これを見てBigQuery使うのを躊躇している人は多分あまり内容を読んでいないので気にする必要はないです。自分は当時の会社でも今の会社でも個人でも普通にBigQuery使っていて解析用データなどはBigQueryに入れる設計をよくしています。また、アドベントカレンダーだったのでネタっぽく書きましたが事前に想定できる金額です。 ※ 代役：プロ生ちゃん（暮井慧）巷のBigQueryの噂と言えば「とにかく安い」「数億行フルスキャンしても早い」などなど。とりわけ料金に関しては保存しておくだけであれば無視できるほど安く、SQLに不慣れなプロデューサーがクエリを実行しても月数ドルで済むなど、賞賛すべき事例は枚挙に暇がありません。しかし、使い方によってはかなり大きな金額を使
kimutansk 2015/12/06
「WEHRE句には何を書いてもテーブルをフルスキャンしてしまう」は内部構造の目星がついていないと確かにやらかしそうです。気をつけないと。

bigquery

gcp
リンク
fluent-plugin-bigqueryでログの書き込みが痕跡なく欠損するケースがある問題 - s_tajima:TechBlog
fluent-plugin-bigqueryを使ってBigQueryにStreaming Insertでログを書き込む時に、痕跡なくログが欠損するケースがあるのでは? という話です。 fluent-plugin-bigqueryでのログの書き込み処理/エラー処理はこのようになっています。 res.success? がtrueであればエラーはなく書き込みが成功しているという想定。 falseの時にはレスポンスのjsonのerrorエラーの中身を見て、ログを吐くなどのエラー処理をするようです。 res = client().execute( api_method: @bq.tabledata.insert_all, parameters: { 'projectId' => @project, 'datasetId' => @dataset, 'tableId' => table_id, },
kimutansk 2015/12/03
BigQueryのレスポンスが200台でも結果にエラーが含まれているケースがあって、その場合普通正常応答と判断して特に何もしないので、痕跡なく落ちると。

fluentd

Bigquery
リンク
BigQuery をスキーマレスっぽく運用する方法 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
kimutansk 2015/09/12
RDBのJSON型、で大体どんな感じかわかりますが、IO量が増え、時間も遅い代わりに後からどうとでもなるというパターンですか。

JSON

bigquery
リンク
BigQueryクエリの処理の流れ
Google Developers Summit Tokyo - The Googliness of Google Cloud Platform
kimutansk 2015/05/31
意外なくらい個々の要素に特別なものを使っているわけではないんですよね。ということはやはりColossusをはじめとしたストレージ層と、後は並列分散実行基盤がやはり鍵ですか。

bigquery

google

Distributed
リンク
ビーックビックビックBigQuery♪ / Introduction of BigQuery - Speaker Deck
All slide content and descriptions are owned by their creators.
kimutansk 2015/03/20
トップスライド笑ったｗ　”リアルタイムな”可視化に向かないというのはインタラクティブクエリ系に共通する要素ではありますが、重要ですね。

bigquery
リンク
『アドテクスキルアップゼミ　カラムナーデータベース検証まとめ』
皆様こんにちは。アドテク本部カラムーデータベースゼミチームです。今回の記事ではゼミチームが行った検証結果について発表させていただきます。また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。アドテクスキルアップゼミカラムナーデータベース検証まとめ目的広告システムでは大量のデータをデータベースに入れて解析を行います。小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。ビッグデータ用のデータベースは比較資料が少なく、また、あったとしても検証
kimutansk 2014/11/13
ファイル形式最適化＆圧縮と、データがキャッシュに乗ってからのパターンも無いとあまり有意な比較ではないような。延長戦出ませんかねぇ

アドテク

BigQuery

Impala
リンク
Raspberry PiからFluentdでBigQueryにデータを送るウェザーステーションの作り方 - Qiita
最近なんだか個人的に電子工作ブームで、ついAmazonでRaspberry Piをポチってしまった。とりあえずウェザーステーション（気温・湿度・気圧を測るやつ）を作ってみた。びろーんと伸びてるのは温度・湿度センサーDHT22で、基板上で青く光っているのが気圧センサーLPS331。丸くて黒いやつはなんとなくつけてみた圧電スピーカーで今回は使ってない。そして、これらのセンサーデータを10秒おきにFluentd経由でGoogle BigQueryに送る簡単なPythonコードを書いた。Google SpreadsheetからBigQueryのクエリを実行して描いた俺の部屋のお天気環境グラフがこんな感じ。単に1台分のグラフを書くだけならBigQueryにデータを入れる必要はなくてSpreadsheetに直接送れば済むのだけど、RasPi+Fluentd+BQの連携をいちど試してみたかったのだ
kimutansk 2014/09/29
サーバいらずで分析データストアに即投入できる・・というのは今となっては普通ですが、Raspiと組み合わせてみると新しい世界が見えますね。

bigquery

fluentd

Raspberry Pi
リンク
gcp ja night #28 に参加してきたので色々まとめるよ #gcpja - えいのうにっき
gcp ja night #28 に参加してきたので、色々まとめるよー。スライド資料を見ればわかるようなことは書かない方向で。懇親会の場で、Googler の佐藤さんに、前から気になってたことをいくつか質問できたので、その内容もこのエントリの最後にメモっとく。イベントページ gcp ja night #28 - connpass 各種まとめ 2014.09.16 gcp ja night #28 #gcpja - Togetter gcp ja night #28 - 資料一覧 - connpass Managed VMのDocker対応とKubernetes最新動向 @briandorsey by Brian Dorsey, Developer Advocate, Google Inc. 僕の観測範囲では、スライド資料の公開はなし GAE などのような PaaS を使いつつ、IaaS
kimutansk 2014/09/17
最後のGoodQuestionが・・　ともあれ、最後の質問集は参考になります。

gcpja

Google

bigquery
リンク
はじめての BQ GAS
gcpja night #28 での発表資料です。サンプルコードはこちら: https://gist.github.com/hakobera/537b35971e3b698ae083
kimutansk 2014/09/17
Container版しか使っていませんでしたが、Standaloneが使えると使いやすくなりそうですね。BigQueryとの連携はこうできますか。

Google

GAS

bigquery
リンク
'An Inside Look at Google BigQuery'を読んだ - blue_field
Google BigQueryを使ってみようと思って、最近少し勉強している。Googleがホワイトペーパーを出していたので、読んでみた。（※2012年の文献） BigQuery についてのホワイトペーパーを公開しました - Google Developer Relations Japan Blog 以下、内容の簡単なメモ。もともとGoogle社内で利用されていた Google社内で利用されてきた'Dremel'というサービスがある。巨大なデータに対してSQLライクなクエリを実行すると、数秒で結果が返ってくる。Googleでは、エンジニアだけでなくアナリストなど非エンジニアの人も利用している。 Dremelがベースとなり、外部に公開されたのがBig Query。フルマネージドなクラウドサービス。サードパーティの開発者は、REST APIやCLI, Web UIなどを利用してこのサービスにア
kimutansk 2014/09/16
日本語でコンパクトにまとまっているのは有難いですね。BigQueryとMapReduceのユースケース等も説明には役に立ちます。

google

bigquery

Dremel

SQL
リンク
Google BigQuery の話 #yapcasia // Speaker Deck
フロントエンドのパラダイムを参考にバックエンド開発を再考する / TypeScript による GraphQL バックエンド開発
kimutansk 2014/08/30
BigQueryのすごい点は「Googleのインフラを使えることである」と。身も蓋もないですが、でもそれが類似プロダクトの最大の差分ですよねぇ。

bigquery

google
リンク
BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー
先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており
kimutansk 2014/08/16
Google Omegaは果たして2.0世代なのか、3.0世代なのか。個人的には3.0世代であると考えたい所ではありますが・・・あれが2.0だとすると、3.0って何やってるのか想像を絶します。

google

bigquery
リンク
Hadoop Conference Japan 2014 参加メモ（個別セッション①） #hcj2014 - 双六工場日誌
Hadoop Conference Japan 2014 参加メモ（キーノート） #hcj2014 の続きです。続いて、個別セッションの前半。先は長い。。。個別セッション BigQuery and the world after MapReduce Speaker: 佐藤一憲（Google） GCPサポート GCP solutions design Docker/GCP meet up Google I/O で、GoogleはMapReduceを使っていないという話があった We use Dremel ≒ Google BigQuery(MPP) 68B records in ~20 secs 120億行フルスキャンで10秒ぐらいコスト Storage 0.026/GB per manth Query: $5/TB Column Oriented Storage HDFSの元となっ
kimutansk 2014/07/10
「Small JOIN: Broadcast JOIN」「Big JOIN: JOIN EACH, GROUP EACH -> Shuffle」と。あとはトランザクションはサポートしない、という割り切りもわかりやすいです

bigquery

gcp
リンク
BigQuery and the world after MapReduce
Tensor Processing Unit (TPU) Overview (July 6, 2018)
kimutansk 2014/07/10
Small JoinとBig Joinで実行方式変わるわけですか。実行時のメモリに収まる単位に分割統治している結果ですかね。これは実際聞きたかったです。

bigquery

gcp
リンク
BigQueryにTwitterのタイムラインを入れる [Ruby]
Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、Mongo DB や MySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の Mongo DB クラスタで BigQuery に対抗している」という
kimutansk 2014/07/03
TwitterのタイムラインをBigQueryに入れておくのは何かと便利そうですね。ヤバさは同意です。

bigquery

google
リンク
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ（1分16秒）を作ってみた： From The Speed of Google BigQuery これは速すぎる。何かのインチキである（最初にデモを見た時そう思った）。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
kimutansk 2014/05/20
「事前にデータを入れる」ではなくStreaming／Connector for Hadoopで・・と、でもHadoop以外のプロダクトでもコネクタ取り込めば使える？やってみますか。

bigquery

Google
リンク
Developer's Summit 2013 参加メモ（１）
★受講中に書いていたメモを、推敲無しでそのまま上げています。 ★誤字脱字、内容の漏れなどあるかと思いますがご了承下さい。。 600億件を数十秒で検索するクラウド検索クエリサービスBigQuery / 佐藤一憲氏@google 導入 BigQueryのプレゼン自己紹介 @kazunori_279/#gaeja/#gcloudja クラウドソリューションチームソリューションズアーキテクト appengine ja night管理人(23回くらい) AppEngine技術者のための情報交換イベント Agenda ビッグデータをGoogleスピードで「Googleスピード」は社内用語、すごく早いデモ＆事例紹介 WhitePaper なぜ早い？ MapReduceとGoogleBigQueryの適材適所ビッグデータをGoogleスピードで Googleではコードを書く時に最初にスケーラビリ
kimutansk 2013/02/15
英語で時間かかって読み切れていなかったところがすっと理解できた感じでした。ありがたいですねぇ。。。

google

bigquery

Dremel

devsumi
リンク
IT news, careers, business technology, reviews
Q&A: How Thomson Reuters used genAI to enable citizen developers
kimutansk 2012/11/14
後で読んでおかないといけませんねぇ

bigquery

google
リンク
1 2 次のページ