タグ

dwhに関するMakotsのブックマーク (5)

  • データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog

    というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。 背景 / 前提 データウェアハウスのテーブルを社内に広く提供したい 初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる 他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともある データウェアハウスのバージョンを場面に応じて複数提供できると都合がよい 一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい

    データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
  • 米スノーフレークが33.6億ドル調達、今年米最大のIPO

    9月15日、米クラウドデータウェアハウスのスノーフレークは、新規株式公開(IPO)で33億6000万ドルを調達したことを明らかにした。写真はニューヨーク証券取引所。8月撮影(2020年 ロイター/Mike Segar) [ニューヨーク 15日 ロイター] - 米クラウドデータウェアハウスのスノーフレークは15日、新規株式公開(IPO)で33億6000万ドルを調達したことを明らかにした。公開価格は想定を上回り、今年米国で最大のIPOとなる。

    米スノーフレークが33.6億ドル調達、今年米最大のIPO
    Makots
    Makots 2020/09/17
    すご
  • ビッグデータ処理データベースの全体像と使い分け
2018年version

    1. (C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理データベースの全体像と使い分け 2018年version 2018/9/21 株式会社リクルートテクノロジーズ データテクノロジーラボ部 渡部徹太郎 db tech showcase Tokyo 2018 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. 自己紹介 {"ID" :"fetaro" "名前":"渡部 徹太郎" "研究":"東京工業大学でデータベースと情報検索の研究" "仕事":{前職:["証券会社のオンライントレードシステムのWeb基盤", "オープンソースなら何でも。主にMongoDB,NoSQL"], 現職:["リクルート分析基盤のプラットフォームリーダ, BigQuery,

    ビッグデータ処理データベースの全体像と使い分け
2018年version
  • 一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog

    一休のデータサイエンス部に所属しています小島です。 以前データ分析基盤の構築で記事を上げていましたが、今回はETL*1周りの話をしようと思います。 user-first.ikyu.co.jp 今回ETLのツールとして導入したのはAirflowというツールです。 2017年のアドベントカレンダーでも紹介させていただきました。 一休のデータフローをAirflowを使って実行してみる 一休のETLの現状について 一休のETL周りは以下の画像のようになっていました。 課題 ETLの処理時間が伸びた(出社後も処理が続いていた) エラーのリカバリ作業に時間がかかる(ログが確認しにくい, サーバーに入って作業しなければいけない) 複雑な依存関係の定義がしにくい(どれとどれが依存しているかわからない) リソース負荷(全て並列で実行していた) 処理毎のボトルネックが把握できない ツールの問題というよりは正し

    一休のETL処理をAirflowで再構築しました - 一休.com Developers Blog
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • 1