[B! dwh] sh19910711のブックマーク

sh19910711 id:sh19910711

dwhに関するsh19910711のブックマーク (459)

dataform-osmosis で Dataform の SQLX ファイルを簡単リファクタリング！
dataform-osmosis で Dataform の SQLX ファイルを簡単リファクタリング！ Dataform Osmosis とは？ dataform-osmosis は、Dataform で管理する SQLX ファイルを効率的に整理・整備するための CLI ツールです。このツールを使うことで、BigQuery のテーブル構造と SQLX ファイルの整合性を保ちながら、リファクタリングやメンテナンスを簡単に行うことができます。 Dataform 界隈では、dbt-osmosis のような便利なエコシステムがまだ整っておらず、Dataform ユーザーが効率的に SQLX ファイルを管理できるツールが不足しています。そこで、必要なツールがなければ作るしかないと考え、dataform-osmosis を開発しました。 Dataform のお世話になっている自分が、何か恩返しとして貢
sh19910711 2025/02/23
"dataform-osmosis: Dataform で管理する SQLX ファイルを効率的に整理・整備するための CLI ツール + テーブル構造と SQLX ファイルの整合性を保ちながら、リファクタリングやメンテナンスを簡単に行う" '24

*data

dwh

workflow

gcloud
リンク
触ってわかるデータレイクハウス（Parquet, Iceberg, Trino）
この記事は毎週必ず記事がでるテックブログ Loglass Tech Blog Sprint の79週目の記事です！ 2年間連続達成まで残り27週となりました！昨今、データエンジニアリングの重要性が高まるなか、データレイクハウスという言葉を聞く機会が増えてきました。一方で、BI、DWH、データレイクといった分野は、色のついた商用製品であったり大規模な技術スタックになったりと気軽に触りにくい印象があったりもして個人的に最近はあまり触れてこなかった分野でした(15年程前はだいぶBI製品にお世話になりましたが)。でも、実はかじってみると美味しい、単なる食わず嫌いだったかもしれません。この記事では前半にデータレイクハウスを概観しつつ後半に軽くハンズオンしてみたいと思います。チョイスは、最も使われるフォーマットである Apache Parquet 、S3 Tables の元となっている Apach
sh19910711 2025/02/23
"テーブルフォーマットは、オブジェクトストレージ上の複数のファイルを仮想的にテーブルとして扱い、いわゆるACIDトランザクションやスナップショット管理、スキーマの変更管理、パーティショニングなどをサポート"

*data

datalake

dwh
リンク
Google Cloud Dataplex を使ったデータ品質の向上
この記事では Google Cloud Dataplex の自動データ品質（Auto Data Quality）機能を使ったデータ品質向上の取り組みについてご紹介します。
sh19910711 2025/02/23
"Cloud Dataplex の自動データ品質（Auto Data Quality）機能を使ったデータ品質向上の取り組み / データが満たすべきルールを宣言的な形で記録できるのは大きな利点 / それぞれのカラムが満たすべき要求を把握することが簡単"

*data

*infra

dwh

gcloud
リンク
BigQueryストレージのライフサイクルと課金モデルという視点から費用の計算方法を整理する - ZOZO TECH BLOG
こんにちは。千葉県の特産品として真っ先に思い浮かぶものがヨウ素*1な、データシステム部データ基盤ブロックの塩崎です。この記事ではBigQueryストレージの費用を計算する方法と、費用を節約するための戦略について説明します。BigQueryストレージの費用計算をするために、まずストレージを2軸・8種類に分類し、それぞれの軸の視点から費用節約をする方法を紹介します。特にTime travel機能やFail-safe機能が関わると計算ミスをしやすくなるため、それらについても説明します。ストレージの分類最初にBigQueryストレージを分類するための2つの軸を説明します。1つ目の軸はライフサイクルで、これはテーブルの更新・変更・削除等の操作によって変化するものです。2つ目の軸は課金モデルで、これは非圧縮状態のデータ量で費用を計算するか圧縮済み状態のデータ量で費用を計算するかを決めるものです。
sh19910711 2025/02/20
"課金モデルはあくまで費用計算の時にのみ影響を与えるという点に注意が必要です。どちらの課金モデルを選んだとしても、実際には圧縮状態でデータが保存 / 圧縮・非圧縮によるパフォーマンスの差異は発生しません"

*data

dwh

gcloud

performance
リンク
Table schema evolutionを使った Snowflake テーブルへのカラムの自動追加
本記事の背景本記事では、データソースから S3 上に JSON ファイルが抽出される環境において、 COPY コマンドを使って Snowflake 上のテーブルにロードする際に、データソース側のカラム追加を自動的に対応する機能として、 Table schema evolution を紹介します。検討に至った背景としては、カラム追加に対応する際のコミュニケーションコスト低減があげられます。カラム追加の作業自体は単純ですが、適切に新規カラムをターゲットのテーブルに取り込むためには、データソース側とターゲットテーブル側でスキーマを一致する必要があり、変更前に両者でスキーマを合わせる作業が非常にコミュニケーションコストが高いため、自動的に対応する方法はないかという意見があがり、調査するに至りました。 Table schema evolution 機能の概要以下に Table schema
sh19910711 2024/10/27
"適切に新規カラムをターゲットのテーブルに取り込むためには、データソース側とターゲットテーブル側でスキーマを一致する必要 / スキーマを合わせる作業が非常にコミュニケーションコストが高い"

*data

*service

dwh
リンク
BigQuery へのアクセスを IAM Conditions とタグで制御する方法のまとめ | DevelopersIO
Google Cloud データエンジニアのはんざわです。過去のブログで BigQuery のデータセットへのアクセスをタグで制御する方法を紹介しました。本ブログでは、過去のブログで紹介しきれなかった内容をまとめて紹介したいと思います。具体的には、タグでアクセスを制御する関数の紹介やアクセス制御の挙動の確認、ユースケースについて触れていきます。また、前回のブログを投稿した時は、タグを使用した BigQuery のテーブルへのアクセス制限の機能はプレビューでしたが、2024年6月27日に正式に GA になっています。本機能も併せて紹介したいと思います。 June 27, 2024 You can now use tags on BigQuery tables to conditionally grant or deny access with Identity and Access
sh19910711 2024/10/27
"タグを使用した BigQuery のテーブルへのアクセス制限の機能はプレビューでしたが、2024年6月27日に正式に GA / タグとタグに関する権限を管理する必要が出てくる"

*infra

*security

*data

dwh

gcloud
リンク
BigQueryのPipe syntax（パイプ構文）を使ってみた - G-gen Tech Blog
G-gen の山崎です。2024年10月に利用可能になった、BigQuery の Pipe syntax（パイプ構文）の概要と使い方を紹介します。概要はじめにパイプ構文とは従来 SQL の課題データ処理の順番と記述の順番が一致していないサブクエリによるコードのネスト化冗長な構文パイプ構文のメリット柔軟性の向上可読性の向上デバッグ効率の向上従来の SQL とパイプ構文の比較サンプルデータデータの取得要件従来の SQL の場合パイプ構文の場合パイプ構文によるクエリ全文 employee_master テーブルを取得東京拠点のみのレコードでフィルタ sales テーブルと結合 2024年4月1日以降のレコードでフィルタ従業員の単位で売上を集約売上高合計が10,000の従業員でフィルタ売上高合計で降順にソート上位2位のデータのみにフィルタ概要はじめに
sh19910711 2024/10/27
"データの流れに沿ってコードを記述できるのが特徴であり、後述する従来の SQL の課題に対応したもの / パイプ構文では句の順序に縛りがないため、SQL の記述に柔軟性"

*data

dwh

gcloud
リンク
BigQuery テーブルデータを Cloud Spanner にリバース ETL してみた。 | DevelopersIO
こんにちは、みかみです。先日、人生で初めて野生のハブに遭遇しました。 10mくらい先の道の真ん中にいたのを見ただけですが、遠目からでも認識できるハブ柄だったので、怖いので引き返しました。やりたいこと BigQuery テーブルデータを直接 Cloud Spanner に取り込みたい特に大規模なシステムにおいて、RDB に格納したトランザクションデータを DWH で集計して、その結果を RDB に戻して API などで参照するユースケースもあるのではないかと思います。 Google Cloud 環境であれば、Spanner データを参照する外部テーブルを作成しておけば、BigQuery から直接 Spanner データを参照できます。 Spanner 連携クエリ｜ BigQuery ドキュメントまた、SQL 1本で BigQuery データを直接 Spanner に連携できるような
sh19910711 2024/10/27
"EXPORT DATA を使って、同様に Bigtable にも BigQuery テーブルデータをエクスポートできる / Spanner へのデータエクスポートは 2024/10 現在まだプレビュー / Enterprise または Enterprise Plus エディションでのみサポート"

*data

dwh

rdb

gcloud
リンク
SnowflakeにCOPY INTOでバルクロードする際のポイント #ベッテク月間 - LayerX エンジニアブログ
Amazon S3 / Google Cloud Storage にある大量・巨大なファイルを COPY INTO で Snowflake へデータロードする際に押さえておくべきポイントを備忘録的に記しておきます。前提となるデータロード以下のようなユースケースにおけるCOPY INTO の利用を想定しています。 Snowpipe で取り込むテーブルの過去データのロード単一テーブルで replace (洗い替え) を行う巨大なテーブルのバルクロード引用: https://docs.snowflake.com/ja/user-guide/data-load-s3 ロードするファイル形式は CSV が最も速く、次点で Parquet, ORC こちらのコミュニティの記事が非常に参考になります。 https://community.snowflake.com/s/article/How-t
sh19910711 2024/10/20
"ロードするファイル形式は CSV が最も速く、次点で Parquet, ORC / 変換するよりはそのまま JSON で取り込んだほうが楽 / ロードするファイル数/サイズに応じて Warehouse のサイズを変更"

*data

*service

dwh

performance
リンク
Gemini in Looker の会話分析を利用してみた
はじめに GMO NIKKOのK.A.です。先日、プレビュー版が公開された「Gemini in Looker」の「会話分析（Conversational Analytics）機能」を実際に使って試してみる機会がありましたので、その利用方法と使用感についてレビューさせて頂きます。 Chat with your business data – Conversational Analytics comes to Gemini in Looker September 17, 2024 Gemini in Looker とは Gemini in Lookerは、Gemini for Google Cloud ポートフォリオのプロダクトで、生成 AI による支援を受けながらデータの処理を行うことができます。 ※参考：Gemini in Looker の概要 Gemini in Looker は L
sh19910711 2024/10/19
"Gemini in Looker は Looker Studio に組み込まれており、利用するためには、Looker Studio Proのサブスクリプションが必要 / ユーザー 1 人あたりの月額料金 9 ドル"

*data

*program

prompt

dwh

gcloud
リンク
Amazon Redshift Data APIのセッション再利用機能を試す！ | DevelopersIO
AWS事業本部コンサルティング部の石川です。Amazon Redshift Data APIに新たに導入されたセッション再利用機能が利用可能になりました。本記事では、セッション再利用機能と実際に動作を確認しながら解説します。 Amazon Redshift Data APIとは Amazon Redshift Data APIは、Amazon Redshiftに対してSQLクエリを実行するためのAPIサービスです。Amazon Redshift Data APIは、AWSが提供するAPIエンドポイントに接続してクエリを送信するため、データベースドライバーの管理や複雑な接続設定が不要となり、開発者やアナリストの作業が効率化されます。また、非同期処理のサポートや、IAM認証によるセキュリティ強化、VPC外からのアクセス可能性など、柔軟性と安全性を両立させています。セッション再利用機能とは D
sh19910711 2024/10/18
"変数や一時テーブルなどのセッションコンテキスト上のオブジェクトを一度作成し、複数のクエリで再利用できる / パラメータを使用することで、クエリ終了後にセッションを保持する時間を秒単位で指定"

*data

*infra

dwh

aws
リンク
GoogleSQL の pipe syntax と Spanner Graph GQL を比較する
この記事では BigQuery に追加された pipe syntax そのものについては他の記事に任せて pipe syntax と Cloud Spanner に追加された GQL の対応関係について書きます。 pipe syntax についてより知りたい人はここからリンクされている Google Cloud 公式のドキュメントや論文や Medium などのコミュニティの記事を読むと良いかもしれません。導入 BigQuery に追加された pipe syntax 2024年10月8日付のリリースノートで BigQuery の pipe syntax の Preview が発表されました。 You can now use pipe syntax anywhere you write Google SQL. Pipe syntax supports a linear query struct
sh19910711 2024/10/18
"Cloud Spanner に Spanner Graph の一部として、グラフ処理言語の ISO GQL が Public Preview で追加 / Spanner Edition の Enterprise 以上で利用可能 / GRAPH_TABLE operator: SQL の FROM や JOIN の対象として GQL をテーブル式として埋め込む"

*data

dwh

gcloud

rdb
リンク
[論文] SIGMOD/PODS 2024「Intelligent Scaling in Amazon Redshift」 | DevelopersIO
[論文] SIGMOD/PODS 2024「Intelligent Scaling in Amazon Redshift」 AWS事業本部コンサルティング部の石川です。昨年のre:Invent2023 で発表された Amazon Redshift ServerlessでAIによるスケーリングと最適化の機能（プレビュー）が発表されました！について、データベース研究分野における最も重要な国際会議の1つである SIGMOD/PODS 2024 で、論文が発表されました。当時、「Redshift Serverlessって既に最適化機能はあるはず！」と、違いがわからなかったのですが、この論文を読むことではっきりと違いがわかりました。まだプレビュー中の機能ですが、論文をベースに解説します。 SIGMOD’24について、Ippokratis PandisさんもXに投稿しています！ Intelligen
sh19910711 2024/10/13
"Redshift: 2023年に新たなAI駆動の最適化技術 RAIS をプレビュー / 垂直・水平両方のスケーリングを可能にし、大規模なクエリに対して動的にコンピューティングリソースを提供 / 平均クエリ実行時間を最大14.2倍改善"

*data

dwh

aws

performance
リンク
[論文] SIGMOD/PODS 2024「Amazon Redshift における自動化された多次元データレイアウト」 | DevelopersIO
AWS事業本部コンサルティング部の石川です。昨年のre:Invent2023 で発表されたクエリのパフォーマンスを最適化する多次元データレイアウトを発表 (プレビュー)について、データベース研究分野における最も重要な国際会議の1つである SIGMOD/PODS 2024 で、論文が発表されました。まだプレビュー中の新機能について論文をベースに解説します。 SIGMOD’24について、Ippokratis PandisさんもXに投稿しています！ Automated multidimensional data layouts in Amazon Redshift 分析データシステムでは、データのスキャンとフィルタリングのパフォーマンスを向上させるためにデータレイアウト技術が使用されています。この論文では、同じようなフィルター条件が頻繁に使用されるデータベース操作に対して既存の技術を上回る新し
sh19910711 2024/10/13
"従来のアプローチがカラムに基づいてテーブルをソートするのに対し、MDDLは述語の集合に基づいてソート / 従来のカラムベースのデータレイアウト技術と比較して、最大85%のワークロード実行時間の削減"

*data

dwh

aws

performance
リンク
Snowflake Data Clean Rooms の構築から実行までやってみたよ！
こんにちは、CCCMKホールディングスのタロウです。先日のSnowflake World Tour Tokyoでは弊社取締役の撫養がSMCCの白石執行役員と基調講演で企業間データシェアの事例を発表させていただきました。さて、データシェアについては皆様も既にご利用進めているかと思いますが、よりセキュアに、さらにプライバシーに配慮し、さらにビジネスに活用出来るために事業に先駆けて準備をしておこうと個人的にクリーンルームを色々試しておりました。そんな中、今年の5月にこのニュースが出たので、これは試さねばとSnowflakeの菅野さんに色々教わりながら実施したハンズオンを元に色々試しているとさらにアップデートのニュースが！ Samoohaの買収とネイティブ機能としての提供 9月26日の大型アップデート・Branded clean room tiles（ロゴと企業名など設定できる！）・
sh19910711 2024/10/12
"DCR: オンデマンドやトライアルは利用不可 + プロバイダは、Enterprise 以上のエディション + コンシューマ（データ利用者側）は、Standard以上 / プロダクト部門や外部提携部門とのビジネス活用の提案など色々使えそう"

*data

*service

dwh

活用
リンク
Amazon Redshift 新しい最小インスタンス ra3.large がリリースされました！ | DevelopersIO
AWS事業本部コンサルティング部の石川です。本日、Amazon Redshift 新しい最小インスタンス ra3.large インスタンスがリリースされました。本日から東京リージョンで利用可能です。 ra3.large インスタンスとは Amazon Redshift Provisionedの ra3.large インスタンスは、ストレージとコンピューティングが分離され、個別の支払い、データ共有、同時実行スケーリングの書き込み操作サポート、Zero-ETL、Multi AZ など、Redshift Managed Storage (RMS) のすべてのイノベーションを提供します。 ra3.large を起動する東京リージョンですでに利用可能になっていますので、ra3.largeインスタンスを指定して起動します。実際に立ててみると、サンプルデータのロードを含めても3分程度でした。また、r
sh19910711 2024/10/11
"Redshift: ra3.large インスタンスがリリース + 東京リージョンで利用可能 / スペックによると、2 vCPU と 16 GiB のメモリ / シングルノードクラスタとマルチノードクラスタともに、最大ストレージ容量はノード数に応じて1TB"

*data

dwh

aws
リンク
BigQuery JSON型によりログの効率化は可能か？ | MoT Lab (GO Inc. Engineering Blog)
AI 技術開発部の老木です。今回、分析ログの増大が課題となりJSON型の導入を検討しました。分析ログをJSON化した際に問題となる配列の扱いについて紹介します。適当に作ったログがでかすぎる。ログを出力・分析する人間によくある悩みではないでしょうか。そこで、大きすぎるログの容量削減にBigQueryのJSON型が利用できないかを検討しました。課題弊社では分析ログとしてJSONを格納した文字列を出力してきました。分析ログはスキーマの変化が激しく、そのたびにテーブルのスキーマ変更をする手間を避けるためです。例えば、配車ロジックのログでは、以下のようなフォーマットのログが出力されます。これは、リクエストと車両をマッチングする際に、そのリクエスト情報と周辺にいた車両情報を含んでいます。このリクエスト情報が増えたり、車両情報が増えたり減ったりといったスキーマ変更が生じます。 { "matching
sh19910711 2024/10/11
"適当に作ったログがでかすぎる / JSON型にデータ型を変更 > 最近の料金プランではストレージ容量は物理容量で課金されるため、ストレージ料金が1/7程度に低下" '23

*data

*infra

dwh

gcloud
リンク
dbt+GCPで実現するPII管理と�一時権限付与の実装
https://www.meetup.com/ja-JP/tokyo-dbt-meetup/events/301497854/?isFirstPublish=true こちらのdbt tokyo meetup #9の登壇資料です
sh19910711 2024/10/11
"DLPテンプレート: 150個のデフォルトの検出項目 / 起動ワードを設定できたり除外したい場合のルールなどをカスタム / DLP結果とポリシータグをBQテーブル化 + リスクが高くポリシータグが貼られていないカラム郡を一覧化"

*data

*security

dwh

gcloud

workflow
リンク
Amazon Redshift 用 Amazon Q 生成 SQL が一般提供開始したので試してみました！ | DevelopersIO
AWS事業本部コンサルティング部の石川です。昨年のre:Invent2023 で発表された Amazon Redshift 用 Amazon Q 生成 SQL が一般提供開始されました。東京リージョンでもサービス提供されましたので、実際に動作を確認しながら解説します。 Amazon Q generative SQL for Amazon Redshift とは Amazon Redshiftのクエリエディタ（Query Editor V2）からAmazon Qによって、ユーザーは自然言語でデータの問い合わせができるようになりました。この機能を使用すると、抽出したい情報を自然言語で表現するだけで、Amazon Qが適切なSQLクエリを自動生成します。これにより、クエリ作成の手間が大幅に軽減され、ユーザーの生産性が向上します。新機能の有効化 Amazon Q generative SQL f
sh19910711 2024/10/09
"re:Invent2023 で発表された Amazon Redshift 用 Amazon Q 生成 SQL が一般提供開始 + 東京リージョンでもサービス提供 / Redshiftのクエリエディタ（Query Editor V2）からAmazon Qによって、ユーザーは自然言語でデータの問い合わせができる"

*data

*program

prompt

dwh

aws
リンク
【Streamlit × Vertex AI】自然言語でBigQueryのデータをクエリするチャットアプリを作成してみた - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに今回は、Streamlitを使って、Vertex AIを利用したチャットアプリを作成する方法を紹介します。このアプリでは、自然言語での質問に対してGeminiがSQLクエリを生成し、BigQueryに対してデータベース操作を行ってくれます。また、取得した結果に対してGeminiがデータの傾向などの考察も行ってくれるため、ユーザーはSQLクエリを記述しなくても、自然言語でチャット画面からデータ分析をインタラクティブに進めることができるようになります。本記事では、今回使用するStreamlitやVertex AIなどの技術に触れ
sh19910711 2024/10/09
"自然言語入力をSQLクエリに変換し、BigQuery上のデータにアクセス / Streamlitを使って手軽にWebインターフェースを構築し、Vertex AIを活用して自然言語の質問に応答する"

*data

*program

prompt

dwh

gcloud
リンク
1 2 3 4 5 6 7 8 9 10 次のページ