並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 39 件 / 39件

新着順 人気順

parquetの検索結果1 - 39 件 / 39件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

parquetに関するエントリは39件あります。 webtechpython などが関連タグです。 人気エントリには 『Parquetフォーマット概観 - 発明のための再発明』などがあります。
  • Parquetフォーマット概観 - 発明のための再発明

    Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に

      Parquetフォーマット概観 - 発明のための再発明
    • [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO

      [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! データアナリティクス事業本部コンサルティングチームの石川です。先日、Amazon Athenaが、UNLOADコマンドをサポートしました。SELECTクエリの結果をCSV、Parquet、Avro、ORC、JSONフォーマットでS3出力できるようになりました。本日は、UNLOADコマンドを実際に試してみます。 UNLOADコマンド UNLOADコマンドの構文は、以下のとおりです。 UNLOAD (SELECT col_name[, ...] FROM old_table) TO 's3://my_athena_data_location/my_folder/' WITH ( property_name = 'expression' [, ...] )

        [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO
      • ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ - AUTOMATON

        国内の美少女ゲームメーカーゆずソフトは7月30日、全年齢ブランド「ゆずソフトSOUR」および同ブランドのデビュー作『PARQUET(パルケ)』を発表した。対応プラットフォームはPC(Steam/DMM GAMES/DL Site)/iOS/Androidで、価格は2500円。DMM GAMESおよびDL Siteでは7月31日0時から配信開始予定。また、PC(Steam)/iOS/Android版は8月27日から配信される見通しだ。 『PARQUET』は、ゆずソフトSOURが手がける全年齢向け美少女ノベルゲームである。本作の舞台は、BMI(Brain-machine Interface)と呼ばれる、脳と機械を繋ぐ技術が存在する世界。BMIによって記憶のデータ化が可能となり、世界は発展を遂げたが、非合法な実験もおこなわれていた。主人公の伊吹カナトは、複数の人間の記憶を混ぜ合わせ、新たな人間を

          ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ - AUTOMATON
        • GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.

          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

            GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
          • CSV Files: Dethroning Parquet as the Ultimate Storage File Format — or Not?

            File Formats CSV Files Data is most commonly stored in human-readable file formats, like JSON or CSV files. These file formats are easy to operate on, since anyone with a text editor can simply open, alter, and understand them. For many years, CSV files have had a bad reputation for being slow and cumbersome to work with. In practice, if you want to operate on a CSV file using your favorite databa

              CSV Files: Dethroning Parquet as the Ultimate Storage File Format — or Not?
            • Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も

              Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も Amazon Web Services(AWS)は、データベースサービスとして提供しているAmazon RDSやAmazon Auroraのスナップショットを、Amazon S3にApache Parquetフォーマットで保存する機能が追加されたことを発表しました。 Parquetフォーマットは、もともとHadoop上で高速な分析を可能にする「Parquet」で用いられていたデータフォーマットです。 カラム型データベースではデータを列方向に格納することでデータの連続的な読み出し性能が高く、高速な分析が可能です(ただしトランザクション処理は遅いか、できないことが一般的です)。しかも列方向のデータは基本的にすべて同じ型であり、似たような値が並んでいる可能性も高いため、

                Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も
              • AWS S3 コスト削減を目的に CSV から Apache Parquet に乗り換えるための下調べ | TECHSCORE BLOG | TECHSCORE BLOG

                これは TECHSCORE Advent Calendar 2019 の7日目の記事です。 Amazon Simple Storage Service という名の通り、S3 は提供されているサービス内容は非常にシンプルなのですが利用時の用途が多岐にわたります。 利用用途が多岐にわたるという事は、注意して管理しないとカオスに陥る可能性があり、「一時的に置いているつもりだった」「そのうちに対応するつもりだった」という野良データがいつの間にか業務に組み込まれてしまい簡単に手が出せなくなる事態に発展する場合もあります。 私が普段利用している AWS アカウントの中で最も運用歴の長いものにも、何やらよろしくないデータが存在することが分かりました。 AWS を適切に利用出来ているかコストの面から調査をしている担当者から「S3 のストレージ利用量、勢いよく増加している理由は何?」と聞かれて即答できず、調

                • Docker のログを columnify で Athena (Presto) に特化した Parquet にする

                  先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね!そんなわけで、Docker のログを fluentd log dr

                    Docker のログを columnify で Athena (Presto) に特化した Parquet にする
                  • GitHub - kylebarron/parquet-wasm: Rust-based WebAssembly bindings to read and write Apache Parquet data

                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                      GitHub - kylebarron/parquet-wasm: Rust-based WebAssembly bindings to read and write Apache Parquet data
                    • VPCフローログをApache Parquet形式でS3に送信する場合の料金を勘違いしていたので調べ直した | DevelopersIO

                      こんにちは!コンサル部のinomaso(@inomasosan)です。 以前、以下のブログでAmazon VPCフローログをApache Parquet形式で保存した方がコストが安くなるというブログを書きました。その後、みなみからの指摘で間違っていることに気がついたので、再度調べ直しました。 最初にまとめ VPCフローログをS3に保管する料金はApache Parquet形式の方が高くなってしまう Athenaによるクエリの料金はApache Parquet形式の方が安く、クエリも高速になる VPCフローログをどのように運用するかで、ログファイル形式を決めたほうがよい VPCフローログのログファイル形式のおさらい 2023/2/13時点で、VPCフローログをS3に送信する場合、ログファイル形式はデフォルトでテキストとなっており、Apache Parquetに変更することが可能となっておりま

                        VPCフローログをApache Parquet形式でS3に送信する場合の料金を勘違いしていたので調べ直した | DevelopersIO
                      • Parquet: more than just "Turbo CSV"

                        Parquet is an efficient, binary file format for table data. Compared to csv, it is: Quicker to read Quicker to write Smaller On a real world 10 million row financial data table I just tested with pandas I found that Parquet is about 7.5 times quicker to read than csv, ~10 times quicker to write and a about a fifth of the size on disk. So way to think of Parquet is as "turbo csv" - like csv, just f

                          Parquet: more than just "Turbo CSV"
                        • Parquet形式とは

                          今回はデータ形式のParquetについて解説します。 Parquet形式とは Parquet形式は、大規模なデータファイルに使用されるフォーマットの一つであり、以下の構成要素を持ちます。 ファイルヘッダー ファイルがParquet形式であることを示す メタデータ データセットのスキーマ情報(カラム名、データ型など)、各列のデータ詳細(圧縮タイプ、エンコーディングなど)を示す。これによりデータへのアクセス方法が分かる データブロック(行グループ) データ本体。列方向に複数の行グループに分割されて保存されている。例えば1000行のデータであれば、5つの200行を内包する行グループに分けることができる。各行グループに対してメタデータが存在する データブロックの確認 具体的にデータ形式をイメージするために、データ本体の構造について見ていきましょう。 # 時間、周波数、振幅 #行グループ1 [[0.

                            Parquet形式とは
                          • Parquet and Postgres in the Data Lake | Crunchy Data Blog

                            Static Data is Different A couple weeks ago, I came across a blog from Retool on their experience migrating a 4TB database. They put in place some good procedures and managed a successful migration, but the whole experience was complicated by the size of the database. The size of the database was the result of a couple of very large "logging" tables: an edit log and an audit log. The thing about l

                              Parquet and Postgres in the Data Lake | Crunchy Data Blog
                            • 列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録

                              列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで8MByte程のファイルサイズで特定の1列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社(米国のソフトウェア会社)で

                                列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
                              • GitHub - lancedb/lance: Modern columnar data format for ML and LLMs implemented in Rust. Convert from parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, with more i

                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                  GitHub - lancedb/lance: Modern columnar data format for ML and LLMs implemented in Rust. Convert from parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, with more i
                                • Parquetの中身を簡単に表示できるGUIツール「ParquetViewer」の紹介 | DevelopersIO

                                  こんにちは!DA(データアナリティクス)事業本部 インテグレーション部の大高です。 最近、社内勉強会で「Parquetファイルの中身を確認するのにどんなツールを使っているか?」という話題が出ました。Windows限定となってしまいますが、個人的に利用している「ParquetViewer」が便利なので、紹介をしたいと思います。 ParquetViewerとは? .NETで作られている、GUIでParquetファイルの中身を表示できるツールです。GitHub上で公開されています。 実際の画面はこんな感じです。 ダウンロード ParquetViewerは以下のページからダウンロード可能です。 「ParquetFileViewer.exe」のリンクをクリックしてダウンロードすれば完了です。また、単一の実行ファイルになるのでインストールなどは不要です。 サンプルデータ 今回利用したサンプルデータは、

                                    Parquetの中身を簡単に表示できるGUIツール「ParquetViewer」の紹介 | DevelopersIO
                                  • Parquet

                                    Parquet と Delta Lakeオープンソースの Delta Lake プロジェクトは、Parquet 形式に基づいて構築され、さまざまな機能の追加により拡張されています。追加機能には、クラウドオブジェクトストレージの ACID トランザクション、タイムトラベル、スキーマの拡張、シンプルな DML コマンド(CREATE、UPDATE、INSERT、DELETE、MERGE)などがあります。Delta Lake は、順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実装しています。これにより、クラウドのオブジェクトストレージ上におけるデータウェアハウス機能が可能になります。詳細は、こちらの動画 Delta Lake 詳細編:トランザクションログをご覧ください。

                                      Parquet
                                    • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

                                      id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

                                        AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
                                      • PythonでParquetファイルを効果的に扱う方法 - Python転職初心者向けエンジニアリングブログ

                                        Parquetは、大規模なデータセットを効率的に格納・処理するためのファイル形式の一つです。特に、Apache Arrowの一部として知られており、データの圧縮率が高く、分散処理フレームワークとの親和性もあります。この記事では、Pythonを使用してParquetファイルを連携し、データの読み書きや処理方法について具体的なコードとともに詳しく解説します。 Parquetファイルの基本 Parquetファイルは、列指向でデータを格納することで高い圧縮率と高速な読み書きが可能です。以下はParquetファイルの基本的な特徴です。 列指向: 列ごとにデータを格納するため、特定の列を選択するクエリが高速に処理される。 スキーマ: スキーマが明示的に定義され、異なるデータ型を含むことができる。 圧縮: データは列ごとに圧縮され、ストレージ効率が向上する。 PythonでParquetファイルを操作す

                                          PythonでParquetファイルを効果的に扱う方法 - Python転職初心者向けエンジニアリングブログ
                                        • JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンドが便利。 - 全力で怠けたい

                                          はじめに 対応しているデータ形式 類似のツールとの比較 バージョン インストール方法 基本的な使い方 ファイルに対して SQL クエリを実行する 標準入力に対して SQL クエリを実行する クエリ結果を整形する 複数のファイルに対して SQL クエリを実行する 複数のファイルを JOIN する データ形式が異なるファイルを JOIN する 任意のデータ形式から JSON ヘの変換 オブジェクト内にネストしている配列に SQL クエリを実行する ネストしているオブジェクトから値を取得する ネストしている配列から値を取得する 正規表現のサポート その他 カラムの出力順 スキーマの推測 入力ファイルのキャッシュ REPL CSV と TSV ファイル内の数値の変換 参考サイト JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンド

                                            JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンドが便利。 - 全力で怠けたい
                                          • GCS の Parquet データを BigQuery から参照してみた ~ Parquet データのロードと外部テーブルによる参照~ | DevelopersIO

                                            GCS の Parquet データを BigQuery から参照してみた ~ Parquet データのロードと外部テーブルによる参照~ こんにちは、みかみです。 やりたいこと GCS に配置した Parquet データを BigQuery で参照したい BigQuery に Parquet データをロードしたい BigQuery に Parquet データをロードする場合、意図通りのデータ型を自動検出してテーブル作成してくれるかどうか確認したい BigQuery に Parquet データをロードする場合の制限事項を知りたい パーティショニングされた Parquet データを BigQuery から参照するにはどうすればいいのか知りたい Parquet データを準備 以下のサイトで動作確認用の CSV データを作成しました。 TM - WebTools できたサンプルデータはこんな感じです

                                              GCS の Parquet データを BigQuery から参照してみた ~ Parquet データのロードと外部テーブルによる参照~ | DevelopersIO
                                            • Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS | Amazon Web Services

                                              AWS Big Data Blog Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS February 9, 2024: Amazon Kinesis Data Firehose has been renamed to Amazon Data Firehose. Read the AWS What’s New post to learn more. Most organizations generate data in real time and ever-increasing volumes. Data is captured from a variety of sources, such as transactional and reporting databases, application l

                                                Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS | Amazon Web Services
                                              • Parquetの中身を手軽に表示・確認するならコレを使おう! - Qiita

                                                $ Rscript -e 'arrow::open_dataset("data.parquet") |> head() |> as.data.frame()' mpg cyl disp hp drat wt qsec vs am gear carb 1 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 2 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 3 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 4 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 5 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 6 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 $ python -c 'import pola

                                                  Parquetの中身を手軽に表示・確認するならコレを使おう! - Qiita
                                                • RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です | DevelopersIO

                                                  RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です データ・アナリティクス事業本部の森脇です。 RedshiftのCOPYコマンドを使うと、S3からファイルをRedshiftにロードすることが可能です。 また、COPYコマンドオプションの「REGION」にてS3のリージョンを指定することで、S3とRedshiftのリージョンが異なる場合にもファイルをロードすることが可能です。 ただし、Parquetファイルはリージョンが異なる場合ロードできません。 実際に試してみましょう。 OKパターン(同一リージョンでのCOPY) まずは同一リージョンでのCOPYを試します。 東京リージョン(ap-northeast-1)にRedshift, S3をそれぞれ作成します。 そして、S3バケットにデータファイルをアップロードします。 今回はcsv, par

                                                    RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です | DevelopersIO
                                                  • Load data incrementally and optimized Parquet writer with AWS Glue | Amazon Web Services

                                                    AWS Big Data Blog Load data incrementally and optimized Parquet writer with AWS Glue October 2022: This post was reviewed for accuracy. AWS Glue provides a serverless environment to prepare (extract and transform) and load large amounts of datasets from a variety of sources for analytics and data processing with Apache Spark ETL jobs. The first post of the series, Best practices to scale Apache Sp

                                                      Load data incrementally and optimized Parquet writer with AWS Glue | Amazon Web Services
                                                    • UchidaMizuki - CSVの代わりにParquetを使ってみよう

                                                      本記事では,CSVの代替として有望かつビッグデータ分析にも適しているParquetを紹介します. さて,データフレーム(Data Frames)は,データ分析において最も基本的なデータ構造の1つです.Rのtibble・dplyrやPythonのpandasなどのデータフレーム操作のためのパッケージを使えば,これまでExcelなどの表計算ソフトで行っていたデータ分析をさらに効率的に行うことができます. このようにデータ分析ツールが充実している一方で,データの保存にはExcelなどとの互換性が高いCSVが未だに広く使われています.しかし,CSVは,必ずしもデータ分析に適したファイル形式とは言えません.そこで,CSVの代替として使われることが多くなっているParquetをCSVと比較してみましょう. サンプルデータの準備 CSVとParquetを比較するため,まずは,データ分析にありがちなサンプ

                                                      • S3 Select でParquetの中身を簡単に確認する - 雲のメモ帳

                                                        Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。 S3にPaquetファイルを保管している場合は、S3 Select により簡単に中身が確認できるため、その手順を記載します。 手順 最後に 手順 1. S3バケットより、該当のParquetファイルを選択し、[S3 Select - Parquet] をクリックします。 ] 2. SQL エディタに [SQL] を記載し、[SQLの実行] をクリックします。 今回は、Parquetファイルから5件のデータを取り出します。 SQL の書き方は以下の公式ドキュメントを参考にしてください。 https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference.html https:

                                                          S3 Select でParquetの中身を簡単に確認する - 雲のメモ帳
                                                        • Glueでcsvファイルをparquet形式に変換してみた - Qiita

                                                          AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)

                                                            Glueでcsvファイルをparquet形式に変換してみた - Qiita
                                                          • Apache Arrow 鬼はええ! このままCSV全部Parquetに 変換していこうぜ!

                                                            Apache Arrow 鬼はええ! このままCSV全部Parquetに 変換していこうぜ! 2022-03-19 第97回R勉強会@東京 @eitsupi はじめに 自己紹介 @eitsupi 製造業勤務 Excelが嫌になりRを触り初めて3年 Dockerイメージrocker/r-ver他のメンテナー VSCode派 Remote-Containersばかり使っている このスライドでQuartoに挑戦 今日の話 数十分かけて読み込んでいたCSVファイル群をParquetに置換する際に調べたこと(数十秒~数分で読めるようになった) ArrowとParquetのことを少しでも知ってもらい、試すきっかけになれば……

                                                            • Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog

                                                              HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。 一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。 確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。 環境 リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,

                                                                Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
                                                              • Parquet+Petastormを使って画像分類モデルをSparkで学習させてみました! - CCCMKホールディングス TECH Labの Tech Blog

                                                                こんにちは、CCCMKホールディングス技術開発の三浦です。 最近寒い日が続いています。寒いと温かい飲み物が欲しくなりますが、近ごろは緑茶を飲むようになりました。お湯を入れたらすぐに飲むことが出来る粉末タイプのものもあって、気軽に楽しむことが出来ます。 今回の記事は分散処理フレームワークSpark周りについて調べた内容です。普段深層学習モデルの分散学習をDatabricksを通じ、Sparkクラスタで行っています。その中で最近少し引っかかっていたのが画像やテキストなどのモデル学習用データを読み取る処理がボトルネックになっている点でした。この部分をどう改善すれば良いのかなかなか分かりませんでした。 今のデータの入力処理は特にSparkの特徴を活かしきれているとは言えず、TensorFlowやPyTorchのDataLoaderを通じて都度画像ファイルやテキストファイルを読み込んでモデルに入力さ

                                                                  Parquet+Petastormを使って画像分類モデルをSparkで学習させてみました! - CCCMKホールディングス TECH Labの Tech Blog
                                                                • Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 | DevelopersIO

                                                                  Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 書籍『AWSで始めるデータレイク』を使った読書会を現在部内で開催しているのは以前書評エントリを公開した際にも言及しましたが、読書会自体1回1時間枠でここまで計6回実践してきて進んだのが第1章の終わりまで...という状況です。記録的には『めっちゃ進み遅いw』というところですが、これはむしろ『語りたい部分が多く、また予想以上に盛り上がっているために中々トピックを消化しきれていない』というのが実情です。モヤモヤしていた部分が解消されたり、新たな視点や知見が共有される事が多く、催しとしても非常に意義のあるものになっています。 先日も『Parquetファイルの内容を確認する際、皆さんどういったツールとかを使っていますか?』という問い掛けに対し、有識者から『parquet-t

                                                                    Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 | DevelopersIO
                                                                  • Amazon AthenaでPartitionしたParquetファイルを読み込む

                                                                    yyyyとmmはcreated_atから作ったパーティション用のカラムです。保存するときとAthenaでCREATE TABLEする時に使います(*1)。 作成したデータをS3に保存します。 この時、amazon wranglerを使って、parquetかつパーティションを指定して保存します(*2)。 実行すると、Hive形式で保存されます(*3)。 詳しくは公式ドキュメントを確認してください。 import awswrangler as wr wr.s3.to_parquet( df=df, #保存したいDataFrame path='s3://{bucket_name}/{prefix}', #ご自身の環境に合わせてパス指定してください dataset=True, partition_cols=['year', 'month'] #パーティションするカラムを指定。複数指定できます。 )

                                                                      Amazon AthenaでPartitionしたParquetファイルを読み込む
                                                                    • マネーフォワードのCSVをParquetに変換する - Lambdaカクテル

                                                                      いろいろと分析したいので、マネーフォワードでエクスポートできるCSVファイルをSparkを使ってParquetに変換したメモ。 マネーフォワード 特に今更説明する必要もないが、マネーフォワードはオンラインで動作する家計簿サービス。カードと連携したり、勝手に科目を付けてくれたりするのでとても便利だ。自分はプレミアム会員でエンジョイしている。 自分はSBIネット銀行なので、それ専用のマネーフォワードを使っている。 ssnb.x.moneyforward.com プレミアム会員になると、マネーフォワードは特定の月の家計簿をCSV/Excel形式でエクスポートできる。これを使って、あとでGrafanaとかKibanaで眺めてみようというのが最終的な目標。今回はParquetに変換するだけ。 CSVは以下のようなフォーマットになっている: "計算対象","日付","内容","金額(円)","保有金融

                                                                        マネーフォワードのCSVをParquetに変換する - Lambdaカクテル
                                                                      • parquet-cli で Parquet ファイルを読む - kakakakakku blog

                                                                        Parquet ファイルをサクッと読むときに parquet コマンドを使うと便利❗️ Homebrew なら brew install parquet-cli コマンドで簡単にセットアップできる.今回は最新 v1.12.3 を使う.そして parquet コマンドの実装は GitHub の apache/parquet-mr リポジトリにある.parquet help コマンドの出力だと引数まで細かく把握できず,実装を確認する必要がある.実装は parquet-cli/src/main/java/org/apache/parquet/cli/commands/ ディレクトリにある. $ brew install parquet-cli $ brew info parquet-cli ==> parquet-cli: stable 1.12.3 (bottled), HEAD github

                                                                          parquet-cli で Parquet ファイルを読む - kakakakakku blog
                                                                        • Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET

                                                                          GCPのCloud Dataflowでも使われている、Apache BeamでJavaの内部で持っているデータをParquetに出力するやり方です。 サンプルコードの構成 元にしたMaven ArcheType 利用するPOJO GenericRecordへの変換 出力先の切り替え ローカルに出力してみる GCSに出力してみる AWS S3に出力してみる サンプルコードの構成 以下のリポジトリに今回書いているコードを置いておきました。 github.com こちらで補足書いておきます。 元にしたMaven ArcheType こちらのMaven ArcheType元に作成しています。バージョンは現在の最新の2.22.0を利用しています。 mvnrepository.com 利用するPOJO 以下の構造のデータをParquetに変換してみます。 static class PC { Strin

                                                                            Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET
                                                                          • RubyでもParquetファイルがつくりたい - Qiita

                                                                            背景 Pythonの pandas や DataFrame.to_parquet が優秀すぎて「parquetファイルを扱うならPython」という風潮ですが、 https://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.DataFrame.to_parquet.html#pandas.DataFrame.to_parquet Rubyでも簡単につくれることが判明したので、共有しておきます。 やり方 apacheの公式gemを使えばいける。 (≠red-arrowなので注意) https://github.com/apache/arrow/tree/master/ruby/red-parquet 検証 ファイル作成 gemインストール

                                                                              RubyでもParquetファイルがつくりたい - Qiita
                                                                            • データを段階的に読み込み、AWS Glue で最適化された Parquet ライター | Amazon Web Services

                                                                              Amazon Web Services ブログ データを段階的に読み込み、AWS Glue で最適化された Parquet ライター  AWS Glue では、Apache Spark ETL ジョブによる分析およびデータ処理のために、さまざまなソースから大規模なデータセットを準備 (抽出および変換) およびロードするためのサーバーレス環境がご利用いただけます。シリーズの最初の記事である「AWS Glue を使った Apache Spark ジョブのスケーリングとデータパーティショニングのベストプラクティス」では、Apache Spark アプリケーションや Glue ETL ジョブの開発者、ビッグデータアーキテクト、データエンジニア、ビジネスアナリストが、AWS Glue で実行するデータ処理ジョブを自動的にスケーリングするのに役立つベストプラクティスをご紹介しました。 この記事では、

                                                                                データを段階的に読み込み、AWS Glue で最適化された Parquet ライター | Amazon Web Services
                                                                              • PyArrowとParquet - Atsuo Ishimoto's blog

                                                                                さて、ビッグデータ全盛の昨今、数ギガバイト程度のデータのやり取りは珍しくもなんともない時代になりました。交換用データファイルのフォーマットもいろいろな形式が使われていますが、ここではPythonで一般的に使われているファイル形式を簡単に検討してみましょう。 CSV¶昔から、単純な表形式のデータにはCSVが使われてきました。Microsoft Excelをはじめとしてさまざまなツールでサポートされており、幅広い環境で利用できます。 データの作成¶例として10万行・100カラムのデータを作成し、CSV形式で保存してみましょう。インデックスとして、datetime型の値を指定してます。 %pip install pandas pyarrow numpy tqdm dask graphviz import sys import numpy as np import pandas as pd pd.

                                                                                  PyArrowとParquet - Atsuo Ishimoto's blog
                                                                                1

                                                                                新着記事