Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
PostgreSQLアーキテクチャ入門




 アップタイム・テクノロジーズ合同会社

                      永安 悟史

                      2012.2.24


  Copyright 2012 Uptime Technologies LLC, All rights reserved.   1
自己紹介
•   氏名
    –   永安 悟史 (ながやす さとし)

•   略歴
    –   2004/4-2007/9 (3年6ヵ月)
          • 株式会社NTTデータ入社。
          • PostgreSQLによる並列分散RDBMSの研究開発。
          • SIプロジェクトの技術支援、並列分散PostgreSQLミドルウェアの製品サポートおよび保守。
    –   2007/10-2008/9 (1年)
          • データセンタ企画部門にて、次世代ITプラットフォームサービスの企画・開発。
    –   2008/10-2009/10 (1年1ヵ月)
          • データセンタ運用部門にて、OSS系システムの基盤保守・運用、および運用チームの統括。
          • 株式会社NTTデータ退職。
    –   2009/11-
          • アップタイム・テクノロジーズ創業(共同創業者兼CEO)。

•   専門分野
    –   データベースシステム、並列分散システム、クラスタシステム
    –   オープンソース・インフラ技術
    –   ITサービスマネジメント(ITIL)、ITインフラ運用管理(運用設計~運用)

•   執筆等
    –   翔泳社「PostgreSQL徹底入門 ~ 8対応」(共著)
    –   技術評論社「PostgreSQL安定運用のコツ」(WEB+DB PRESS vol.32~37連載)、他

                     Copyright 2012 Uptime Technologies LLC, All rights reserved.   2
本セッションのねらい
•   PostgreSQL でシステムを構築して実運用をするためには、データベース管理者
    (DBA)として ある程度内部構造を理解しておく必要があります。

•   本講演では、開発や運用において必要とされる技術的知識について、
    PostgreSQL の基本的な仕組みからバックアップ&リカバリ、レプリケーションま
    で、 PostgreSQL の動作原理を俯瞰して解説を行います。

•   主に PostgreSQL中級者向けの内容です。

•   特に以下のような方にオススメです。
    –   データベースの特に運用管理・パフォーマンス管理に詳しくなりたい方。
    –   コンピュータアーキテクチャに詳しくなりたい方。
    –   コンピュータエンジニアリングの基礎を知りたい方。
    –   他のRDBMSを利用していて、PostgreSQLについて知りたい方。




                Copyright 2012 Uptime Technologies LLC, All rights reserved.   3
PostgreSQLアーキテクチャ入門
                        アジェンダ
•   アーキテクチャ概要                                           •       パフォーマンス管理
    –   PostgreSQLの構成要素                                         –      パフォーマンスは何で決まるか?
    –   PostgreSQLの基本構造                                         –      パフォーマンス改善の基本手順
    –   メモリ(共有バッファ)                                             –      全体の傾向を可視化する
    –   トランザクションログ(WAL)                                         –      SQLパフォーマンス分析
    –   テーブルファイル
    –   インデックス(B-Tree)ファイル                              •       バックアップ・リカバリ
    –   発生する3種類のI/O                                             –      バックアップとレストア/リカバリ
                                                                –      コールドバックアップ
•   クエリの処理                                                      –      ホットバックアップ(pg_dump/pg_restore)
    –   SQL文の処理される流れ                                            –      PITRを用いたバックアップ
    –   クエリとクエリプラン                                              –      PITRを用いたリカバリ
    –   クエリプランの確認方法
    –   データアクセスのパターン                                    •       冗長化
    –   テーブルスキャン                                                –      冗長化方式の選定
    –   インデックスアクセス
    –   結合                                              •       参考文献

•   I/O処理詳細
    –   テーブルに対する更新処理
    –   テーブルに対する参照処理
                                                                     ※本資料の最新版は以下に掲載されています。
    –   VACUUM処理                                                      http://www.uptime.jp/
                                                                      (ホーム→リソース→技術情報)

                     Copyright 2012 Uptime Technologies LLC, All rights reserved.                      4
(1)アーキテクチャ概要




Copyright 2012 Uptime Technologies LLC, All rights reserved.   5
プロセス
$ ps -aef | grep postgres
postgres 22169     1 0 23:37 ?         00:00:00 /usr/pgsql-9.0/bin/postmaster -p 5432 -D
    /var/lib/pgsql/9.0/data
postgres 22179 22169 0 23:37 ?         00:00:00 postgres: logger process
postgres 22182 22169 0 23:37 ?         00:00:00 postgres: writer process
postgres 22183 22169 0 23:37 ?         00:00:00 postgres: wal writer process
postgres 22184 22169 0 23:37 ?         00:00:00 postgres: autovacuum launcher process
postgres 22185 22169 0 23:37 ?         00:00:00 postgres: archiver process   archiving
    00000001000000D60000004E
postgres 22187 22169 0 23:37 ?         00:00:00 postgres: stats collector process
postgres 23436 22169 16 23:42 ?        00:00:34 postgres: postgres pgbench [local] UPDATE
    waiting
postgres 23437 22169 16 23:42 ?        00:00:34 postgres: postgres pgbench [local] UPDATE
    waiting
postgres 23438 22169 16 23:42 ?        00:00:34 postgres: postgres pgbench [local] COMMIT
postgres 24283 22169 5 23:45 ?         00:00:02 postgres: postgres postgres [local] idle
postgres 24301 22169 0 23:45 ?         00:00:00 postgres: postgres postgres [local] idle
postgres 24581 22169 0 23:45 ?         00:00:00 postgres: autovacuum worker process
    pgbench
postgres 24527 22185 0 23:45 ?         00:00:00 cp pg_xlog/00000001000000D60000004E
    /var/lib/pgsql/9.0/backups/archlog/00000001000000D60000004E
$




                         Copyright 2012 Uptime Technologies LLC, All rights reserved.       6
データベースクラスタ
# ls -l
total 116
drwx------ 10 postgres postgres 4096 Dec 14 19:00 base
drwx------ 2 postgres postgres 4096 Jan 10 00:28 global
drwx------ 2 postgres postgres 4096 Dec 13 08:40 pg_clog
-rw------- 1 postgres postgres 3768 Dec 14 15:50 pg_hba.conf
-rw------- 1 postgres postgres 1636 Dec 4 13:47 pg_ident.conf
drwx------ 2 postgres postgres 4096 Jan 10 00:00 pg_log
drwx------ 4 postgres postgres 4096 Dec 4 13:47 pg_multixact
drwx------ 2 postgres postgres 4096 Jan 8 10:14 pg_notify
drwx------ 2 postgres postgres 4096 Jan 10 15:43 pg_stat_tmp
drwx------ 2 postgres postgres 4096 Dec 28 14:41 pg_subtrans
drwx------ 2 postgres postgres 4096 Dec 4 14:47 pg_tblspc
drwx------ 2 postgres postgres 4096 Dec 4 13:47 pg_twophase
-rw------- 1 postgres postgres     4 Dec 4 13:47 PG_VERSION
drwxr-xr-x 3 postgres postgres 4096 Jan 10 15:40 pg_xlog
-rw------- 1 postgres postgres 18015 Dec 14 15:50 postgresql.conf
-rw------- 1 postgres postgres 17952 Dec 14 15:05 postgresql.conf.orig
-rw------- 1 postgres postgres    71 Jan 8 10:14 postmaster.opts
-rw------- 1 postgres postgres    49 Jan 8 10:14 postmaster.pid
#

                         Copyright 2012 Uptime Technologies LLC, All rights reserved.   7
PostgreSQLの構成要素
   PostgreSQLは、さまざまなプロセス・メモリ領域・ファイルによって構
  成されている。


                                                     writer
           postgres          logger                                            wal writer    autovacuum
                                                  (バックグラウンド
        (リスナプロセス)          (サーバログ)                                            (WALライタ)      (自動vacuum)
                                                     ライタ)
プロセス群
           archiver stat collector postgres wal sender wal receiver
        (WALアーカイバ) (統計情報収集) (サーバプロセス) (レプリケーション) (レプリケーション)




          shared_buffers         wal_buffers             visibilitymap freespacemap トランザクション
メモリ群      (共有バッファ)              (WALバッファ)               (ブロック情報) (空き領域情報)             制御情報




ファイル群                            テーブル                 インデックス                トランザクション        アーカイブ
           設定ファイル
                                 ファイル                  ファイル                  ログファイル         ログファイル



                      Copyright 2012 Uptime Technologies LLC, All rights reserved.                    8
PostgreSQLの基本的なアーキテクチャ
 共有バッファを中心として、複数のプロセス間で連携しながら処理を
行うマルチプロセス構造。


                postgres
             (リスナプロセス)

                                                                                 (




                                                                                     shared_buffers
                                         postgres                                共
                                           postgres                              有
                                      (サーバプロセス)                                  バ
                                             postgres
                                       (サーバプロセス)
クライアント                                                                           ッ
                                        (サーバプロセス)                                フ
                                                                                 ァ
                                                                                 )
                                                       writer
                                                    (バックグラウンド
                                                       ライタ)
                               wal writer
                              (WALライタ)

                                                      テーブル
                                                      ファイル
                            トランザクション                                    インデックス
                             ログファイル                                      ファイル

         Copyright 2012 Uptime Technologies LLC, All rights reserved.                                 9
メモリ(共有バッファ)
 •    ディスク上のブロックをキャッシュするメモリ領域
       – ディスク上のブロックのうち、アクセスするものだけを読み込む
       – すべてのバックエンドプロセスで共有
 •    キャッシュすることで、ディスクI/Oを抑えて高速化
       – 更新の永続性はトランザクションログで担保する
       – メモリ上で変更されたブロックは、ライタプロセス(非同期)またはチェックポイ
         ント(同期)がテーブル/インデックスファイルに書き戻す

                                                                                                    writer
     postgres
                                           9 17 5 14
       postgres

      postgres                                 共有バッファ                                       1 2 3 4 5 6
                                                                                            7 8 9 10 11 12
バックエンド
                                                                                            13 14 15 16 17 18
                wal writer
                                                                                            19 ・・・・
                     トランザクション
                      ログファイル                                                   テーブル/インデックスファイル
                             Copyright 2012 Uptime Technologies LLC, All rights reserved.                       10
データファイルの配置
データベースクラスタ(PGDATA)領域

  システムカタログ(global)
                                                                     設定ファイル
              テーブルファイル
              テーブルファイル                                      (postgresql.conf, pg_hba.conf)
               テーブルファイル

              インデックスファイル
              インデックスファイル                                            その他制御ファイル等
               インデックスファイル

  デフォルトテーブルスペース(base)                                         トランザクションログ(pg_xlog)
       ユーザデータベース(OID)
        ユーザデータベース(OID)
         ユーザデータベース(OID)
           テーブルファイル
           テーブルファイル
            テーブルファイル

             インデックスファイル
             インデックスファイル
              インデックスファイル



     外部テーブルスペース
     外部テーブルスペース                                                        アーカイブログ領域
      テーブルスペース領域

       54.1. データベースファイルのレイアウト http://www.postgresql.jp/document/9.0/html/storage-file-layout.html
                 Copyright 2012 Uptime Technologies LLC, All rights reserved.                11
トランザクションログ(WAL)
•   テーブルやインデックスの更新情報が記録(追記)される
    –    共有バッファのデータを更新する「前」に記録(Write-ahead log)
    –    16MBずつのセグメント(ファイル)に分割されている。
    –    クラッシュリカバリの際に読み込まれる (pg_xlog/ 以下に配置)
    –    アーカイブされて、PITRのバックアップ/リカバリで使われる(アーカイブログ)

             WAL 1                                                         WAL 2

     Aテーブルのレコード1をmに変更
        Bテーブルのレコード6をnに変更
        Aテーブルのレコード4をxに変更
        Aテーブルのレコード1をyに変更
        Bテーブルのレコード2をzに変更


           ファイルの先頭から
           順番に更新情報が
            追記されていく




                       Copyright 2012 Uptime Technologies LLC, All rights reserved.   12
テーブルファイル
•   8kB単位のブロック単位で構成される
•   各ブロックの中に実データのレコード(タプル)を配置
    – 基本的に追記のみ
    – 削除したら削除マークを付加する(VACUUMで回収)
    – レコード更新時は「削除+追記」を行う。

                                                          DBT1=# SELECT * FROM
                                                          pgstattuple('customer');
                                                          -[ RECORD 1 ]------+-----------
       レコード1                                              table_len          | 1754857472
       レコード2                        ブロック1                 tuple_count        | 3456656
       レコード3
                                                          tuple_len          | 1703225491
       レコード4                                              tuple_percent      | 97.06
       レコード5                        ブロック2                 dead_tuple_count | 695
                                                          dead_tuple_len     | 350038
                                                          dead_tuple_percent | 0.02
                                                          free_space         | 31391624
                                    ブロック3
                                                          free_percent       | 1.79

                                                          DBT1=#

               Copyright 2012 Uptime Technologies LLC, All rights reserved.             13
インデックス(B-Tree)ファイル
•   8kB単位のブロック単位で構成される
•   ブロック(8kB単位)をノードとする論理的なツリー構造を持つ
    – ルート、インターナル、リーフの各ノードから構成
    – ルートノードから辿っていく
    – リーフノードは、インデックスのキーとレコードへのポインタを持つ
                                                                DBT1=# SELECT * FROM
          インデックスファイル                                            pgstatindex('customer_pkey');
                                                                -[ RECORD 1 ]------+----------
                                                                version            | 2
                    ルート                                         tree_level         | 2
                                                                index_size         | 108953600
                                                                root_block_no      | 217
            インターナル                                              internal_pages     | 66
                                                                leaf_pages         | 13233
                                                                empty_pages        | 0
                                                                deleted_pages      | 0
    1~5    6~10   11~17      18~25                              avg_leaf_density | 90.2
              リーフ                                               leaf_fragmentation | 0

                                                                DBT1=#
                    Copyright 2012 Uptime Technologies LLC, All rights reserved.             14
発生する3種類のI/O
•   例えば、主キーで検索して該当レコードを更新する場合
    –   プライマリーキーでインデックスエントリを探す
    –   インデックスのポインタを元に、テーブル内のレコードを探す
    –   テーブルレコードを更新する前にトランザクションログに記録する
    –   テーブルファイルを更新する


                                                                                物理ディスク
           テーブルファイル                        ②読む
            テーブルファイル
             テーブルファイル
                                     ④書く
                                                                                 ディスク
                                                                                 ヘッド
                                         ①読む
           インデックスファイル
            インデックスファイル
             インデックスファイル


                                             ③書く
            トランザクション
             ログファイル


                 Copyright 2012 Uptime Technologies LLC, All rights reserved.            15
(2)クエリの処理




Copyright 2012 Uptime Technologies LLC, All rights reserved.   16
SQL文の処理される流れ
    クエリ受信

                               •SQL構文の解析、文法エラーの検出
  構文解析(parse)                  •構文木(parse tree)の生成


                               •VIEW / RULE に基づいた構文木の書き換え
 書き換え(rewrite)



実行計画生成 / 最適化                   •最適なクエリプラン(実行計画)の生成
 (plan / optimize)             •統計情報などを用いて実行コストを最小化
                                (コストベース最適化)

                               •クエリプランに沿ったデータアクセス、抽出/結合/
   実行(execute)                 ソートなどの演算処理
                               •(更新時)トランザクションログ追記、共有バッファ更新

     結果送信
                 Copyright 2012 Uptime Technologies LLC, All rights reserved.   17
クエリプラン(実行計画)とは
•   どのテーブル、インデックスにどのようにアクセスするのか、という「アクセ
    スパス(経路)」の情報

•   テーブルやインデックスの統計情報を使って最適化される
    – よって、統計情報が正しいことが前提


•   商用RDBMSで実装されているヒント文はPostgreSQLには存在しない
    – DBAが手動で作るプランよりも、オプティマイザの生成するプランの方が賢い
    – ヒントを使わなければならないような状況なら、データベースやクエリの設計
      を見直すべき




             Copyright 2012 Uptime Technologies LLC, All rights reserved.   18
クエリとクエリプラン




                                                             ネステッドループ
                                                               ジョイン


テーブル
スキャン




                                                                        集約 count()


インデックス
 スキャン


         Copyright 2012 Uptime Technologies LLC, All rights reserved.                19
クエリプランの詳細




Copyright 2012 Uptime Technologies LLC, All rights reserved.   20
クエリプランの確認方法
•   EXPLAIN
    – 最適であると判断された「クエリプラン」を表示。
    – 入力されたSQL文を、PostgreSQLがどのように解釈して処理しようとしてい
      るのかを表示。

•   EXPLAIN ( ANALYZE )
    – 「クエリプラン」に加えて、「実行結果」を表示。
    – 実際に、どのアクセスにどの程度の時間がかかっているのか、何件のレコー
      ドを処理したのか、などを表示。

•   EXPLAIN ( ANALYZE, BUFFERS )
    – クエリプラン、実行結果に加えて、「バッファアクセス」を表示。

•   GUIツールで確認する方法(pgAdminIII)
    – 「クエリー解釈」=EXPLAIN
    – 「アナライズ解釈」=EXPLAIN ( ANALYZE )
                  Copyright 2012 Uptime Technologies LLC, All rights reserved.   21
データアクセスのパターン
• シーケンシャルアクセス
  – 全レコード、または多くのレコードを処理する必要がある場合
  – 集約処理、LIKE文の中間一致など
• ランダムアクセス
  – 特定のレコード(を含むブロック)だけにアクセスする必要がある場合
  – 主にインデックスを用いたアクセス




シーケンシャル                                                 ランダム
  アクセス                                                  アクセス

   ファイルの先頭から
   順番に読み込んでいく                                          必要なブロックだけ
                                                       ピンポイントで読み込む


            テーブルファイル                                                           テーブルファイル

                Copyright 2012 Uptime Technologies LLC, All rights reserved.          22
テーブルスキャン
SELECT count(*) FROM customer;
                                                                       Customer
                                                                     テーブルからの
                                                                      ブロック読込
                                                                      ×214,216




                                                                   Customer_pkey
                                                                    インデックスの
                                                                   ブロック読込×0




    Copyright 2012 Uptime Technologies LLC, All rights reserved.                   23
テーブルスキャン cont’d
• すべてのデータを確認する必要があるため、customerテー
  ブルファイルを構成するブロックを先頭から読み込む
 – よって、データが増えれば増えるほど時間がかかるようになる。
 – この例では、214,216 ブロック(約1.7GB)を読んでいる。


   Customer_pkeyインデックス                                                Customerテーブル

                                                                                  レコード1
          root                                                                    レコード2
                                                                                  レコード3

                                                                                  レコード4
                                                                                  レコード5




 1~5   6~10      11~17      18~25



                   Copyright 2012 Uptime Technologies LLC, All rights reserved.           24
インデックスアクセス
SELECT * FROM customer c WHERE c.c_id=7;
                                                                          Customer
                                                                        テーブルからの
                                                                        ブロック読込×1




                                                                        Customer_pkey
                                                                         インデックスの
                                                                        ブロック読込×3




         Copyright 2012 Uptime Technologies LLC, All rights reserved.                   25
インデックスアクセス cont’d
• “c_id=7” レコードの位置を探すため、customer_pkeyを辿っ
  てポインタを見つけ、レコードを含むテーブルファイルのブ
  ロックを読み込む。
  – この例では、customer_pkeyインデックスから3ブロック、customer
    テーブルから1ブロックを読んでいる。
  – レコードの量とディスクアクセス量が比例しない。
    Customer_pkeyインデックス                                               Customerテーブル

                                                                                  レコード1
           root                                                                   レコード2
                                                                                  レコード3

                                                                                  レコード4
                                                                                  レコード5




  1~5   6~10      11~17      18~25


                   Copyright 2012 Uptime Technologies LLC, All rights reserved.           26
結合(Nested Loop Join)
• SELECT count(*) FROM orders o, customer c
  WHERE o.o_c_id=c.c_id AND c.c_uname=‘UL’;
  – customer を c_uname=‘UL’ でインデックススキャン
  – customer のレコードの c_id を使って orders をインデックススキャン




  i_c_uname     customer                            i_o_c_id                 orders




              Copyright 2012 Uptime Technologies LLC, All rights reserved.            27
(3)I/O処理詳細




Copyright 2012 Uptime Technologies LLC, All rights reserved.   28
テーブルに対する更新処理
              レコード1                       「レコード5」を追加                                 レコード1
  レコード        レコード2                                                                  レコード2
 追加処理         レコード3                                                                  レコード3
              レコード4                                                                  レコード4
(INSERT)                                                                             レコード5
           ファイル中に4件のレコードが
           順番に並んでいる                                                  レコード5がファイル末尾に追加され、
                                                                     ファイルサイズが増える

                                          「レコード2」を削除
              レコード1                                                                   レコード1
 レコード         レコード2                                                                  (レコード2)
 削除処理         レコード3                                                                   レコード3
              レコード4                                                                   レコード4
(DELETE)
           ファイル中に4件のレコードが                                             レコード2に削除マークが付けられる
           順番に並んでいる

                                        「レコード2」を
              レコード1                     「レコード2’」として更新                                 レコード1
  レコード        レコード2                                                                  (レコード2)
 更新処理         レコード3                                                                   レコード3
              レコード4                                                                   レコード4
(UPDATE)
                                                                                      レコード2’
           ファイル中に4件のレコードが                                            レコード2に削除マークが付けられ、
           順番に並んでいる                                                  レコード2’が新たに追加、ファイルサイズ増加
                      Copyright 2012 Uptime Technologies LLC, All rights reserved.             29
テーブルに対する参照処理
•   各タプル(テーブルのレコード)は、作成したトランザクション、または削除したトラ
    ンザクションのXIDをヘッダに持つ。
•   エグゼキュータは、作成・削除したトランザクションID(XID)を参照しながら、「読
    み飛ばすレコード」を決める。
•   レコードを読んだり、読み飛ばしたりすることで、MVCCを実現する。
           作成    削除
                                         レコードデータ
           XID   XID

             作成XID ・・・ レコードを作成したトランザクションのID
             削除XID ・・・ レコードを削除したトランザクションID

    動作例(トランザクション分離レベルがRead Committedの場合)
           101    -                    レコードデータ1
           101   103                   レコードデータ2
           103    -                    レコードデータ3
           103    -                    レコードデータ4

          トランザクション101               レコード1とレコード2を作成。コミット。
           トランザクション102              トランザクション開始。
            トランザクション103             レコード2を削除して、レコード3、レコード4を作成。コミット。
           トランザクション102              レコード3、レコード4は参照可、レコード2は参照不可。

                                                                               ※MVCC:Multi-Version Concurrency Control
                       Copyright 2012 Uptime Technologies LLC, All rights reserved.                           30
VACUUM処理
            VACUUM前                                                                   VACUUM後
              レコード1                                                                    レコード1
             (レコード2)
                                            VACUUM処理
                                                                                       空き領域
VACUUM        レコード3                                                                    レコード3
処理            レコード4                                                                    レコード4
              レコード2’                                                                   レコード2’
         レコード2に削除マークが                                                      レコード2の領域が「空き領域」として
         付いている                                                             再利用可能になる。

            追記前                                                                       追記後
             レコード1                          レコード5を追記                                   レコード1
             空き領域                                                                      レコード5
VACUUM       レコード3                                                                     レコード3
してあると        レコード4                                                                     レコード4
             レコード2’                                                                    レコード2’
          「空き領域」がある                                                          ファイルサイズを変えずに追記できる

              レコード1                                                                    レコード1
                                            レコード5を追記
             (レコード2)                                                                  (レコード2)
VACUUM        レコード3                                                                    レコード3
してないと         レコード4                                                                    レコード4
              レコード2’                                                                   レコード2’
         レコード2の領域が埋まったまま                                                               レコード5
                                                                                ファイルサイズが増加
                       Copyright 2012 Uptime Technologies LLC, All rights reserved.             31
(4)パフォーマンス管理




Copyright 2012 Uptime Technologies LLC, All rights reserved.   32
パフォーマンスは何で決まるか?
•   「単一クエリのレスポンス×クエリの同時実行数」
    – 単一クエリのレスポンス
      •   サーバ・クライアント間通信(ネットワーク)
      •   SQLの構文解析、最適化(CPU処理)
      •   ロックの競合(ロック待ち、デッドロックの発生)
      •   テーブル、インデックス、ログへのI/O量(ディスクI/O)
      •   ソート、結合などの演算処理(CPU処理、ディスクI/O)
    – クエリの同時実行数
      • 接続クライアント数(いわゆるWebユーザ数)
      • コネクションプール接続数

•   全体としてハードウェアのキャパシティの範囲内であるか?
    – ネットワーク、ディスクI/O、メモリ、CPUなどがボトルネックとなり得る。
    – ただし、ボトルネック自体は「結果」であり、「原因」ではない。
    – 「なぜ、それがボトルネックになっているのか?」が重要。
      • テーブル設計? SQL文? 同時接続数? HW? 設定パラメータ?・・・




                 Copyright 2012 Uptime Technologies LLC, All rights reserved.   33
データベースを構成するハードウェアリソース
•   複雑な構造を持つRDBMSでは、ボトルネックはいたるところに発生し得
    るため、まずはきちんと切り分けることが重要。
     – いきなりパラメータチューニングとかを始めない。
                                                                                    CPUネック?
                                                                                  ソート? スキャン?
                                                            CPU

               ネットワーク
              インターフェース                                      メモリ                     ロック待ち?
    ネットワーク?
                                          プロセス空間


                                          プロセス空間                       共有メモリ

                                          プロセス空間

                   スワップ発生?                           ディスクキャッシュ                  読み込み? 書き込み?
                                                                                テーブル/インデックス?
                                                                                 トランザクションログ?
                            ディスクソート?


                                                               ディスク
              データベースサーバ

                 Copyright 2012 Uptime Technologies LLC, All rights reserved.                  34
パフォーマンス改善の基本手順
•   全体のパフォーマンスの傾向をつかむ
    – どのデータベース、テーブルへのアクセスか? HWの利用状況はどうか?
    – どのメトリックスとどのメトリックスが相関があるか?

•   遅いSQL文を特定する or 実行回数の多いSQLを特定する
    – log_min_durationオプション
    – pgFouine

•   特定のSQLだけが遅い場合・・・
    – SQLのクエリプランおよび実行状況を確認する(EXPLAIN)

•   遅いSQLが特定されない(偏りがない)場合・・・
    – ハードウェアリソースのボトルネックを探す

•   対策を実施する
    –   SQL文を書き換える、インデックスを張る、テーブル設計を修正する
    –   アプリケーションを修正する
    –   ハードウェアを増強する
    –   他・・・


                   Copyright 2012 Uptime Technologies LLC, All rights reserved.   35
SQLパフォーマンス分析
•    pgFouineによる問題SQL文の抽出、ランキング作成
       – 総実行時間=レスポンスタイム(実行時間)×実行回数
       – 最長レスポンスタイム
       – 他・・・




pgFouine - a PostgreSQL log analyzer
http://pgfouine.projects.postgresql.org/

                                   Copyright 2012 Uptime Technologies LLC, All rights reserved.   36
全体の傾向を可視化する
•    pg_statinfo/pg_reporterを使って、アクセス統計情報を可視化する。
       –   データベース統計情報
       –   ディスク使用状況
       –   テーブル統計情報
       –   チェックポイント情報
       –   Autovacuum実行状況
       –   SQL文実行状況
       – 等・・・




pg_statsinfo: Project Home Page
http://pgstatsinfo.projects.postgresql.org/

                                   Copyright 2012 Uptime Technologies LLC, All rights reserved.   37
(5)バックアップ・リカバリ




Copyright 2012 Uptime Technologies LLC, All rights reserved.   38
バックアップとレストア/リカバリ
• バックアップの難しさ
 –   データはファイルの中にだけあるのではない
 –   通常は、共有バッファの内容が最新
 –   ファイルだけバックアップを取ってもダメ
 –   ミリ秒単位で処理が進む中、すべてを一貫性を保った状態で


• バックアップの種類
 – コールドバックアップ
 – ホットバックアップ
 – アーカイブログバックアップ


• バックアップ&レストア/リカバリはリハーサルをしよう!
 – 簡単な試験や手順書を作るだけで満足してはいけない・・・

           Copyright 2012 Uptime Technologies LLC, All rights reserved.   39
コールドバックアップ
•   サーバプロセスをすべてシャットダウンしてデータファイル全体をバックアップ
    – バックアップの間、サービス停止が発生する。
    – リカバリの際には、バックアップ時のデータに戻る。
    – ファイルバックアップなのでレストアが簡単。
•   向いているケース
    – 前回バックアップ以降の更新データを、アプリログなどから復旧できる場合。
    – ストレージスナップショットが一般化した今、案外現実的。
•   向いていないケース
    – サービスを停止させられない場合。
    – 障害発生の直前までの更新データが必要で、DB以外から復旧できない場合。



                                                                                   Crash
               ①サービス
                           WAL1                    WAL2                   WAL3
                停止 &                                                               ②障害発生
                ファイル
                バックアップ
                                                                                    ③レストア

           Index
       Table

                    Copyright 2012 Uptime Technologies LLC, All rights reserved.            40
ホットバックアップ(pg_dump/pg_restore)
•   あるタイミングでデータの一貫性を保ちつつバックアップ(export)
    – シンプルかつ柔軟(テーブル単位のバックアップも可)
    – バックアップ時にサービス停止は起こらない。
    – リカバリの際には、バックアップ時のデータに戻る。
•   向いているケース
    – 前回バックアップ以降の更新データを、アプリログなどから復旧できる場合。
    – データベース単位、テーブル単位でバックアップを取りたい場合。
    – 論理バックアップが必要な場合(メジャーバージョンアップなど)
•   向いていないケース
    – 障害発生の直前までの更新データが必要で、DB以外から復旧できない場合。



                                                                                    Crash
                         WAL1                       WAL2                   WAL3
               ①pg_dumpで                                                            ②障害発生
                スナップショットを
                バックアップ
                                                                                     ③レストア

           Index
       Table

                     Copyright 2012 Uptime Technologies LLC, All rights reserved.            41
アーカイブログとPITRを用いたバックアップ
•   ベースバックアップ(基準点)+アーカイブログ(更新差分)
    – サービスを継続したままベースバックアップを取得可能(非一貫性バックアップ)
    – クラッシュ直前のWALの内容まで復旧することが可能
•   向いているケース
    – データベースクラスタ全体の完全なバックアップを取りたい場合。
    – クラッシュ直前の更新まで復旧させる必要がある場合。
•   向いていないケース
    – データベース単位、テーブル単位などでバックアップを取得したい場合。

                                                                                       Crash
                             WAL1                   WAL2                    WAL3        WAL4
               ①ベースバック
                アップの取得
                (非一貫性              ②WAL1を                  ③WAL2を                  ④WAL3を
                 バックアップ)            アーカイブ                   アーカイブ                   アーカイブ



           Index             WAL1                   WAL2                    WAL3
       Table
                   レストア&リカバリに必要なファイル類
                    Copyright 2012 Uptime Technologies LLC, All rights reserved.               42
ベースバックアップの取得手順と取得対象
• 前提条件
 – アーカイブログの設定が有効になっていること


• 取得手順
 – pg_start_backup()でバックアップ開始
 – データベースクラスタ全体のバックアップを取得
 – pg_stop_backup()でバックアップ完了


• 取得対象
 – データベースクラスタ全体
 – テーブルスペース(使用している場合)
 – XLOGファイル(pg_xlog以下)とpostmaster.pidファイルは除く



            Copyright 2012 Uptime Technologies LLC, All rights reserved.   43
ベースバックアップ取得(実行例)
$ sh /backups/basebackup.sh
 pg_start_backup
-----------------
 4/4F00EA14
(1 row)

tar: Removing leading `/' from member names
/var/lib/pgsql/9.0/data/
/var/lib/pgsql/9.0/data/postmaster.pid
/var/lib/pgsql/9.0/data/pg_ident.conf
/var/lib/pgsql/9.0/data/postgresql.conf
/var/lib/pgsql/9.0/data/PG_VERSION
(...snip...)
/var/lib/pgsql/9.0/data/pg_stat_tmp/pgstat.stat
/var/lib/pgsql/9.0/data/pg_tblspc/
/var/lib/pgsql/9.0/data/backup_label
/var/lib/pgsql/9.0/data/postmaster.opts
NOTICE: pg_stop_backup complete, all required WAL segments have been archived
 pg_stop_backup
----------------
 4/516F7068
(1 row)

START WAL LOCATION: 4/4F00EA14 (file 00000009000000040000004F)
STOP WAL LOCATION: 4/516F7068 (file 000000090000000400000051)
CHECKPOINT LOCATION: 4/5086B504
START TIME: 2011-12-12 04:37:20 JST
LABEL: backup test
STOP TIME: 2011-12-12 04:37:32 JST
$

                      Copyright 2012 Uptime Technologies LLC, All rights reserved.   44
アーカイブログとPITRを用いたリカバリ
•   ベースバックアップ(基準点)+アーカイブログ(更新差分)
    – ベースバックアップをレストア後、アーカイブログをロールフォワードリカバリする。
    – 前回のベースバックアップ以降、長期間が経過しているとアーカイブログが多くなり、リ
      カバリの時間が長くなる。
    – ベースバックアップレストア時間+アーカイブログ適用時間×アーカイブログ数


                                                                                          ⑥リカバリ完了




                        WAL1                   WAL2                    WAL3            WAL4
             ①ベース                                                                       ⑤オンラインWAL
              バックアップを         ②WAL1を                  ③WAL2を                  ④WAL3を     (WAL4)を適用
              レストア             適用                      適用                      適用



         Index          WAL1                   WAL2                    WAL3
     Table
                 レストア&リカバリに必要なファイル類
                        Copyright 2012 Uptime Technologies LLC, All rights reserved.                 45
リストア、リカバリ手順
•   PostgreSQLサーバを停止する

•   障害の発生したデータベースを保存する(可能であれば)
    – データベースクラスタ
    – トランザクションログ(残っている場合は必ず保護する)
    – テーブルスペース

•   ベースバックアップをレストアする

•   ベースバックアップ取得以降のアーカイブログをレストアする

•   最新のトランザクションログを配置する

•   リカバリ設定ファイル(recovery.conf)を作成する

•   PostgreSQLサーバを起動し、リカバリ処理を実行する
               Copyright 2012 Uptime Technologies LLC, All rights reserved.   46
PITRの動作状況
[2011-12-12 06:32:52 JST] 31582: LOG:           database system was interrupted; last known
    up at 2011-12-12 06:12:28 JST
[2011-12-12 06:32:52 JST] 31582: LOG:           restored log file "00000002.history" from
    archive
[2011-12-12 06:32:52 JST] 31582: LOG:           starting archive recovery
[2011-12-12 06:32:52 JST] 31582: LOG:           restored log file "000000010000000000000005"
    from archive
[2011-12-12 06:32:53 JST] 31582: LOG:           redo starts at 0/5000070
[2011-12-12 06:32:53 JST] 31582: LOG:           consistent recovery state reached at
    0/6000000
[2011-12-12 06:32:53 JST] 31582: LOG:           restored log file "000000010000000000000006"
    from archive
(...snip...)
[2011-12-12 06:33:40 JST] 31582: LOG:           restored log file "00000001000000000000000F"
    from archive
[2011-12-12 06:33:47 JST] 31582: LOG:           restored log file "000000020000000000000010"
    from archive
(...snip...)
[2011-12-12 06:34:49 JST] 31582: LOG:           restored log file "00000002000000000000001A"
    from archive
[2011-12-12 06:34:49 JST] 31582: LOG:           could not open file
    "pg_xlog/00000002000000000000001B"          (log file 0, segment 27): No such file or
    directory
[2011-12-12 06:34:49 JST] 31582: LOG:           redo done at 0/1A00511C
[2011-12-12 06:34:49 JST] 31582: LOG:           last completed transaction was at log time
    2011-12-12 06:23:09.691458+09
[2011-12-12 06:34:49 JST] 31582: LOG:           restored log file "00000002000000000000001A"
    from archive
[2011-12-12 06:34:49 JST] 31582: LOG:           restored log file "00000003.history" from
    archive
[2011-12-12 06:34:49 JST] 31582: LOG:           selected new timeline ID: 4

                      Copyright 2012 Uptime Technologies LLC, All rights reserved.             47
(6)冗長化




Copyright 2012 Uptime Technologies LLC, All rights reserved.   48
冗長化方式の選定
•    実現方式を評価するに当たって特に重視すべき点
      – 負荷分散の必要性の有無。
      – 単一障害点(Single Point of Failure、SPoF)の有無。
      – 運用が容易であるかどうか(運用の作業負荷、ノウハウの蓄積)。
      – データ一貫性の厳密性(レプリケーション遅延)の程度。


実現方式           アーキテクチャ                負荷分散          同期遅延            運用性         備考
アーカイブログ転送      アクティブ/スタンバイ                ×         数十秒                ◎        ウォームスタンバイ方式。
                                                     ~数分
DRBDディスク同期     アクティブ/スタンバイ                ×         なし                 △        要DRBD運用ノウハウ。
共有ディスク方式       アクティブ/スタンバイ                ×         なし                 △        共有ディスクが高価でSPOF。
Slony-Iレプリケー   アクティブ/アクティブ、               ○         数秒                 △        公開されているSlony-Iの運用ノウハ
ション            マスター/スレーブ                                                        ウが少ない。バージョン混在可。
pgpool-II      アクティブ/アクティブ、               ○         なし                 ○        pgpoolサーバがSPOF(冗長化可)。
               マスター/スレーブ                                                        一部、APへの影響有り(now()等)。
ストリーミング・レプリ    アクティブ/アクティブ、               ○         数百ms~              △        公開されている運用ノウハウが少な
ケーション(9.0~)    マスター/スレーブ                            なし(9.1)                     い。遅延なしは9.1以降。




                     Copyright 2012 Uptime Technologies LLC, All rights reserved.                  49
冗長化方式の選定 cont’d
•    PostgreSQLの代表的な冗長化方式の構成は以下の通り。
      – シンプルな冗長化のみで良い場合は共有ディスク方式。
      – スケールアウトが必要な場合は pgpool か Slony-I。
      – 9.0以降はストリーミングレプリケーション(SR+HS)構成が可能。

       共有ディスク方式                                    pgpool方式                                    SR+HS方式




                                                                                       Web/APサーバ   Web/APサーバ
    Web/APサーバ   Web/APサーバ                Web/APサーバ         Web/APサーバ

                         読み書き                                                                             読み込み可
                         不可




                                                   pgpoolサーバ
                                                                                           マスタDB   スレーブDB
     マスタDB      スレーブDB
                                                     SQL転送


                                                                                             ログ(レコード)転送

                                             マスタDB           スレーブDB
        共有ストレージ



                            Copyright 2012 Uptime Technologies LLC, All rights reserved.                          50
ストリーミング・レプリケーション
•   PostgreSQL 9.0で標準実装されるレプリケーション機能は、「ストリーミ
    ング・レプリケーション(SR)」と呼ばれています。

•   ストリーミングレプリケーションは、1つのマスターノード(読み書き可能)と、
    1つ以上のスレーブノード(読み込みのみ)で構成される、シングルマス
    タ・マルチスレーブ構成です。

•   マスターノードは、マスターノード上で生成された更新情報(トランザクショ
    ンログ)をスレーブノードに転送します(ストリーミング)。

•   スレーブノードは、ログレコードを待ち受け、受信したものを自身のノード
    のWALファイルに適用していきます。

•   スレーブノードでは、リードオンリーのクエリを処理することができます
    (ホットスタンバイモード) 。
                                             25.2. ログシッピングスタンバイサーバ
                                             http://www.postgresql.jp/document/9.0/html/warm-standby.html
              Copyright 2012 Uptime Technologies LLC, All rights reserved.                        51
ストリーミング・レプリケーション概念図
•   ベースバックアップで「基準」を揃え、WALレコードを連続的に転送
    (Streaming)することで「差分」を埋める。


マスター                                                                                      Crash
                                  WAL1                    WAL2                     WAL3
                ①ベースバック
                 アップの取得


            Index                        ③WALレコードを継続的に適用                                  ④フェイル
                                          (Streaming)                                      オーバー
        Table


                ②ベースバック
                 アップを展開
                                  WAL1                    WAL2                     WAL3

スレーブ


                    Copyright 2012 Uptime Technologies LLC, All rights reserved.                  52
参考文献
• 書籍・雑誌
 – WEB+DB PRESS vol.24、25 「徒然PostgreSQL散策」 (技術評論
   社)
 – WEB+DB PRESS vol.32~37 「PostgreSQL安定運用のコツ」 (技
   術評論社)
 – WEB+DB PRESS vol.63 「Web開発の『べし』 『べからず』 」 (技術
   評論社)
 – PostgreSQL徹底入門 第3版 (翔泳社)
 – データベースパフォーマンスアップの教科書 基本原理編 (翔泳社)
 – 日経SYSTEMS 2011年11月号「こちら検証ラボ PostgreSQL 9.1は
   どう進化したか」(日経BP)


• オンラインドキュメント類
 – PostgreSQL 9.0.4文書
   http://www.postgresql.jp/document/9.0/html/index.html
                Copyright ~ PostgreSQLの実行計画を読む ~ (PDF版)53
 – Explaining Explain 2012 Uptime Technologies LLC, All rights reserved.
【お問い合わせ先】
アップタイム・テクノロジーズ合同会社
永安 悟史
E-mail: snaga@uptime.jp
Web: http://www.uptime.jp/

                  Copyright 2012 Uptime Technologies LLC, All rights reserved.   54

More Related Content

PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)

  • 1. PostgreSQLアーキテクチャ入門 アップタイム・テクノロジーズ合同会社 永安 悟史 2012.2.24 Copyright 2012 Uptime Technologies LLC, All rights reserved. 1
  • 2. 自己紹介 • 氏名 – 永安 悟史 (ながやす さとし) • 略歴 – 2004/4-2007/9 (3年6ヵ月) • 株式会社NTTデータ入社。 • PostgreSQLによる並列分散RDBMSの研究開発。 • SIプロジェクトの技術支援、並列分散PostgreSQLミドルウェアの製品サポートおよび保守。 – 2007/10-2008/9 (1年) • データセンタ企画部門にて、次世代ITプラットフォームサービスの企画・開発。 – 2008/10-2009/10 (1年1ヵ月) • データセンタ運用部門にて、OSS系システムの基盤保守・運用、および運用チームの統括。 • 株式会社NTTデータ退職。 – 2009/11- • アップタイム・テクノロジーズ創業(共同創業者兼CEO)。 • 専門分野 – データベースシステム、並列分散システム、クラスタシステム – オープンソース・インフラ技術 – ITサービスマネジメント(ITIL)、ITインフラ運用管理(運用設計~運用) • 執筆等 – 翔泳社「PostgreSQL徹底入門 ~ 8対応」(共著) – 技術評論社「PostgreSQL安定運用のコツ」(WEB+DB PRESS vol.32~37連載)、他 Copyright 2012 Uptime Technologies LLC, All rights reserved. 2
  • 3. 本セッションのねらい • PostgreSQL でシステムを構築して実運用をするためには、データベース管理者 (DBA)として ある程度内部構造を理解しておく必要があります。 • 本講演では、開発や運用において必要とされる技術的知識について、 PostgreSQL の基本的な仕組みからバックアップ&リカバリ、レプリケーションま で、 PostgreSQL の動作原理を俯瞰して解説を行います。 • 主に PostgreSQL中級者向けの内容です。 • 特に以下のような方にオススメです。 – データベースの特に運用管理・パフォーマンス管理に詳しくなりたい方。 – コンピュータアーキテクチャに詳しくなりたい方。 – コンピュータエンジニアリングの基礎を知りたい方。 – 他のRDBMSを利用していて、PostgreSQLについて知りたい方。 Copyright 2012 Uptime Technologies LLC, All rights reserved. 3
  • 4. PostgreSQLアーキテクチャ入門 アジェンダ • アーキテクチャ概要 • パフォーマンス管理 – PostgreSQLの構成要素 – パフォーマンスは何で決まるか? – PostgreSQLの基本構造 – パフォーマンス改善の基本手順 – メモリ(共有バッファ) – 全体の傾向を可視化する – トランザクションログ(WAL) – SQLパフォーマンス分析 – テーブルファイル – インデックス(B-Tree)ファイル • バックアップ・リカバリ – 発生する3種類のI/O – バックアップとレストア/リカバリ – コールドバックアップ • クエリの処理 – ホットバックアップ(pg_dump/pg_restore) – SQL文の処理される流れ – PITRを用いたバックアップ – クエリとクエリプラン – PITRを用いたリカバリ – クエリプランの確認方法 – データアクセスのパターン • 冗長化 – テーブルスキャン – 冗長化方式の選定 – インデックスアクセス – 結合 • 参考文献 • I/O処理詳細 – テーブルに対する更新処理 – テーブルに対する参照処理 ※本資料の最新版は以下に掲載されています。 – VACUUM処理 http://www.uptime.jp/ (ホーム→リソース→技術情報) Copyright 2012 Uptime Technologies LLC, All rights reserved. 4
  • 5. (1)アーキテクチャ概要 Copyright 2012 Uptime Technologies LLC, All rights reserved. 5
  • 6. プロセス $ ps -aef | grep postgres postgres 22169 1 0 23:37 ? 00:00:00 /usr/pgsql-9.0/bin/postmaster -p 5432 -D /var/lib/pgsql/9.0/data postgres 22179 22169 0 23:37 ? 00:00:00 postgres: logger process postgres 22182 22169 0 23:37 ? 00:00:00 postgres: writer process postgres 22183 22169 0 23:37 ? 00:00:00 postgres: wal writer process postgres 22184 22169 0 23:37 ? 00:00:00 postgres: autovacuum launcher process postgres 22185 22169 0 23:37 ? 00:00:00 postgres: archiver process archiving 00000001000000D60000004E postgres 22187 22169 0 23:37 ? 00:00:00 postgres: stats collector process postgres 23436 22169 16 23:42 ? 00:00:34 postgres: postgres pgbench [local] UPDATE waiting postgres 23437 22169 16 23:42 ? 00:00:34 postgres: postgres pgbench [local] UPDATE waiting postgres 23438 22169 16 23:42 ? 00:00:34 postgres: postgres pgbench [local] COMMIT postgres 24283 22169 5 23:45 ? 00:00:02 postgres: postgres postgres [local] idle postgres 24301 22169 0 23:45 ? 00:00:00 postgres: postgres postgres [local] idle postgres 24581 22169 0 23:45 ? 00:00:00 postgres: autovacuum worker process pgbench postgres 24527 22185 0 23:45 ? 00:00:00 cp pg_xlog/00000001000000D60000004E /var/lib/pgsql/9.0/backups/archlog/00000001000000D60000004E $ Copyright 2012 Uptime Technologies LLC, All rights reserved. 6
  • 7. データベースクラスタ # ls -l total 116 drwx------ 10 postgres postgres 4096 Dec 14 19:00 base drwx------ 2 postgres postgres 4096 Jan 10 00:28 global drwx------ 2 postgres postgres 4096 Dec 13 08:40 pg_clog -rw------- 1 postgres postgres 3768 Dec 14 15:50 pg_hba.conf -rw------- 1 postgres postgres 1636 Dec 4 13:47 pg_ident.conf drwx------ 2 postgres postgres 4096 Jan 10 00:00 pg_log drwx------ 4 postgres postgres 4096 Dec 4 13:47 pg_multixact drwx------ 2 postgres postgres 4096 Jan 8 10:14 pg_notify drwx------ 2 postgres postgres 4096 Jan 10 15:43 pg_stat_tmp drwx------ 2 postgres postgres 4096 Dec 28 14:41 pg_subtrans drwx------ 2 postgres postgres 4096 Dec 4 14:47 pg_tblspc drwx------ 2 postgres postgres 4096 Dec 4 13:47 pg_twophase -rw------- 1 postgres postgres 4 Dec 4 13:47 PG_VERSION drwxr-xr-x 3 postgres postgres 4096 Jan 10 15:40 pg_xlog -rw------- 1 postgres postgres 18015 Dec 14 15:50 postgresql.conf -rw------- 1 postgres postgres 17952 Dec 14 15:05 postgresql.conf.orig -rw------- 1 postgres postgres 71 Jan 8 10:14 postmaster.opts -rw------- 1 postgres postgres 49 Jan 8 10:14 postmaster.pid # Copyright 2012 Uptime Technologies LLC, All rights reserved. 7
  • 8. PostgreSQLの構成要素 PostgreSQLは、さまざまなプロセス・メモリ領域・ファイルによって構 成されている。 writer postgres logger wal writer autovacuum (バックグラウンド (リスナプロセス) (サーバログ) (WALライタ) (自動vacuum) ライタ) プロセス群 archiver stat collector postgres wal sender wal receiver (WALアーカイバ) (統計情報収集) (サーバプロセス) (レプリケーション) (レプリケーション) shared_buffers wal_buffers visibilitymap freespacemap トランザクション メモリ群 (共有バッファ) (WALバッファ) (ブロック情報) (空き領域情報) 制御情報 ファイル群 テーブル インデックス トランザクション アーカイブ 設定ファイル ファイル ファイル ログファイル ログファイル Copyright 2012 Uptime Technologies LLC, All rights reserved. 8
  • 9. PostgreSQLの基本的なアーキテクチャ 共有バッファを中心として、複数のプロセス間で連携しながら処理を 行うマルチプロセス構造。 postgres (リスナプロセス) ( shared_buffers postgres 共 postgres 有 (サーバプロセス) バ postgres (サーバプロセス) クライアント ッ (サーバプロセス) フ ァ ) writer (バックグラウンド ライタ) wal writer (WALライタ) テーブル ファイル トランザクション インデックス ログファイル ファイル Copyright 2012 Uptime Technologies LLC, All rights reserved. 9
  • 10. メモリ(共有バッファ) • ディスク上のブロックをキャッシュするメモリ領域 – ディスク上のブロックのうち、アクセスするものだけを読み込む – すべてのバックエンドプロセスで共有 • キャッシュすることで、ディスクI/Oを抑えて高速化 – 更新の永続性はトランザクションログで担保する – メモリ上で変更されたブロックは、ライタプロセス(非同期)またはチェックポイ ント(同期)がテーブル/インデックスファイルに書き戻す writer postgres 9 17 5 14 postgres postgres 共有バッファ 1 2 3 4 5 6 7 8 9 10 11 12 バックエンド 13 14 15 16 17 18 wal writer 19 ・・・・ トランザクション ログファイル テーブル/インデックスファイル Copyright 2012 Uptime Technologies LLC, All rights reserved. 10
  • 11. データファイルの配置 データベースクラスタ(PGDATA)領域 システムカタログ(global) 設定ファイル テーブルファイル テーブルファイル (postgresql.conf, pg_hba.conf) テーブルファイル インデックスファイル インデックスファイル その他制御ファイル等 インデックスファイル デフォルトテーブルスペース(base) トランザクションログ(pg_xlog) ユーザデータベース(OID) ユーザデータベース(OID) ユーザデータベース(OID) テーブルファイル テーブルファイル テーブルファイル インデックスファイル インデックスファイル インデックスファイル 外部テーブルスペース 外部テーブルスペース アーカイブログ領域 テーブルスペース領域 54.1. データベースファイルのレイアウト http://www.postgresql.jp/document/9.0/html/storage-file-layout.html Copyright 2012 Uptime Technologies LLC, All rights reserved. 11
  • 12. トランザクションログ(WAL) • テーブルやインデックスの更新情報が記録(追記)される – 共有バッファのデータを更新する「前」に記録(Write-ahead log) – 16MBずつのセグメント(ファイル)に分割されている。 – クラッシュリカバリの際に読み込まれる (pg_xlog/ 以下に配置) – アーカイブされて、PITRのバックアップ/リカバリで使われる(アーカイブログ) WAL 1 WAL 2 Aテーブルのレコード1をmに変更 Bテーブルのレコード6をnに変更 Aテーブルのレコード4をxに変更 Aテーブルのレコード1をyに変更 Bテーブルのレコード2をzに変更 ファイルの先頭から 順番に更新情報が 追記されていく Copyright 2012 Uptime Technologies LLC, All rights reserved. 12
  • 13. テーブルファイル • 8kB単位のブロック単位で構成される • 各ブロックの中に実データのレコード(タプル)を配置 – 基本的に追記のみ – 削除したら削除マークを付加する(VACUUMで回収) – レコード更新時は「削除+追記」を行う。 DBT1=# SELECT * FROM pgstattuple('customer'); -[ RECORD 1 ]------+----------- レコード1 table_len | 1754857472 レコード2 ブロック1 tuple_count | 3456656 レコード3 tuple_len | 1703225491 レコード4 tuple_percent | 97.06 レコード5 ブロック2 dead_tuple_count | 695 dead_tuple_len | 350038 dead_tuple_percent | 0.02 free_space | 31391624 ブロック3 free_percent | 1.79 DBT1=# Copyright 2012 Uptime Technologies LLC, All rights reserved. 13
  • 14. インデックス(B-Tree)ファイル • 8kB単位のブロック単位で構成される • ブロック(8kB単位)をノードとする論理的なツリー構造を持つ – ルート、インターナル、リーフの各ノードから構成 – ルートノードから辿っていく – リーフノードは、インデックスのキーとレコードへのポインタを持つ DBT1=# SELECT * FROM インデックスファイル pgstatindex('customer_pkey'); -[ RECORD 1 ]------+---------- version | 2 ルート tree_level | 2 index_size | 108953600 root_block_no | 217 インターナル internal_pages | 66 leaf_pages | 13233 empty_pages | 0 deleted_pages | 0 1~5 6~10 11~17 18~25 avg_leaf_density | 90.2 リーフ leaf_fragmentation | 0 DBT1=# Copyright 2012 Uptime Technologies LLC, All rights reserved. 14
  • 15. 発生する3種類のI/O • 例えば、主キーで検索して該当レコードを更新する場合 – プライマリーキーでインデックスエントリを探す – インデックスのポインタを元に、テーブル内のレコードを探す – テーブルレコードを更新する前にトランザクションログに記録する – テーブルファイルを更新する 物理ディスク テーブルファイル ②読む テーブルファイル テーブルファイル ④書く ディスク ヘッド ①読む インデックスファイル インデックスファイル インデックスファイル ③書く トランザクション ログファイル Copyright 2012 Uptime Technologies LLC, All rights reserved. 15
  • 16. (2)クエリの処理 Copyright 2012 Uptime Technologies LLC, All rights reserved. 16
  • 17. SQL文の処理される流れ クエリ受信 •SQL構文の解析、文法エラーの検出 構文解析(parse) •構文木(parse tree)の生成 •VIEW / RULE に基づいた構文木の書き換え 書き換え(rewrite) 実行計画生成 / 最適化 •最適なクエリプラン(実行計画)の生成 (plan / optimize) •統計情報などを用いて実行コストを最小化 (コストベース最適化) •クエリプランに沿ったデータアクセス、抽出/結合/ 実行(execute) ソートなどの演算処理 •(更新時)トランザクションログ追記、共有バッファ更新 結果送信 Copyright 2012 Uptime Technologies LLC, All rights reserved. 17
  • 18. クエリプラン(実行計画)とは • どのテーブル、インデックスにどのようにアクセスするのか、という「アクセ スパス(経路)」の情報 • テーブルやインデックスの統計情報を使って最適化される – よって、統計情報が正しいことが前提 • 商用RDBMSで実装されているヒント文はPostgreSQLには存在しない – DBAが手動で作るプランよりも、オプティマイザの生成するプランの方が賢い – ヒントを使わなければならないような状況なら、データベースやクエリの設計 を見直すべき Copyright 2012 Uptime Technologies LLC, All rights reserved. 18
  • 19. クエリとクエリプラン ネステッドループ ジョイン テーブル スキャン 集約 count() インデックス スキャン Copyright 2012 Uptime Technologies LLC, All rights reserved. 19
  • 20. クエリプランの詳細 Copyright 2012 Uptime Technologies LLC, All rights reserved. 20
  • 21. クエリプランの確認方法 • EXPLAIN – 最適であると判断された「クエリプラン」を表示。 – 入力されたSQL文を、PostgreSQLがどのように解釈して処理しようとしてい るのかを表示。 • EXPLAIN ( ANALYZE ) – 「クエリプラン」に加えて、「実行結果」を表示。 – 実際に、どのアクセスにどの程度の時間がかかっているのか、何件のレコー ドを処理したのか、などを表示。 • EXPLAIN ( ANALYZE, BUFFERS ) – クエリプラン、実行結果に加えて、「バッファアクセス」を表示。 • GUIツールで確認する方法(pgAdminIII) – 「クエリー解釈」=EXPLAIN – 「アナライズ解釈」=EXPLAIN ( ANALYZE ) Copyright 2012 Uptime Technologies LLC, All rights reserved. 21
  • 22. データアクセスのパターン • シーケンシャルアクセス – 全レコード、または多くのレコードを処理する必要がある場合 – 集約処理、LIKE文の中間一致など • ランダムアクセス – 特定のレコード(を含むブロック)だけにアクセスする必要がある場合 – 主にインデックスを用いたアクセス シーケンシャル ランダム アクセス アクセス ファイルの先頭から 順番に読み込んでいく 必要なブロックだけ ピンポイントで読み込む テーブルファイル テーブルファイル Copyright 2012 Uptime Technologies LLC, All rights reserved. 22
  • 23. テーブルスキャン SELECT count(*) FROM customer; Customer テーブルからの ブロック読込 ×214,216 Customer_pkey インデックスの ブロック読込×0 Copyright 2012 Uptime Technologies LLC, All rights reserved. 23
  • 24. テーブルスキャン cont’d • すべてのデータを確認する必要があるため、customerテー ブルファイルを構成するブロックを先頭から読み込む – よって、データが増えれば増えるほど時間がかかるようになる。 – この例では、214,216 ブロック(約1.7GB)を読んでいる。 Customer_pkeyインデックス Customerテーブル レコード1 root レコード2 レコード3 レコード4 レコード5 1~5 6~10 11~17 18~25 Copyright 2012 Uptime Technologies LLC, All rights reserved. 24
  • 25. インデックスアクセス SELECT * FROM customer c WHERE c.c_id=7; Customer テーブルからの ブロック読込×1 Customer_pkey インデックスの ブロック読込×3 Copyright 2012 Uptime Technologies LLC, All rights reserved. 25
  • 26. インデックスアクセス cont’d • “c_id=7” レコードの位置を探すため、customer_pkeyを辿っ てポインタを見つけ、レコードを含むテーブルファイルのブ ロックを読み込む。 – この例では、customer_pkeyインデックスから3ブロック、customer テーブルから1ブロックを読んでいる。 – レコードの量とディスクアクセス量が比例しない。 Customer_pkeyインデックス Customerテーブル レコード1 root レコード2 レコード3 レコード4 レコード5 1~5 6~10 11~17 18~25 Copyright 2012 Uptime Technologies LLC, All rights reserved. 26
  • 27. 結合(Nested Loop Join) • SELECT count(*) FROM orders o, customer c WHERE o.o_c_id=c.c_id AND c.c_uname=‘UL’; – customer を c_uname=‘UL’ でインデックススキャン – customer のレコードの c_id を使って orders をインデックススキャン i_c_uname customer i_o_c_id orders Copyright 2012 Uptime Technologies LLC, All rights reserved. 27
  • 28. (3)I/O処理詳細 Copyright 2012 Uptime Technologies LLC, All rights reserved. 28
  • 29. テーブルに対する更新処理 レコード1 「レコード5」を追加 レコード1 レコード レコード2 レコード2 追加処理 レコード3 レコード3 レコード4 レコード4 (INSERT) レコード5 ファイル中に4件のレコードが 順番に並んでいる レコード5がファイル末尾に追加され、 ファイルサイズが増える 「レコード2」を削除 レコード1 レコード1 レコード レコード2 (レコード2) 削除処理 レコード3 レコード3 レコード4 レコード4 (DELETE) ファイル中に4件のレコードが レコード2に削除マークが付けられる 順番に並んでいる 「レコード2」を レコード1 「レコード2’」として更新 レコード1 レコード レコード2 (レコード2) 更新処理 レコード3 レコード3 レコード4 レコード4 (UPDATE) レコード2’ ファイル中に4件のレコードが レコード2に削除マークが付けられ、 順番に並んでいる レコード2’が新たに追加、ファイルサイズ増加 Copyright 2012 Uptime Technologies LLC, All rights reserved. 29
  • 30. テーブルに対する参照処理 • 各タプル(テーブルのレコード)は、作成したトランザクション、または削除したトラ ンザクションのXIDをヘッダに持つ。 • エグゼキュータは、作成・削除したトランザクションID(XID)を参照しながら、「読 み飛ばすレコード」を決める。 • レコードを読んだり、読み飛ばしたりすることで、MVCCを実現する。 作成 削除 レコードデータ XID XID 作成XID ・・・ レコードを作成したトランザクションのID 削除XID ・・・ レコードを削除したトランザクションID 動作例(トランザクション分離レベルがRead Committedの場合) 101 - レコードデータ1 101 103 レコードデータ2 103 - レコードデータ3 103 - レコードデータ4 トランザクション101 レコード1とレコード2を作成。コミット。 トランザクション102 トランザクション開始。 トランザクション103 レコード2を削除して、レコード3、レコード4を作成。コミット。 トランザクション102 レコード3、レコード4は参照可、レコード2は参照不可。 ※MVCC:Multi-Version Concurrency Control Copyright 2012 Uptime Technologies LLC, All rights reserved. 30
  • 31. VACUUM処理 VACUUM前 VACUUM後 レコード1 レコード1 (レコード2) VACUUM処理 空き領域 VACUUM レコード3 レコード3 処理 レコード4 レコード4 レコード2’ レコード2’ レコード2に削除マークが レコード2の領域が「空き領域」として 付いている 再利用可能になる。 追記前 追記後 レコード1 レコード5を追記 レコード1 空き領域 レコード5 VACUUM レコード3 レコード3 してあると レコード4 レコード4 レコード2’ レコード2’ 「空き領域」がある ファイルサイズを変えずに追記できる レコード1 レコード1 レコード5を追記 (レコード2) (レコード2) VACUUM レコード3 レコード3 してないと レコード4 レコード4 レコード2’ レコード2’ レコード2の領域が埋まったまま レコード5 ファイルサイズが増加 Copyright 2012 Uptime Technologies LLC, All rights reserved. 31
  • 32. (4)パフォーマンス管理 Copyright 2012 Uptime Technologies LLC, All rights reserved. 32
  • 33. パフォーマンスは何で決まるか? • 「単一クエリのレスポンス×クエリの同時実行数」 – 単一クエリのレスポンス • サーバ・クライアント間通信(ネットワーク) • SQLの構文解析、最適化(CPU処理) • ロックの競合(ロック待ち、デッドロックの発生) • テーブル、インデックス、ログへのI/O量(ディスクI/O) • ソート、結合などの演算処理(CPU処理、ディスクI/O) – クエリの同時実行数 • 接続クライアント数(いわゆるWebユーザ数) • コネクションプール接続数 • 全体としてハードウェアのキャパシティの範囲内であるか? – ネットワーク、ディスクI/O、メモリ、CPUなどがボトルネックとなり得る。 – ただし、ボトルネック自体は「結果」であり、「原因」ではない。 – 「なぜ、それがボトルネックになっているのか?」が重要。 • テーブル設計? SQL文? 同時接続数? HW? 設定パラメータ?・・・ Copyright 2012 Uptime Technologies LLC, All rights reserved. 33
  • 34. データベースを構成するハードウェアリソース • 複雑な構造を持つRDBMSでは、ボトルネックはいたるところに発生し得 るため、まずはきちんと切り分けることが重要。 – いきなりパラメータチューニングとかを始めない。 CPUネック? ソート? スキャン? CPU ネットワーク インターフェース メモリ ロック待ち? ネットワーク? プロセス空間 プロセス空間 共有メモリ プロセス空間 スワップ発生? ディスクキャッシュ 読み込み? 書き込み? テーブル/インデックス? トランザクションログ? ディスクソート? ディスク データベースサーバ Copyright 2012 Uptime Technologies LLC, All rights reserved. 34
  • 35. パフォーマンス改善の基本手順 • 全体のパフォーマンスの傾向をつかむ – どのデータベース、テーブルへのアクセスか? HWの利用状況はどうか? – どのメトリックスとどのメトリックスが相関があるか? • 遅いSQL文を特定する or 実行回数の多いSQLを特定する – log_min_durationオプション – pgFouine • 特定のSQLだけが遅い場合・・・ – SQLのクエリプランおよび実行状況を確認する(EXPLAIN) • 遅いSQLが特定されない(偏りがない)場合・・・ – ハードウェアリソースのボトルネックを探す • 対策を実施する – SQL文を書き換える、インデックスを張る、テーブル設計を修正する – アプリケーションを修正する – ハードウェアを増強する – 他・・・ Copyright 2012 Uptime Technologies LLC, All rights reserved. 35
  • 36. SQLパフォーマンス分析 • pgFouineによる問題SQL文の抽出、ランキング作成 – 総実行時間=レスポンスタイム(実行時間)×実行回数 – 最長レスポンスタイム – 他・・・ pgFouine - a PostgreSQL log analyzer http://pgfouine.projects.postgresql.org/ Copyright 2012 Uptime Technologies LLC, All rights reserved. 36
  • 37. 全体の傾向を可視化する • pg_statinfo/pg_reporterを使って、アクセス統計情報を可視化する。 – データベース統計情報 – ディスク使用状況 – テーブル統計情報 – チェックポイント情報 – Autovacuum実行状況 – SQL文実行状況 – 等・・・ pg_statsinfo: Project Home Page http://pgstatsinfo.projects.postgresql.org/ Copyright 2012 Uptime Technologies LLC, All rights reserved. 37
  • 38. (5)バックアップ・リカバリ Copyright 2012 Uptime Technologies LLC, All rights reserved. 38
  • 39. バックアップとレストア/リカバリ • バックアップの難しさ – データはファイルの中にだけあるのではない – 通常は、共有バッファの内容が最新 – ファイルだけバックアップを取ってもダメ – ミリ秒単位で処理が進む中、すべてを一貫性を保った状態で • バックアップの種類 – コールドバックアップ – ホットバックアップ – アーカイブログバックアップ • バックアップ&レストア/リカバリはリハーサルをしよう! – 簡単な試験や手順書を作るだけで満足してはいけない・・・ Copyright 2012 Uptime Technologies LLC, All rights reserved. 39
  • 40. コールドバックアップ • サーバプロセスをすべてシャットダウンしてデータファイル全体をバックアップ – バックアップの間、サービス停止が発生する。 – リカバリの際には、バックアップ時のデータに戻る。 – ファイルバックアップなのでレストアが簡単。 • 向いているケース – 前回バックアップ以降の更新データを、アプリログなどから復旧できる場合。 – ストレージスナップショットが一般化した今、案外現実的。 • 向いていないケース – サービスを停止させられない場合。 – 障害発生の直前までの更新データが必要で、DB以外から復旧できない場合。 Crash ①サービス WAL1 WAL2 WAL3 停止 & ②障害発生 ファイル バックアップ ③レストア Index Table Copyright 2012 Uptime Technologies LLC, All rights reserved. 40
  • 41. ホットバックアップ(pg_dump/pg_restore) • あるタイミングでデータの一貫性を保ちつつバックアップ(export) – シンプルかつ柔軟(テーブル単位のバックアップも可) – バックアップ時にサービス停止は起こらない。 – リカバリの際には、バックアップ時のデータに戻る。 • 向いているケース – 前回バックアップ以降の更新データを、アプリログなどから復旧できる場合。 – データベース単位、テーブル単位でバックアップを取りたい場合。 – 論理バックアップが必要な場合(メジャーバージョンアップなど) • 向いていないケース – 障害発生の直前までの更新データが必要で、DB以外から復旧できない場合。 Crash WAL1 WAL2 WAL3 ①pg_dumpで ②障害発生 スナップショットを バックアップ ③レストア Index Table Copyright 2012 Uptime Technologies LLC, All rights reserved. 41
  • 42. アーカイブログとPITRを用いたバックアップ • ベースバックアップ(基準点)+アーカイブログ(更新差分) – サービスを継続したままベースバックアップを取得可能(非一貫性バックアップ) – クラッシュ直前のWALの内容まで復旧することが可能 • 向いているケース – データベースクラスタ全体の完全なバックアップを取りたい場合。 – クラッシュ直前の更新まで復旧させる必要がある場合。 • 向いていないケース – データベース単位、テーブル単位などでバックアップを取得したい場合。 Crash WAL1 WAL2 WAL3 WAL4 ①ベースバック アップの取得 (非一貫性 ②WAL1を ③WAL2を ④WAL3を バックアップ) アーカイブ アーカイブ アーカイブ Index WAL1 WAL2 WAL3 Table レストア&リカバリに必要なファイル類 Copyright 2012 Uptime Technologies LLC, All rights reserved. 42
  • 43. ベースバックアップの取得手順と取得対象 • 前提条件 – アーカイブログの設定が有効になっていること • 取得手順 – pg_start_backup()でバックアップ開始 – データベースクラスタ全体のバックアップを取得 – pg_stop_backup()でバックアップ完了 • 取得対象 – データベースクラスタ全体 – テーブルスペース(使用している場合) – XLOGファイル(pg_xlog以下)とpostmaster.pidファイルは除く Copyright 2012 Uptime Technologies LLC, All rights reserved. 43
  • 44. ベースバックアップ取得(実行例) $ sh /backups/basebackup.sh pg_start_backup ----------------- 4/4F00EA14 (1 row) tar: Removing leading `/' from member names /var/lib/pgsql/9.0/data/ /var/lib/pgsql/9.0/data/postmaster.pid /var/lib/pgsql/9.0/data/pg_ident.conf /var/lib/pgsql/9.0/data/postgresql.conf /var/lib/pgsql/9.0/data/PG_VERSION (...snip...) /var/lib/pgsql/9.0/data/pg_stat_tmp/pgstat.stat /var/lib/pgsql/9.0/data/pg_tblspc/ /var/lib/pgsql/9.0/data/backup_label /var/lib/pgsql/9.0/data/postmaster.opts NOTICE: pg_stop_backup complete, all required WAL segments have been archived pg_stop_backup ---------------- 4/516F7068 (1 row) START WAL LOCATION: 4/4F00EA14 (file 00000009000000040000004F) STOP WAL LOCATION: 4/516F7068 (file 000000090000000400000051) CHECKPOINT LOCATION: 4/5086B504 START TIME: 2011-12-12 04:37:20 JST LABEL: backup test STOP TIME: 2011-12-12 04:37:32 JST $ Copyright 2012 Uptime Technologies LLC, All rights reserved. 44
  • 45. アーカイブログとPITRを用いたリカバリ • ベースバックアップ(基準点)+アーカイブログ(更新差分) – ベースバックアップをレストア後、アーカイブログをロールフォワードリカバリする。 – 前回のベースバックアップ以降、長期間が経過しているとアーカイブログが多くなり、リ カバリの時間が長くなる。 – ベースバックアップレストア時間+アーカイブログ適用時間×アーカイブログ数 ⑥リカバリ完了 WAL1 WAL2 WAL3 WAL4 ①ベース ⑤オンラインWAL バックアップを ②WAL1を ③WAL2を ④WAL3を (WAL4)を適用 レストア 適用 適用 適用 Index WAL1 WAL2 WAL3 Table レストア&リカバリに必要なファイル類 Copyright 2012 Uptime Technologies LLC, All rights reserved. 45
  • 46. リストア、リカバリ手順 • PostgreSQLサーバを停止する • 障害の発生したデータベースを保存する(可能であれば) – データベースクラスタ – トランザクションログ(残っている場合は必ず保護する) – テーブルスペース • ベースバックアップをレストアする • ベースバックアップ取得以降のアーカイブログをレストアする • 最新のトランザクションログを配置する • リカバリ設定ファイル(recovery.conf)を作成する • PostgreSQLサーバを起動し、リカバリ処理を実行する Copyright 2012 Uptime Technologies LLC, All rights reserved. 46
  • 47. PITRの動作状況 [2011-12-12 06:32:52 JST] 31582: LOG: database system was interrupted; last known up at 2011-12-12 06:12:28 JST [2011-12-12 06:32:52 JST] 31582: LOG: restored log file "00000002.history" from archive [2011-12-12 06:32:52 JST] 31582: LOG: starting archive recovery [2011-12-12 06:32:52 JST] 31582: LOG: restored log file "000000010000000000000005" from archive [2011-12-12 06:32:53 JST] 31582: LOG: redo starts at 0/5000070 [2011-12-12 06:32:53 JST] 31582: LOG: consistent recovery state reached at 0/6000000 [2011-12-12 06:32:53 JST] 31582: LOG: restored log file "000000010000000000000006" from archive (...snip...) [2011-12-12 06:33:40 JST] 31582: LOG: restored log file "00000001000000000000000F" from archive [2011-12-12 06:33:47 JST] 31582: LOG: restored log file "000000020000000000000010" from archive (...snip...) [2011-12-12 06:34:49 JST] 31582: LOG: restored log file "00000002000000000000001A" from archive [2011-12-12 06:34:49 JST] 31582: LOG: could not open file "pg_xlog/00000002000000000000001B" (log file 0, segment 27): No such file or directory [2011-12-12 06:34:49 JST] 31582: LOG: redo done at 0/1A00511C [2011-12-12 06:34:49 JST] 31582: LOG: last completed transaction was at log time 2011-12-12 06:23:09.691458+09 [2011-12-12 06:34:49 JST] 31582: LOG: restored log file "00000002000000000000001A" from archive [2011-12-12 06:34:49 JST] 31582: LOG: restored log file "00000003.history" from archive [2011-12-12 06:34:49 JST] 31582: LOG: selected new timeline ID: 4 Copyright 2012 Uptime Technologies LLC, All rights reserved. 47
  • 48. (6)冗長化 Copyright 2012 Uptime Technologies LLC, All rights reserved. 48
  • 49. 冗長化方式の選定 • 実現方式を評価するに当たって特に重視すべき点 – 負荷分散の必要性の有無。 – 単一障害点(Single Point of Failure、SPoF)の有無。 – 運用が容易であるかどうか(運用の作業負荷、ノウハウの蓄積)。 – データ一貫性の厳密性(レプリケーション遅延)の程度。 実現方式 アーキテクチャ 負荷分散 同期遅延 運用性 備考 アーカイブログ転送 アクティブ/スタンバイ × 数十秒 ◎ ウォームスタンバイ方式。 ~数分 DRBDディスク同期 アクティブ/スタンバイ × なし △ 要DRBD運用ノウハウ。 共有ディスク方式 アクティブ/スタンバイ × なし △ 共有ディスクが高価でSPOF。 Slony-Iレプリケー アクティブ/アクティブ、 ○ 数秒 △ 公開されているSlony-Iの運用ノウハ ション マスター/スレーブ ウが少ない。バージョン混在可。 pgpool-II アクティブ/アクティブ、 ○ なし ○ pgpoolサーバがSPOF(冗長化可)。 マスター/スレーブ 一部、APへの影響有り(now()等)。 ストリーミング・レプリ アクティブ/アクティブ、 ○ 数百ms~ △ 公開されている運用ノウハウが少な ケーション(9.0~) マスター/スレーブ なし(9.1) い。遅延なしは9.1以降。 Copyright 2012 Uptime Technologies LLC, All rights reserved. 49
  • 50. 冗長化方式の選定 cont’d • PostgreSQLの代表的な冗長化方式の構成は以下の通り。 – シンプルな冗長化のみで良い場合は共有ディスク方式。 – スケールアウトが必要な場合は pgpool か Slony-I。 – 9.0以降はストリーミングレプリケーション(SR+HS)構成が可能。 共有ディスク方式 pgpool方式 SR+HS方式 Web/APサーバ Web/APサーバ Web/APサーバ Web/APサーバ Web/APサーバ Web/APサーバ 読み書き 読み込み可 不可 pgpoolサーバ マスタDB スレーブDB マスタDB スレーブDB SQL転送 ログ(レコード)転送 マスタDB スレーブDB 共有ストレージ Copyright 2012 Uptime Technologies LLC, All rights reserved. 50
  • 51. ストリーミング・レプリケーション • PostgreSQL 9.0で標準実装されるレプリケーション機能は、「ストリーミ ング・レプリケーション(SR)」と呼ばれています。 • ストリーミングレプリケーションは、1つのマスターノード(読み書き可能)と、 1つ以上のスレーブノード(読み込みのみ)で構成される、シングルマス タ・マルチスレーブ構成です。 • マスターノードは、マスターノード上で生成された更新情報(トランザクショ ンログ)をスレーブノードに転送します(ストリーミング)。 • スレーブノードは、ログレコードを待ち受け、受信したものを自身のノード のWALファイルに適用していきます。 • スレーブノードでは、リードオンリーのクエリを処理することができます (ホットスタンバイモード) 。 25.2. ログシッピングスタンバイサーバ http://www.postgresql.jp/document/9.0/html/warm-standby.html Copyright 2012 Uptime Technologies LLC, All rights reserved. 51
  • 52. ストリーミング・レプリケーション概念図 • ベースバックアップで「基準」を揃え、WALレコードを連続的に転送 (Streaming)することで「差分」を埋める。 マスター Crash WAL1 WAL2 WAL3 ①ベースバック アップの取得 Index ③WALレコードを継続的に適用 ④フェイル (Streaming) オーバー Table ②ベースバック アップを展開 WAL1 WAL2 WAL3 スレーブ Copyright 2012 Uptime Technologies LLC, All rights reserved. 52
  • 53. 参考文献 • 書籍・雑誌 – WEB+DB PRESS vol.24、25 「徒然PostgreSQL散策」 (技術評論 社) – WEB+DB PRESS vol.32~37 「PostgreSQL安定運用のコツ」 (技 術評論社) – WEB+DB PRESS vol.63 「Web開発の『べし』 『べからず』 」 (技術 評論社) – PostgreSQL徹底入門 第3版 (翔泳社) – データベースパフォーマンスアップの教科書 基本原理編 (翔泳社) – 日経SYSTEMS 2011年11月号「こちら検証ラボ PostgreSQL 9.1は どう進化したか」(日経BP) • オンラインドキュメント類 – PostgreSQL 9.0.4文書 http://www.postgresql.jp/document/9.0/html/index.html Copyright ~ PostgreSQLの実行計画を読む ~ (PDF版)53 – Explaining Explain 2012 Uptime Technologies LLC, All rights reserved.
  • 54. 【お問い合わせ先】 アップタイム・テクノロジーズ合同会社 永安 悟史 E-mail: snaga@uptime.jp Web: http://www.uptime.jp/ Copyright 2012 Uptime Technologies LLC, All rights reserved. 54