小西秀和です。
この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。
重複する内容については省略していますので、併せて元記事も御覧ください。
また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。
ALL | SAP | DOP | SCS | ANS | MLS | |
---|---|---|---|---|---|---|
SAA | DVA | SOA | DEA | MLA | AIF | CLF |
「AWS Certified Data Engineer - Associate(DEA)」とは
「AWS Certified Data Engineer - Associate(DEA)」は、AWSクラウド環境下でデータパイプラインの設計、構築、運用、モニタリング、最適化するデータエンジニアリングに関する能力を認証する認定です。
具体的には、データの取り込み、変換、パイプラインのオーケストレーション、最適なデータストアの選択、データモデルの設計、データスキーマのカタログ化、データライフサイクルの管理、データパイプラインの運用保守、データ分析と品質保証、適切なセキュリティ対策とプライバシー保護の実装など、広範なスキルが求められます。
AWS公式のAWS Ramp-Up Guidesには、本記事執筆時点でデータエンジニアに関する「ロール別 Ramp-Up Guides」は提供されていません。ただし、「Ramp-Up Guides by Solution」で紹介されている「データ分析」が提供されており、AWSにおけるデータエンジニアリングの学習パスとして参考になるでしょう。
一方で職種を踏まえてどのAWS認定が適しているのかを紹介しているPlan your AWS Certification Journey(AWS認定パス)ではData AnalyticsにおけるCloud data engineerのAWS認定パスとして次のものが提示されているため、前提となっているAWS認定を先に取得するという選択肢もあります。
AWS Certified Cloud Practitioner -> AWS Certified Solutions Architect – Associate -> AWS Certified Data Engineer - Associate | AWS Certified Security - Specialty
このように、「AWS Certified Data Engineer - Associate」はAWSの広範なサービス知識を前提にデータパイプラインの設計、実装、セキュリティ対策の適用などデータエンジニアリングに関する知識が評価されるため、AWS認定の中でも特にデータエンジニアリングにおいて実践的な内容が問われる認定と言えるでしょう。
従来の「AWS Certified Data Analytics – Specialty」と新しい「AWS Certified Data Engineer - Associate」の違い、共通点
「AWS Certified Data Engineer - Associate」の試験ガイドと「AWS Certified Data Analytics – Specialty」の試験ガイドを比較してまとめると次のような違いが見受けられます。
「AWS Certified Data Analytics – Specialty」はデータからインサイトを抽出し、分析ソリューションを提供する能力に重点を置いて、特にデータ分析に関する深い知識に焦点を当てたAWS認定でした。
具体的にはAWSのデータ分析サービスの定義、統合方法の理解、データライフサイクル(収集、保管、処理、可視化)に対するAWSデータ分析サービスの適用方法などです。
経験要件も般的なデータ分析テクノロジー分野での5年間の経験と、AWS のサービスを使用した分析ソリューションの設計、構築、保護、および保守のための最低2年間の実践的な経験という内容が挙げられています。
「AWS Certified Data Engineer - Associate」はデータパイプラインの構築・運用・最適化、データ管理、セキュリティとプライバシーに関する能力に重点を置いて、特にデータエンジニアリングにおける広範な実務経験に焦点を当てています。
具体的にはプログラミング概念の適用、データパイプラインのオーケストレーション、最適なデータストアの選択、データモデルの設計、データスキーマのカタログ化、データライフサイクルの管理、運用・保守・モニタリング、データの分析と品質確保、セキュリティとガバナンスの実装などです。
経験要件もデータエンジニアリングの分野で2~3年の実務経験と、AWS サービスによる1~2年以上の実務経験という内容が挙げられています。
一方で「AWS Certified Data Engineer - Associate」と「AWS Certified Data Analytics – Specialty」で共通する点にはAWSのデータ分析関連サービスの理解と利用、データセキュリティ(データ暗号化、アクセス管理)、データライフサイクルの管理(収集、保存、処理、分析、可視化)、データソリューションの最適化(コスト、パフォーマンス)などが挙げられます。
そのため、「AWS Certified Data Analytics – Specialty」のAWS認定を既に取得している方は既存の知識をベースにしながら、「AWS Certified Data Engineer - Associate」に向けてデータ分析に関連するAWSサービスのより具体的な設計、構築、運用を意識して学習するのが良いと思います。
「AWS Certified Data Engineer - Associate」の学習方法
この認定に関係しているAWSの関連カテゴリと主要AWSサービスには以下のものが挙げられます。
【関連カテゴリ】:分析、アプリケーション統合、クラウド財務管理、コンピューティング、コンテナ、データベース、デベロッパーツール、フロントエンドのウェブとモバイル、機械学習、マネジメントとガバナンス、移行と転送、ネットワークとコンテンツ配信、セキュリティ、アイデンティティ、コンプライアンス、ストレージ
【主要AWSサービス】:Amazon Athena、Amazon EMR、AWS Glue、AWS Glue DataBrew、AWS Lake Formation、Amazon Kinesis Data Firehose、Amazon Kinesis Data Streams、Amazon Managed Service for Apache Flink、Amazon MSK、Amazon OpenSearch Service、Amazon QuickSight、Amazon AppFlow、Amazon EventBridge、Amazon MWAA、Amazon SNS、Amazon SQS、AWS Step Functions、AWS Budgets、AWS Cost Explorer、AWS Batch、Amazon EC2、AWS Lambda、AWS SAM、Amazon ECR、Amazon ECS、Amazon EKS、Amazon DocumentDB、Amazon DynamoDB、Amazon Keyspaces、Amazon MemoryDB for Redis、Amazon Neptune、Amazon RDS、Amazon Redshift、AWS CLI、AWS Cloud9、AWS CDK、AWS CodeBuild、AWS CodeCommit、AWS CodeDeploy、AWS CodePipeline、Amazon API Gateway、Amazon SageMaker、AWS CloudFormation、AWS CloudTrail、Amazon CloudWatch、Amazon CloudWatch Logs、AWS Config、Amazon Managed Grafana、AWS Systems Manager、AWS Well-Architected Tool、AWS Application Discovery Service、AWS Application Migration Service、AWS DMS、AWS DataSync、AWS SCT、AWS Snow Family、AWS Transfer Family、Amazon CloudFront、AWS PrivateLink、Amazon Route 53、Amazon VPC、AWS IAM、AWS KMS、Amazon Macie、AWS Secrets Manager、AWS Shield、AWS WAF、AWS Backup、Amazon EBS、Amazon EFS、Amazon S3、Amazon S3 Glacier
※AWS Skill Builderに関するリンクはAWS Skill Builderにサインインしてからクリックしてください。
学習順 | 学習リソース | 学習リソースの活用ポイント | 費用(税別) |
---|---|---|---|
随時 | AWSドキュメント | AWSドキュメントのうち上記に挙げた【関連カテゴリ】および【主要AWSサービス】に関係するものを中心に読みます。ただし、量が膨大なため以降の順番の中で辞書的に使用して、最後に受験まで余裕があったら学習過程で気づいた重要部分やサービス間連携する機能から優先的に熟読するという使い方をしています。 | 無料 |
随時 | AWS認定対策本 | 受験するAWS認定の対策本が出版されていれば、その本から学習していくことも効率的な方法だと思います。私の場合は受験当時に対策本があまり無かったため、使用する機会がありませんでした。 |
2,000円~4,000円程度 |
随時 | 検索エンジンでキーワード検索 | 後述の学習リソースでわからなかったキーワードや内容を随時、検索エンジンで検索して出てきたブログなどを参考にします。特に日本語だけではなく英語で検索することは日本語サイトにはまだ掲載が少ない情報を英語圏のサイトから得ることで理解を深めることができるためおすすめです。 | 無料 |
随時 | 生成AIサービスで質問応答 | 最近では生成AIサービスで質問応答をすることも有用です。AWSではAmazon Bedrockのマネジメントコンソールでモデルアクセスを有効化して、Anthropic Claude v2.1、Amazon Titan Text G1 - Express v1などをプレイグラウンドから使用する方法やマネジメントコンソールの右のアイコンからAmazon Qを使用する方法などがあります。 | サービスによって異なる |
随時 | AWS Skill Builder(Introduction、Primer、Deep Dive) | 各サービス毎にIntroduction、Primer、Deep Diveといったデジタルトレーニングが用意されている場合があります。私は自分が詳しく知らないAWSサービスを検索して存在すれば受けるようにしていました。 | 無料 |
1 | 試験ガイド | 試験ガイドで受験するAWS認定の試験範囲とどのような内容が出題されるかを把握します。 | 無料 |
2 | サンプル問題 | 試験ガイドとセットで掲載されているサンプル問題を解いて、出題傾向を把握します。 | 無料 |
3 | AWS Skill Builder(Learning plans) | Learning plansは複数のデジタルトレーニングを分野ごとにまとめた学習プランです。「AWS Certified Data Engineer - Associate」に関連する「Data Analytics Learning Plan」「Database Learning Plan: Database Fundamentals」で学習をすすめると効率的でしょう。 ※後述する「Fundamentals of Analytics on AWS」は、「Data Analytics Learning Plan」に含まれています。「Data Analytics Learning Plan」の中で受講して再度復習するのもよいですし、時間がない場合には「Data Analytics Learning Plan」全部を受講せずに「Fundamentals of Analytics on AWS」など学習したいものだけを受講するのも良いと思います。 |
無料 |
4 | AWS Skill Builder(Fundamentals of Analytics on AWS) | Fundamentals of Analytics on AWSはデータ分析におけるAWSサービスの基礎的な使用方法に焦点を当てたデジタルトレーニングです。AWSサービスを使用したデータ分析に関する基礎的な用語や概念、アーキテクチャやフロー、ベストプラクティスをまとめて把握できるので受けてみることをおすすめします。 | 無料 |
5 | AWS Skill Builder(Exam Readiness(試験準備)) | Exam Readinessは試験準備のための要点がまとめられているデジタルトレーニングです。該当するAWS認定に関連するAWSサービスや出題傾向をここで把握します。「AWS Certified Data Engineer - Associate」にもExam Readinessはあるため受けてみることをおすすめします。 | 無料 |
6 | AWS Skill Builder(AWS Certification Official Practice Question Sets(模擬試験)) | 受験するAWS認定の出題傾向や重要点を確認できるため、試験直前の腕試しではなく可能な限り早い段階で受けることをおすすめします。受験する分野の既存知識があれば最初に受けても良いと思います。模擬試験はAWS Skill Builderに移行されてからは受験料が無料になりました。 | 無料 |
7 | AWSサービス別資料 | AWS Black Belt Online Seminarの資料が中心に掲載されており、重要ポイントが非常によくまとめられています。上記に挙げた【関連カテゴリ】「分析」「アプリケーション統合」「移行と転送」に分類される【主要AWSサービス】の知識は受験前に最低限インプットしておきます。 | 無料 |
8 | Knowledge Center(情報センター) | AWSのユーザーから最も頻繁に寄せられる質問と要望に対する回答がまとめられているため、AWS認定は勿論のこと実務でも非常に参考になります。上記に挙げた【関連カテゴリ】「分析」「アプリケーション統合」「移行と転送」に分類される【主要AWSサービス】が関係するQ&Aの知識は受験前に最低限インプットしておきます。 | 無料 |
9 | よくある質問 | 各サービス毎に用意されている「よくある質問」も一般的なQ&Aが記載されています。Knowledge Center(情報センター)が実践的なQ&Aであるのに対して、基礎知識の整理と確認に有用です。上記に挙げた【関連カテゴリ】および【主要AWSサービス】に関係するQ&Aを中心に読んでいきます。 | 無料 |
10 | データ分析レンズ - AWS Well-Architected Framework | AWSにはAWS Well-Architected Frameworkと呼ばれるAWSの長年の設計経験に基づいたベストプラクティス集があります。AWS Well-Architected Frameworkは実際のアーキテクチャ設計レビューなどでも活用される実践的なもので、年々進化するAWSサービスのアップデートに伴い、その内容も変わっていくためAWSの設計概念を知るには非常に有用です。AWS Well-Architected Frameworkにはデータ分析レンズという分析の設計方法に焦点を当てたベストプラクティス集も追加されているため、各Best practicesのポイント、アーキテクチャなどは少なくとも読んでおいたほうが良いでしょう。 ※特に重要なのは各Best practicesの説明ページの中で「refer to the following」として紹介されているドキュメントやブログ記事の内容です。 |
無料 |
11 | AWS Blog日本語版(Category: Analytics) AWS Blog日本語版(Category: AWS Big Data) |
受験するAWS認定に関連するサービスの記事を中心に問題解決方法、アーキテクチャ、事例、認定が新設・改定される前にリリースされた機能追加について情報収集をします。AWS認定だけではなく業務でも有用なので定期的に読む習慣をつけると良いと思います。 | 無料 |
12 | AWS Blog英語版AWS Big Data Blog) | 英語版は「分析」分野のカテゴリに特化した「AWS Big Data Blog」があるため、問題解決方法、アーキテクチャ、事例、認定が新設・改定される前にリリースされた機能追加の内容を中心に読んでおきます。 | 無料 |
13 | AWS Events Content | 時間に余裕があれば、過去のAWS Summitやre:Inventの資料などを検索して、受験するAWS認定に関連するサービスを学習します。特にre:InventのSessionで説明されている内容は参考になります。 | 無料 |
参考:
AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ
AWS Certified Data Engineer - Associate 認定 | AWS 認定
AWS Blog
Welcome to AWS Documentation
AWS Skill Builder
AWS Certification - Validate AWS Cloud Skills - Get AWS Certified
Reasons for Continually Obtaining All AWS Certifications, Study Methods, and Levels of Difficulty
Tech Blog with related articles referenced
「AWS Certified Data Engineer - Associate」の学習過程で重要だと思った点
ここからは私が「AWS Certified Data Engineer - Associate」の学習過程でAWS認定のみならず実務的にも重要だと思った点をまとめてみます。
ただし、重要だと思う点に個人差があること、この記事の執筆時に思い出せず書き忘れがある可能性もあることをご了承ください。
Amazon S3
- Amazon S3 ストレージクラスを使用する
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/storage-class-intro.html - 暗号化によるデータの保護
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/UsingEncryption.html - S3 Object Lambda を使用したオブジェクトの変換
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/transforming-objects.html
Amazon EC2
- EBSボリューム変更時の要件
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/modify-volume-requirements.html
AWS Lambda
- Lambda レイヤーでの作業
https://docs.aws.amazon.com/ja_jp/lambda/latest/dg/chapter-layers.html - プロビジョニング済み同時実行の設定
https://docs.aws.amazon.com/ja_jp/lambda/latest/dg/provisioned-concurrency.html
AWS Data Exchange
- AWS Data Exchangeの概要
https://docs.aws.amazon.com/ja_jp/data-exchange/latest/userguide/what-is.html
AWS DataSync
Amazon AppFlow
Amazon Timestream
- Amazon Managed Service for Apache Flinkとの連携
https://docs.aws.amazon.com/ja_jp/timestream/latest/developerguide/ApacheFlink.html
AWS Database Migration Service
- AWS Database Migration Serviceの概要
https://docs.aws.amazon.com/ja_jp/dms/latest/userguide/CHAP_Introduction.HighLevelView.html
AWS Step Functions
- AWS Step Functionsの概要
https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/welcome.html - Step Functions の最適化された統合
https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/connect-supported-services.html - Step FunctionsのMap状態
https://docs.aws.amazon.com/ja_jp/step-functions/latest/dg/amazon-states-language-map-state.html
Amazon Managed Service for Apache Flink(旧 Amazon Kinesis Data Analytics)
- Amazon Managed Service for Apache Flinkの概要
https://docs.aws.amazon.com/ja_jp/managed-flink/latest/java/what-is.html - Amazon Managed Service for Apache Flink のランダムカットフォレストによるリアルタイム異常検出
https://aws.amazon.com/jp/blogs/news/real-time-anomaly-detection-via-random-cut-forest-in-amazon-kinesis-data-analytics/
Application Auto Scaling
- Application Auto Scalingの概要
https://docs.aws.amazon.com/ja_jp/autoscaling/application/userguide/what-is-application-auto-scaling.html
AWS Secrets Manager
- AWS Secrets Managerの概要
https://docs.aws.amazon.com/ja_jp/secretsmanager/latest/userguide/intro.html
AWS Systems Manager
- AWS Secrets ManagerとAWS Systems Manager Parameter Storeの違い
https://aws.amazon.com/jp/systems-manager/faq/
Amazon Athena
- Athenaでのパフォーマンスチューニング(パーティション、データの圧縮と分割、ファイルサイズ最適化、ファイル形式Apache ParquetとApache ORCの使用など)
https://aws.amazon.com/jp/blogs/news/top-10-performance-tuning-tips-for-amazon-athena/ - Athena でのパフォーマンスのチューニング(クエリの最適化など)
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/performance-tuning.html - ワークグループの仕組み
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/user-created-workgroups.html - ワークグループを使用するメリット
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/workgroups-benefits.html - 使用可能なデータソースコネクタ
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/connectors-available.html - Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation
https://aws.amazon.com/jp/blogs/big-data/anonymize-and-manage-data-in-your-data-lake-with-amazon-athena-and-aws-lake-formation/ - AthenaのSQLリファレンス(SELECT文)
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/select.html - Athenaのクエリ結果、出力ファイル、クエリ履歴の使用とIAM権限制御
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/querying.html - Amazon Athena、Amazon S3 Select、Amazon S3 Glacier Selectの違い(対象サービス、対象ファイル形式、検索方式、コストなど)
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/when-should-i-use-ate.html
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/selecting-content-from-objects.html
https://docs.aws.amazon.com/ja_jp/amazonglacier/latest/dev/glacier-select.html
https://aws.amazon.com/jp/blogs/news/s3-glacier-select/
https://aws.amazon.com/jp/blogs/news/querying-data-without-servers-or-databases-using-amazon-s3-select/ - データ使用量の制御制限の設定
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/workgroups-setting-control-limits-cloudwatch.html - Orchestrate Amazon EMR Serverless Spark jobs with Amazon MWAA, and data validation using Amazon Athena
https://aws.amazon.com/jp/blogs/big-data/orchestrate-amazon-emr-serverless-spark-jobs-with-amazon-mwaa-and-data-validation-using-amazon-athena/
Amazon EMR
- Amazon EMRがサポートするアプリケーション(Apache Hadoop、Apache HBase、Apache Hive、Hue、Apache Pig、Presto、Apache Sparkなど)
https://docs.aws.amazon.com/ja_jp/emr/latest/ReleaseGuide/emr-release-components.html - Amazon EMR now provides up to 30% lower cost and up to 15% improved performance for Spark workloads on Graviton2-based instances
https://aws.amazon.com/jp/blogs/big-data/amazon-emr-now-provides-up-to-30-lower-cost-and-up-to-15-improved-performance-for-spark-workloads-on-graviton2-based-instances/ - Apache Hive メタストアを Amazon EMR に移行してデプロイする
https://aws.amazon.com/jp/blogs/news/migrate-and-deploy-your-apache-hive-metastore-on-amazon-emr/ - Amazon EMRでAmazon S3のHBaseを使用。別AZへのリードレプリカクラスターの配置で可用性向上。
https://docs.aws.amazon.com/ja_jp/emr/latest/ReleaseGuide/emr-hbase-s3.html
https://aws.amazon.com/jp/emr/features/hbase/ - Amazon EMRのIAM管理とEMRFS(S3を使用するHDFS実装)のIAMロールによるアクセス制御
https://docs.amazonaws.cn/en_us/emr/latest/ManagementGuide/emr-iam-roles.html
https://docs.amazonaws.cn/en_us/emr/latest/ManagementGuide/emr-emrfs-iam-roles.html - AWS CLI、EMR APIでのステップの実行後のクラスター自動終了のコントロール
https://docs.aws.amazon.com/ja_jp/emr/latest/ManagementGuide/emr-plan-longrunning-transient.html - Amazon EMRのブロックパブリックアクセス(Block Public Access)
https://docs.aws.amazon.com/ja_jp/emr/latest/ManagementGuide/emr-block-public-access.html - Amazon EMRでAuto Scalingするためのメトリクス(YarnMemoryAvailablePercentage、ContainerPendingRatio)
https://aws.amazon.com/jp/premiumsupport/knowledge-center/auto-scaling-in-amazon-emr/ - Amazon EMRのS3DistCpを使用したAmazon S3データのHDFSへのコピー
https://docs.aws.amazon.com/ja_jp/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html - Amazon EMRのPrestoでAWS Glue Data Catalogを使用する
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-glue.html - Amazon EMRのJDBCデータベースコネクタの追加
https://docs.aws.amazon.com/ja_jp/emr/latest/ReleaseGuide/presto-adding-db-connectors.html - Amazon EMRの暗号化
https://docs.aws.amazon.com/ja_jp/emr/latest/ManagementGuide/emr-data-encryption-options.html - Amazon EMRのCloudWatchメトリクス
https://docs.aws.amazon.com/ja_jp/emr/latest/ManagementGuide/UsingEMR_ViewingMetrics.html - 追加ソフトウェアをインストールするためのブートストラップアクション
https://docs.aws.amazon.com/ja_jp/emr/latest/ManagementGuide/emr-plan-bootstrap.html
AWS Glue
- Introducing AWS Glue Flex jobs: Cost savings on ETL workloads
https://aws.amazon.com/jp/blogs/big-data/introducing-aws-glue-flex-jobs-cost-savings-on-etl-workloads/ - Orchestrate an ETL pipeline using AWS Glue workflows, triggers, and crawlers with custom classifiers
https://aws.amazon.com/jp/blogs/big-data/orchestrate-an-etl-pipeline-using-aws-glue-workflows-triggers-and-crawlers-with-custom-classifiers/ - Extract multidimensional data from Microsoft SQL Server Analysis Services using AWS Glue
https://aws.amazon.com/jp/blogs/big-data/extracting-multidimensional-data-from-microsoft-sql-server-analysis-services-using-aws-glue/ - チュートリアル: AWS Glue クローラの追加
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/tutorial-add-crawler.html - AWS Glue接続の追加
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/console-connections.html - 機密データを検出して処理する
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/detect-PII.html - AWS Lake Formation FindMatchesによるレコードのマッチング
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/machine-learning.html - AWS Glue DataBrewの概要
https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/what-is.html - すべてのAWSコールをVPCを経由するように設定する
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/connection-VPC-disable-proxy.html - VPCエンドポイントを使用してAmazon S3データストアをクロールする
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/connection-S3-VPC.html - AWS Glueジョブの完了前後にAmazon RedshiftでSQLコマンドを実行する
https://aws.amazon.com/jp/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/ - Amazon S3のイベント通知で呼び出したAWS Lambda関数でAWS Glueを実行する。
https://aws.amazon.com/jp/blogs/news/build-and-automate-a-serverless-data-lake-using-an-aws-glue-trigger-for-the-data-catalog-and-etl-jobs/ - オンプレミスデータベースをAWS DMSでAmazon S3にストリーミングし、AWS Glueで分析基盤に取り込む
https://aws.amazon.com/jp/blogs/news/loading-ongoing-data-lake-changes-with-aws-dms-and-aws-glue/ - Amazon Athenaを使用したクロスアカウント、クロスリージョンのAWS Glueデータカタログ
https://aws.amazon.com/jp/blogs/news/cross-account-aws-glue-data-catalog-access-with-amazon-athena/
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/cross-account-permissions.html
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/fine-grained-access-to-glue-resources.html - AWS Glueがサポートしているアプリケーション(PythonとPySpark拡張機能、Scala)でのAWS Glue ETLスクリプトプログラミング
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-programming.html - AWS Glueジョブブックマークを使用した処理済みデータの追跡
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/monitor-continuations.html
https://aws.amazon.com/jp/blogs/news/process-data-with-varying-data-ingestion-frequencies-using-aws-glue-job-bookmarks/ - AWS Glueで最適化されたParquetライター
https://aws.amazon.com/jp/blogs/news/load-data-incrementally-and-optimized-parquet-writer-with-aws-glue/
Amazon Kinesis
- Amazon Kinesis Data Streamsの概要(シャード、パーティションキー、シーケンス番号、Kinesis Client Libraryの使用)
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/key-concepts.html
https://aws.amazon.com/jp/kinesis/data-streams/faqs/
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/shared-throughput-kcl-consumers.html - Amazon Kinesis Data Firehoseが連携できるサービス
https://docs.aws.amazon.com/ja_jp/firehose/latest/dev/what-is-this-service.html - Amazon Kinesis Data Analyticsの前処理と出力先でのAWS Lambda関数連携
https://docs.aws.amazon.com/ja_jp/kinesisanalytics/latest/dev/lambda-preprocessing.html
https://docs.aws.amazon.com/ja_jp/kinesisanalytics/latest/dev/how-it-works-output-lambda-functions.html - プロデューサーおよびコンシューマーの再試行で発生した重複レコードの処理
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/kinesis-record-processor-duplicates.html - Amazon Kinesis Data Streamsのスケーリングメカニズムとシャードのバランス調整
https://aws.amazon.com/jp/blogs/news/under-the-hood-scaling-your-kinesis-data-streams/ - AWS Application Auto Scalingを使用したAmazon Kinesis Data Streamsのスケーリング
https://aws.amazon.com/jp/blogs/news/scaling-amazon-kinesis-data-streams-with-aws-application-auto-scaling/ - Amazon Kinesis Data StreamsとAmazon Kinesis Data Analyticsを組み合わせた開発
https://aws.amazon.com/jp/blogs/news/new-amazon-kinesis-data-analytics-for-java/ - Amazon Kinesis Data Streamsの拡張ファンアウトでスループットを専有してレコードを受け取るコンシューマーを開発
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/enhanced-consumers.html
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/building-enhanced-consumers-api.html
https://aws.amazon.com/jp/blogs/news/kds-enhanced-fanout/ - リシャーディング戦略とリシャーディング後の親シャードの処理
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/kinesis-record-processor-scaling.html
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/kinesis-using-sdk-java-resharding.html
https://docs.aws.amazon.com/ja_jp/streams/latest/dev/kinesis-using-sdk-java-after-resharding.html
AWS Lake Formation
- AWS Lake Formationの概要(統合できるサービスと仕組み)
https://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/what-is-lake-formation.html
https://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/how-it-works.html
https://aws.amazon.com/jp/lake-formation/features/ - データレイクへのAmazon S3ロケーションの追加
https://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/register-data-lake.html - Lake Formation でのデータフィルター
https://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/data-filters-about.html - 細粒度のアクセスコントロールのための方式
https://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/access-control-fine-grained.html - 行レベルのアクセスコントロールによるデータレイクの保護
https://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/cbac-tutorial.html
Amazon Managed Streaming for Kafka(Amazon MSK)
- Amazon MSKとAmazon Kinesis Data Streamsの使い分け(既存のKafkaの移行。基本的にはAmazon Kinesis Data Streams。)
https://www.slideshare.net/AmazonWebServicesJapan/20191120-aws-black-belt-online-seminar-amazon-managed-streaming-for-apache-kafka-amazon-msk
Amazon QuickSight
- QuickSightでサポートされているデータソース
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/supported-data-sources.html - QuickSightでIDフェデレーションとシングルサインオン(SSO)を使用
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/external-identity-providers.html - Amazon QuickSightからAmazon Redshiftへの接続とIPアドレス範囲制限
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/enabling-access-redshift.html - Amazon QuickSightからAmazon Athenaへの接続とAmazon S3のアクセス許可
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/athena.html - QuickSightのML Insightsによる異常検知
https://aws.amazon.com/jp/blogs/news/amazon-quicksight-announces-general-availability-of-ml-insights/ - 行レベルのセキュリティ(RLS)を使用したデータセットへのアクセスの制限
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/restrict-access-to-a-data-set-using-row-level-security.html - 列レベルのセキュリティ(CLS)を使用したデータセットへのアクセスの制限
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/restrict-access-to-a-data-set-using-column-level-security.html - Amazon QuickSightで使用できるビジュアルタイプと各ビジュアルタイプのユースケース
https://docs.aws.amazon.com/ja_jp/quicksight/latest/user/working-with-visual-types.html
Amazon Redshift
- Redshiftの概要(ペタバイト規模の構造化および半構造化データを標準的なSQLでクエリできるデーテウェアハウス)
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/welcome.html - ステージングテーブルの使用
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/merge-create-staging-table.html
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html - Amazon Redshift Data APIの使用
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/data-api.html - Amazon EventBridgeでのAmazon RedshiftデータAPIのイベントのモニタリング
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/data-api-monitoring-events.html - Amazon Redshiftマテリアライズドビューのストリーミング取り込み
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/materialized-view-streaming-ingestion.html - マテリアライズドビューでのユーザー定義関数(UDF)の使用
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/materialized-view-UDFs.html - Amazon Redshiftでのデータ共有の概要
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/data_sharing_intro.html - Amazon Redshiftでのクラスターパフォーマンスに関する問題のトラブルシューティング
https://repost.aws/ja/knowledge-center/redshift-cluster-degrade - Amazon RedshiftのVACUUMコマンドの仕様
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/r_VACUUM_command.html - Amazon Redshift Serverless のご紹介 – データウェアハウスインフラストラクチャを管理することなく、あらゆる規模で分析を実行
https://aws.amazon.com/jp/blogs/news/introducing-amazon-redshift-serverless-run-analytics-at-any-scale-without-having-to-manage-infrastructure/ - Amazon RedshiftとAmazon Redshift Spectrumの併用
https://aws.amazon.com/jp/blogs/news/10-best-practices-for-amazon-redshift-spectrum/ - Amazon Redshift Spectrum外部テーブルでのApache Parquetファイルの使用とパーティション化
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c-spectrum-external-tables.html - Amazon RedshiftのAWS KMSまたはHSMを使用した暗号化
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/working-with-db-encryption.html - Amazon Redshiftのデータロード高速化(最適サイズ1MB~125MB、ファイル数はクラスター内のスライス数の倍数、単一COPYコマンドの使用)
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_loading-data-best-practices.html
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_best-practices-use-multiple-files.html
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/r_COPY.html
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_best-practices-single-copy-command.html - COPYコマンドでのマニフェストファイルを使用したデータファイル指定
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/loading-data-files-using-manifest.html - データ分散スタイルの特徴(EVEN:結合に関与しないテーブル、KEY:結合するテーブル、ALL:更新頻度、更新範囲が少ないテーブル)
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_choosing_dist_sort.html - ワークロード管理(WLM)によるクエリ同時実行数とメモリ割り当て管理
https://docs.aws.amazon.com/redshift/latest/dg/cm-c-implementing-workload-management.html - 同時実行スケーリングによるクラスター容量の自動追加
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/concurrency-scaling.html - 同時実行スケーリングキューの設定
https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/concurrency-scaling-queues.html - ノードタイプ(高密度ストレージノードタイプ、高密度コンピューティングノードタイプ)の特徴
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/working-with-clusters.html - 伸縮自在なサイズ変更(Elastic Resize)の特徴
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/managing-cluster-operations.html - Amazon Redshiftの監査ログの有効化
https://aws.amazon.com/jp/premiumsupport/knowledge-center/logs-redshift-database-cluster/
https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/db-auditing.html - Amazon Redshiftの列レベルのアクセス制御
https://aws.amazon.com/jp/blogs/news/achieve-finer-grained-data-security-with-column-level-access-control-in-amazon-redshift/
Amazon CloudWatch Logs
- Amazon CloudWatch Logsにログを発行するAWSのサービス
https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/logs/aws-services-sending-logs.html - Amazon CloudWatch Logsからデータ連携できるAWSサービス(Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose、Amazon Elasticsearch Service、Amazon S3など)
https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/logs/SubscriptionFilters.html
https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/logs/CWL_ES_Stream.html
https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/logs/S3Export.html