BeeX Tech blog

BeeXではクラウドネイティブアプリ開発、企業の基幹クラウド基盤構築、システム移行、運用保守を行っています。

データプラットフォームを支える技術:ETL処理の重要性とAWS Glueの紹介

はじめに データ準備の重要性 データ活用までの流れ データETLの課題 ETL処理の基礎知識 ETLの構成要素 (補足)ELTとの違い AWS GlueによるデータETL AWS Glueの概要 1. データの検出とカタログ管理 2. 多様なETLジョブ作成環境 3.ストリーミング処理(AWS …

「AWSエンジニアがSAPのデータ抽出してみた」というタイトルでクラウド食堂 #2 ~AWSネタでLT会~に登壇しました

発表内容 登壇の感想 おわりに こんにちは、データインテリジェンス部の平野です。 3月26日に開催された「クラウド食堂 #2 ~AWSネタでLT会~」というイベントで、「AWSエンジニアがSAPのデータ抽出してみた」というタイトルで登壇してきました。 発表内容 spe…

GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介

はじめに 構築構成 構築方法 前提 事前準備 構築作業 リポジトリ構成 templateフォルダ構成 variables.tf glue_job_sample_script.tf s3-glue-redshift-insert-job.py step_functions.tf redshift_serverless.tf glue_connection.tf vpc_endpoint.tf docker-…

Redshift SpectrumからクロスアカウントでS3アクセスしてみた

やりたいこと 前提条件 設定のポイント 検証 1.アカウント1にRedshiftとの信頼関係を持つIAMロールを作成してRedshiftに関連づける 2.アカウント2にGlueおよびS3へのアクセス権を持つポリシーを作成する 3.アカウント2にロールを作成する 4.アカウント1…

【re:Invent 2018】AWS Glue周りの発表を聞いてきた(Python Shell、CloudWatch Event連携、Lake Formation)

AWS Glue とは re:Invent 2018が開催されているラスベガスにいる Yusuke 特派員が、AWS Glue 関連の新機能をまとめてBlogにあげてくれたので、本Blogでもご紹介します。 AWS Glueとは、サーバーレスでクラウド向けに最適化された完全マネージド型 ETL サービ…