db tech showcase

dbtsブログ

このエントリーをはてなブックマークに追加

【dbts2023 レポート①】オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 – データの抽出、保存形態、必要となる前処理 –

クラウド データ分析 ビッグデータ/データレイク
【dbts2023 レポート①】オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 – データの抽出、保存形態、必要となる前処理 –

こんにちは、株式会社インサイトテクノロジー コンサルティング本部第2部 森山です。今回は、db tech showcase 2023 1日目のH12のセッションである「オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -」のレポートをお届けします。

セッション概要

企業の中にある各種システムからクラウド上の分析基盤(データレイク)にデータを取り込み、クラウドのパフォーマンスを活かして分析する手法は一般的になりつつあります。企業はオンプレミス上でRDBを多数活用しており、そのデータをクラウド上に効率よく取り込み、活用しやすい形で保存することが、データ活用促進の鍵です。本セッションでは、主にRDB上のデータを取得する際の手法と、取得したデータをどのような形にしてデータレイク上に保存するかという「データ取り込み」部分にフォーカスした説明を行います。環境はAWSを前提にしていますが、他クラウドのオブジェクトストレージへのデータ取り込み方法の一般論としても応用可能です。

スピーカー名:Amazon Web Services Japan G.K.
データ事業本部ポートフォリオスペシャリストソリューション部
シニアアナリティクススペシャリストソリューションアーキテクト
下佐粉 昭 様

はじめに

こちらのセッションでは、データレイクへのデータの取り込みをテーマに、以下の3つをご説明いただきました。

  • なぜデータレイクを作るのか?
  • データが無いと活用が進まないが、どのようにすればデータソース(RDBMS等)からデータを取り出せるか?
  • RDBMSから取り出したデータはデータレイク上でどのように配置、更新するべきか?どのようにして性能を担保するか?

1. なぜデータレイクを作るのか?

データレイクとは、データをありのままの形で保存しておくリポジトリのことを言い、データの分析といった処理系とは分離しています。

この「分離」がポイントです。

ライフスパンの異なる、データの蓄積と処理系を分離することで、変化に対応しやすいシステムを構築することができるのです。

例えば

  • データレイクが1つあれば、処理系は自由に切り替えることが可能。これにより新技術に将来的なニーズに対応可能となる。
  • データレイク側で要件の変更があった際、処理系の変更も行う必要が無い。

などのメリットがあります。

AWSにおいては、S3がデータレイクに当たり、様々な製品の中心にあります。そのため、極端な話、S3にデータを保存しておけば、基本何でもつながるという話もされていました。

2. データが無いと活用が進まないが、どのようにすればデータソース(RDBMS等)からデータを取り出せるか?

データの少ないデータレイクは活用されづらいため、データ量・バリエーションを確保する必要があります。

この時意識することは、データの出し手と受け手が存在し、業務側に当たるデータの出し手は、データ量を増やすための新たな業務の追加や、システムに負荷がかかる処理をしたがらないということです(私は業務側の経験はありませんが、想像はできます…)。

そのため、まずはデータの受け手が、技術で対応することが求められます。

主な方針としては以下が挙げられていました(抜粋)。

・データの出し手に、フォーマット変換や整形を要求せず、「あるがままで」データを受け取る
・フォーマット変換や整形は、データレイク側でクラウドを活用して安く・速く
・AWSサービスを活用してデータレイク側の運用・構築負担を減らす

3. RDBMSから取り出したデータはデータレイク上でどのように配置、更新するべきか?どのようにして性能を担保するか?

データソースの更新をどのようにデータレイクに反映させるかについて、ポイントはいくつかありますが、セッションでは特に「データのサイズ」が強調されていました。

  • データサイズが小さい
    • 手法の選択肢が多い
      • 例:全部コピーする
  • データサイズが大きい
    • 差分の抽出方法の検討が必要
      • 例:CDC(Change Data Capture)

データの反映方法以外に、更新のタイミングについてもポイントがあります。ここでは、更新頻度の観点でのポイントをまとめます。

  • マスタデータ
    • 一般的にデータサイズが小さく、変更頻度が少ない
      • 更新の反映のために必ずしも差分を取る必要はなく、版管理のイメージでデータを保存する手もある
  • トランザクションデータ
    • 一般的にデータサイズが大きく、更新も多い
      • データソース側がInsert (追記)だけか、Update/Deleteもあるかを確認し、それに応じた対応をとる

聴講した感想

セッション名には「手法の整理」とありましたが、実際にはデータレイクがなぜ必要なのかという基本的な事項からご説明いただきました。まだまだ駆け出しで身である私からすると、学びの多いセッションでした。

スピーカーの方が書いている著書を読んで、さらにデータレイクの知見を深めていきたいと思います。

一覧に戻る