db tech showcase

dbtsブログ

このエントリーをはてなブックマークに追加

【dbts2023 レポート②】オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 – データの抽出、保存形態、必要となる前処理 –

クラウド データ分析 ビッグデータ/データレイク
【dbts2023 レポート②】オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 – データの抽出、保存形態、必要となる前処理 –

こんにちは、株式会社インサイトテクノロジー コンサルティング本部 松岡です。
db tech showcase 2023 2日目のH12のセッションである「オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -」のレポートをお届けします。

セッション概要

企業の中にある各種システムからクラウド上の分析基盤(データレイク)にデータを取り込み、クラウドのパフォーマンスを活かして分析する手法は一般的になりつつあります。企業はオンプレミス上でRDBを多数活用しており、そのデータをクラウド上に効率よく取り込み、活用しやすい形で保存することが、データ活用促進の鍵です。本セッションでは、主にRDB上のデータを取得する際の手法と、取得したデータをどのような形にしてデータレイク上に保存するかという「データ取り込み」部分にフォーカスした説明を行います。環境はAWSを前提にしていますが、他クラウドのオブジェクトストレージへのデータ取り込み方法の一般論としても応用可能です。

スピーカー名:Amazon Web Services Japan G.K.
データ事業本部ポートフォリオスペシャリストソリューション部
シニアアナリティクススペシャリストソリューションアーキテクト
下佐粉 昭 様

はじめに

データレイクの構築の必要性から実際に取り込む際のデータ処理方法、処理の際に必要な視点についてご解説いただきました。

データレイク構築の狙いと柔軟な構成

データレイクの構築は、迅速かつ柔軟なデータ処理と変更への対応が可能なITインフラの実現を目指して行われます。
データと処理系のライフスパンの違いに対応し、データを一か所に蓄積することで新たな要件に素早く対応可能な環境を提供します。
処理系の容易な切り替えやデータの捨てない構造により、データと処理系を分離し、データを中心とした分析環境を構築します。

手法を検討する際のポイント

データ取り込みの段階では、初期のデータ量やバリエーションが少ないなどの課題に直面します。
AWSを活用し、S3を中心にした構築ではSQLが利用可能でありデータ取得から前処理までのスムーズな管理を行うことができます。
RDSからのデータ取り込みにおいては、更新の反映やトランザクションデータの取り扱いに慎重な手法が必要です。
更新が多い場合、データの洗い替えや差分抽出のポイントを考慮する必要があります。
また、データセットが大きく部分的な更新が発生する場合、高度なニーズに対応するためにOTF(Open Table Format)や特定のフォーマット、メタデータを管理するレイヤーを検討することができます。

まとめ:データ整備の基本戦略

データレイクの構築においては、狙いを理解し、柔軟性と効率性を両立させる手法を選択することが鍵となります。
そしてデータ整備の基本戦略は、生データを残し、前処理を施してデータレイクを共有可能なものにすることです。
データのフォーマットはオープンであり、多様なアプリケーション・サービスからアクセス可能である必要があります。ビジネス的な前処理やファイルの配置方法の工夫により、処理性能を向上させることが重要です。
パーティショニングなどの手法を利用し、分割可能なフォーマットを使用することで分散処理での性能向上が期待できます。

聴講した感想

データレイクについての解説をいただけたため、大変理解しやすいセッションでした。
データの出し手・データレイクチーム双方にとって効率が良い環境の実現することを念頭にデータレイク構築を行うという視点が印象に残っています。
データの取り込みや更新においては、データの特性やビジネスの要件に合わせた柔軟なアプローチが必要であり、データ整備においては共通のフォーマットや前処理を施すことで、データを効果的に活用できる環境が構築できることが理解でき、大変勉強になりました。

一覧に戻る