GRANVALLEY

ブログBlog

データウェアハウスの近代化-QlikとTalendの活用

公開日 2024年7月5日    最終更新日 2024年7月5日

データウェアハウス(DWH)とは、データの利活用のために膨大なデータを格納するシステムのこと。『データの倉庫』とも言われている。データウェアハウスでは、データを分析して意思決定に役立てるため、データソースとなる複数の基幹系システムからデータを収集し、蓄積する。 意思決定にデータを活用するという観点から、データウェアハウスはビジネスインテリジェンス(BI)の一つに位置付けられており、データ活用の肝となるシステムと言えよう。

従来、データウェアハウスはオンプレミスで運用されることが多いが、世界3大クラウドであるAWS(Amazon Web Services)、Microsoft Azure、GCP(Google Cloud Platform)からデータ分析のサービスがリリースされたことにより、企業がデジタルトランスフォーメーション(DX)へ取り組むために、クラウドデータウェアハウスへの移行が始まっている。

この記事は以前掲載した「QlikとTalendを活用したデータ統合・品質が向上するシナリオ7選」の一つである「データウェアハウスの近代化」に焦点を絞りそのメリットを探る。

近代化vs自動化

Qlik社のユーザーは、長年にわたり市場をリードするデータウェアハウス自動化ソリューションを理解していると思われるが、改めて「近代化(モダナイゼーション)」という言葉に「なぜ?」と疑問を持たれているかもしれない。
データウェアハウスの問題を自動的に解決するソリューション である Qlik Data Integration ファミリーに「近代化」を図るTalendが加わったことでデータウェアハウスの問題をさらに解決することができるようになった。

データウェアハウスの近代化は、従来のデータセンターであれクラウドであれ、組織がデータウェアハウスを実装する際に発生する問題のカテゴリをここで記述する。

1. データの取り込み

当たり前のことであるが、データソースにデータがあって初めて、データウェアハウスから洞察を得ることができる。したがって、まず最初に解決するべき問題は、データの取り込みである。Qlik社の製品は、データウェアハウスに正しいデータを含むことを保証するために、最も柔軟な配信オプションと最も幅広い接続性を提供する。Qlik社のデータ取り込みソリューションは以下を提供します。

データのロード:状況により、データセットの読み込みと定期的に更新が必要となる。特にクラウド/SaaSアプリケーションからデータを取得する必要となる場合は、Talendのデータローダ Stitchがこの点において優れている

ELT/CDC(リアルタイム-変更データキャプチャ):抽出、ロード、変換(ELT)は、クラウドデータウェアハウスのベスト・プラクティスと言える。Qlik社の変更データキャプチャ(CDC)ソリューションは、メインフレーム、SAPアプリケーション、リレーショナル・データベース等さまざまなデータソースから企業データを迅速に取り込める

ETL:最後のデータ取り込みシナリオは、従来の抽出、変換、ロード(ETL)手法である。この方法は、多くの企業状況において望ましく、例えば、大量のソースデータの解析、複数の配信ターゲット用へのフォーマットをするなどに有益である

2. データ変換・データマート作成・ライフサイクルの自動化

データウェアハウスの導入企業が遭遇する2つ目の問題は、取り込んだデータを再構築するためにSQLスクリプトを手作業にて何時間もかけて書くことである。これはディメンショナル・モデリングやデータウェアハウス設計の方法論に従いたい場合に当てはまる。

これら作業を支援する機能として、Qlik社のシークレットソースがある。これは、データマートテーブルに必要なプッシュダウンSQLを自動的に生成・維持するインテリジェントなデータパイプラインだ。さらに、ユーザーは独自のカスタムSQL変換にも使用できる。
またインテリジェント・パイプラインには、SQL実行コストを制御するためにユーザーがカスタマイズできるランタイム最適化機能も有する。

3. データ品質とガバナンス

我々が解決するデータウェアハウスの最後の問題は、データ品質である。

データソースからデータがロードし、データマートのような構造に変換され、最後にデータ品質によって正確な値として保証されるが、そもそも無効なデータがなぜデータウェアハウスに入るのだろうか?

入力者自身の住所をウェブアプリケーション経由で誤って入力した場合、そのままデータウェアハウスに取り込まれ、ファクトテーブルに変換されデータとしてそのまま保持される。下流のプロセス監査が実行されるか、住所データを使用するプロセスが失敗して初めて誤データとして認識されるが、このような住所の検証でデータ品質の機能が使われれる。

このようなミスは、人が介在するプロセスであれば発生し続ける可能性は高い。これらのリスクを少しでも低減するために、Qlik社Talendポートフォリオがある。これらはデータ品質エラーがより重大な組織的問題に発展する前に修正することが可能となる。

最後に

データウェアハウスの導入は、多くの組織にとって変革をもたらすものである。しかし、単にデータウェアハウスを所有するだけでは十分とは言えない。データウェアハウスの近代化は、データ利活用およびアナリティクス戦略を成功させるために、企業全体にデータを供給し、変換・保持し、データ品質を強化するデータの民主化を進めるさいのベストプラクティスの集大成といえる。

※ Qlik、QlikViewQlik Sense、QlikTechは、QlikTech International ABの商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。