GRANVALLEY

ブログBlog

データパイプラインと変換ロジックを定義するノーコード/プロコードアプローチ

公開日 2024年8月30日    最終更新日 2024年8月30日

Qlik社による、Podium、Attunity、そしてTalendの買収により、Qlik社のデータ統合・品質の製品群は、さらに強力になりました。これらの中から最適なツールを選択することで組織のデータ活用にさらなる力を与えます。

Qlik Talend Cloudが利用可能になった今、よりSQLコードの作成が容易になるデータパイプラインと変換ロジックを定義するためのQlik社独自のノーコード/プロコードアプローチに今回着目してみます。

クラウド重視、しかしクラウドのみではない

Qlik社はクラウドに注力していますが、クラウドだけを推しているわけではありません。組織内にクラウドへ上げられないデータがあるため、Qlik社はクラウドへの移行を強制することはせず、企業が必要とする最も適切なクライアント管理型ソリューションも用意しております。

しかし、クラウドファーストのアプローチを取ることで、迅速な導入と新たなビジネス革新が産まれるのも事実です。Qlik社のクラウドサービス「Qlik Cloud」は、強力な分析機能だけではなく、現在利用できるデータ統合機能と品質機能が豊富に用意されており、今後も増え続け、さらに向上していきます。今回、そのデータ統合機能と品質機能である「Qlik Talend Cloud 」に深掘りしていきます。

Qlik Talend Cloudでのデータパイプラインの作成と変換ロジックの定義

Qlik Talend Cloudでは、独自のノーコード/プロコードアプローチを有しており、直感的なドラッグ&ドロップによるユーザーインターフェースと自動化機能により、データパイプラインの作成と変換ロジックの定義をサポートします。

そしてデータ統合フローは、データを配信したいデータプラットフォーム用のデータプロジェクト内で作成することから始まり、データを必要な場所と方法で引き渡すために必要なデータタスクを作成します。データ・プロジェクトは、レプリケーション・パイプラインとデータ変換パイプラインのいずれかを選択することで、さまざまなユースケースに合わせて作成することができます。

レプリケーション

ソースからターゲットへ、またはデータレイクへデータを効率的かつ安全に移動させるためのシンプルなデータレプリケーションタスクを簡単に作成することができます。
カラム名の変更やタイムスタンプのような新しいカラムの追加などのデータ変換も可能です。

ここで最も重要なことは、ソースで変更が発生した時点で変更をキャプチャする「CDC(Change Data Capture)アーキテクチャー」により、データを常に最新の状態に保つことができるため、リアルタイム・データ配信を実現できます。そのため、従来のバッチ処理から脱却することも可能となります。

データ変換パイプライン

単純な線形パイプラインの作成はもちろんのこと、データウェアハウスの近代化への移行、変換の実行、自動データマート作成など、あらゆるデータ統合ニーズに対応するデータパイプラインを作成することで、ニーズごとにデータの生成および変換されたデータセットを活用することが可能となります。

データ変換パイプラインを使い、データウェアハウスの近代化を可能にするいくつかの有用なデータタスクがありますのでご紹介します。

データの取り込み:データ取り込みタスクとストレージタスクを使用して、オンプレミスまたはクラウド上のデータソースからデータを、そしてステージングエリアにデータを取り込み、クラウドデータウェアハウス内にて、すぐに利用できるデータセットとしてデータを格納します。

データの変換:変換タスクを利用して、ボタンをクリックするだけで作成したルールに基づき、オンボードされたデータに再利用可能な行レベルの変換を作成します。さらにプッシュダウン用SQLコードが自動的に生成されるため、何百行、何千行ものコードを手作業で作成する手間が省けます。また、自然言語でプロンプトを書くだけで、AIがコードを生成してくれる新しい「SQLアシスタント」を使うこともできます。
しかしながら、これだけではすべての要件を満たすことができないこともあります。そのために、プロコードアプローチも提供しており、独自のカスタムSQLコードを作成し追加することで難易度の高い要件に合わせることができます。

データマートの作成と管理:データマートの作成タスクは、ストレージタスクまたは変換タスクのデータと一緒に使用します。データマートをビジネス要件に合わせ必要な数だけ作成できます。

既存データの登録:データプラットフォーム上に既に存在するデータを登録して、Qlik Talend Cloud内でキュレーション、データ変換、データマートの作成を行うことができます。この柔軟性により、Qlik Talend Cloud以外のツール、例えばQlik Replicate、Talend Studio、Stitch、その他アクセス可能なETLツールでも、データプラットフォームにオンボードされたデータを使用することができます。

新しいデータローダーオプション

Qlik Talend Cloudは、クライアントが変更したゲートウェイを経由する方法と、ゲートウェイを使用しない新しいオプションの2種類のデータロード機能を提供します。

データ移動ゲートウェイ – Qlik Talend Cloud内で管理する軽量のデータ移動ゲートウェイをダウンロードし、変更データキャプチャ(CDC)を使用したポイントツーポイントのリアルタイムデータ移動を行うことができます。このオプションは、ファイアウォールの背後にあるソースやプライベートクラウド内の環境に対応します。

新しいゲートウェイレス・データローダー – Qlik Talend Cloudには、ゲートウェイをインストールする必要のない新しいデータローダー機能を有します。新しいゲートウェイレス・データローダーオプションは、何百ものSaaSベースのクラウドソースと一部のデータベースソース向けに設計されており、容易な接続と設定が可能となります。ソースに応じてフルロードとCDC(Change Data Capture)アーキテクチャーを利用しますが、すべてのSaaSベースのソースでCDCが利用できるわけではない点はご理解してください。

Qlik Talend Cloud Starterで始める

Qlik Talend Cloudには、Starter、Standard、Premium、Enterpriseの4つのエディションがあります。

Starterは最も新しいエディションで、その名が示すように、データプロジェクトをできるだけ早く開始することを目的としています。Starterでは、レプリケーションのユースケースにアクセスできるため、シンプルで直線的なデータ・レプリケーション・タスクを簡単に構築できます。

Starterで物足りなくなった場合や同じ環境内でさらに多くの機能を利用したい場合、上位エディションに容易にアップグレードできます。複雑なデータ変換パイプライン、SAPやメインフレームのソース、CDC(Change Data Capture)によるリアルタイムのデータ配信が必要になれば、スタンダード、プレミアム、エンタープライズなどの他のエディションで上位の機能を利用できるようになります。

データ統合・配信ソリューションを探しているのであれば、Qlik Talend Cloudをご検討することをお勧めします

※ Qlik、QlikViewQlik Sense、QlikTechは、QlikTech International ABの商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。