人工知能(AI)と機械学習(ML)があらゆる産業や業種に活用されつつある中、データ・アナリティクス分野において急速に進展している。2022年11月、OpenAIのChatGPTがローンチされ、5日間で100万人のユーザーを獲得するなど、生成AIが今、業務の生産性を高めるツールとして期待されている。それを示すレポートとして最近のマッキンゼーの調査では、回答者の40%がAIへの投資を増やすと答えている。
その反面、人間がAIやロボットに仕事を奪われることが次の脅威として危惧されるようになったのも事実である。
AIはデータエンジニアの仕事を奪う?
人間がAIやロボットに仕事を奪われるというのはよくある話だが、現実にはデータ・エンジニアの仕事はそうならない。例えば、AIは単独では、多数のオープンソースパッケージや有料のAPIサービスからロジックをソースしたり、異なるデータセットを接続したり、データパイプラインを完全に維持したりすることはできない。
しかし、AIデータ分析ツールを使用することで、データエンジニアは、冗長化したデータの排除、データセットのギャップの補完、異常が発生した場合にエンジニアに対してpingの通知といった日常的なタスクにすばやく取り組めるようになり、ビジネスにより多くの価値を提供できる。分析の需要は圧倒的なペースで増加しており、データ・エンジニアにとって、AIによって拡張されたデータプレパレーションとETLは、その需要を満たすために必要な過給機と言える。
つまり、AIはデータ・エンジニアがより速く、より多くの価値をビジネスに提供するために活用できるコパイロットとして機能できるのだ。
今日の強力なAIデータ分析ツールは、幅広い方法でユーザーを支援する。
データプレパレーションプロセスには、AIが役立つ分野として以下がある:
1. データモデル構造の推奨
2. データへの変換ルールの適用
3. データクリーニングの支援
4. データ品質の向上
5. ETLとデータプレパレーションプロセスのモニタリング
6. 異常値データの特定
7. ETLプロセスの改善方法の提案
今回の記事では、データプレパレーションとETLのためのAI活用について焦点を当て、説明する。
AIとデータパイプライン
構造化されたデータパイプラインは、複数のデータセットをビジネスインテリジェンス(BI)ツールにシームレスに接続し、クライアント、社内チーム、およびその他の利害関係者が複雑な分析を行い、データを最大限に活用できるようになる。
データエンジニアは、テラバイト級のデータをどこからでも分析可能な場所に持ってきて、様々なライブラリやサービスを駆使しながら変換し、パイプラインを安定させるという、課題に取り組んでいる。
しかし、データプレパレーションプロセスは非常に時間がかかり、エンジニアの負担が大きいのも事実であり、スクリプトを書いたり、手作業でデータ操作を行ったりすることなどに多くの時間が費やされる。これは、増大するデータ需要に対応するための人的障害と言える。
この課題を解決する方法は、AI/MLを活用した拡張アナリティクスである。AI/MLを組み込むことで、データの準備、洞察の発見、共有を自動化できる。また、データサイエンスやMLモデルの開発、管理、展開も自動化することが可能となる。
AIを活用したETLとデータプレパレーションでクラウドデータウェアハウスを活性化
クラウドとクラウド・データウェアハウスの台頭により、企業はデータを扱う方法に変化をもたらした。かつては、記録を整理しておくためにデータベースが必要だった。
クラウドにより、マーケティング、営業、財務、サービスにわたるアプリが登場し各々よりデータが生成されるなど、現在のデータは以前にも増して多種多様なソースから作られている。それらのデータを統合するクラウドデータウェアハウスは、分析・洞察を提供できるすべてのデータを収容できるようになる。
現代のマーケティングにおいて、ソーシャル・ソースの分析は必要不可欠になっている。データの種類も、ユーザーが生成したものから機械が生成したもの、非構造化センサー・データまであるが、これらはすべて分析に利用することが可能となる。
また、サードパーティデータを利用してビジネスロジックを拡張させる企業が増えている。ベンチマークへの利用から、為替変動の影響分析、天気予報が売り上げに与える影響等の質問への回答まで、さまざまな用途でサードパーティデータは利用されている。
クラウドデータウェアハウスをオンプレミス製品よりも迅速に立ち上げられるようになった今、ビジネスチームが臨機応変に分析に着手できるような環境を提供されることが求められている。
ETLとデータプレパレーションプロセスがAIから恩恵を受けられる箇所
「データは新しい石油である」ということわざは、すでに決まり文句になっているほどよく使われるが、今回の議論では特に適切な比喩である。ほとんどの企業は膨大なデータを抱えているが、未処理のままではあまり役に立っていない。さらに悪いことに、正規化されていないデータを分析すると、有害で誤解を招きかねない結果に帰結する。石油に例えるなら、石油タンクから処理場まで運び、石油の真の価値を活用できるようにするには、安定した信頼できるパイプラインが必要だと言える。
データを移動している間、データ・エンジニアはデータを消化し、BIシステムに到達するまでに使用可能な状態に近づけられる。BIプラットフォームはすでにAIを利用して、さまざまな方法でETLプロセスを支援している。
強力なAIアナリティクス・システムを導入することは、多忙なデータエンジニアリング・チームにとって第二の目として機能を果たし、そのため、アナリティクス・チーム、ひいてはビジネスにより早く価値をもたらす課題解決に集中できる様になる。
AIがETLプロセスを支援して分析を推進できる7つの主要分野についてを見てみよう。
AIが最適なデータモデル構造を推奨する
AI支援は、どの列を結合し、どの列を複合化するかなどのデータモデル構造を推奨し、ファクトテーブルの結合を容易にするためにディメンションテーブルを作成することもできる。
AIがデータへの変換ルールを適用する
AIは簡単なルールセットを適用して、すべてのテキストを小文字にしたり、値の前後の空白を削除したりすることで、データの標準化を支援できる。
AIがデータクリーニングを支援
学習用データセットとして使用する完璧にフォーマットされたデータセットがすでにある場合、AIはこのフォーマットされたデータセットを使用して、より大きなデータセットがどのように見えるべきかを認識するように訓練できる。これにより、AIは全体的なアプローチでクリーニングを行えるようになり、特定のタスクを繰り返し実行させる必要がなくなる。
AIでデータ品質を向上させる
AIはデータをどのように見せたいかを学習するため、すべての列をスキャンして修正すべき点を提案したり、アクティブラーニングを実施したり、冗長なレコードを削除したり(例えばスペルミスによる重複排除)、文脈を手がかりにして欠損値を埋めるなど、自らエラーを修正することもできる。
AIを使いETLプロセスを監視する
データを BI システムに移行している間、AI アシストの大きなチャンスは、プロセスを監視することである。ロードが失敗したり、通常の時間のしきい値や予測値を超えたりした場合、AIはそれを学習し、エンジニアに問題があることを知らせるためにpingを送る。また、ロードされるデータ量が突然変化した場合も、エンジニアがそれを調査し、より大きな問題があるかどうかを確認できる。
AIを使い異常値データを特定する
異常値検出もまた、AIが処理できるタスクの一つである。完全ではない大量のデータを扱うデータ・エンジニアにとって、これはAIが代行できる仕事である。
AIは、テーブルが作成され、新しいデータがロードされるのを監視し、出力をチェックできる。AIがカラム内の値をスキャンすると、一意性、参照整合性(他のテーブルのキーである値)、偏った分布、ヌル値、許容値などをテストできる。要約すると、AIはテーブル全体をチェックし、それに適用される一連のルールに基づいて、「この列は正しいか?」と質問できる。もしAIが、ルールのいずれかが適用され、列の値がルールの条件を満たしていないと判断すれば、エンジニアに対しアラートを送る。
AIがETLプロセスの改善方法を提案する
AIが支援できる他のタスクには、モデル全体で最も頻繁に発生する結合を示したり、事前集計を提案したりするものがある。これは、将来的にクエリをより高速化するために有用である。
AIはまた、カラムをスキャンし、一意性をテストするために使用することもできる。例えば、Salesforceの全アカウントのIDカラムのように、すべての値が一意である必要があり、同じアカウントIDを持つ2人の異なるユーザーがいる場合、AIはそれを呼び出せます。純粋な数値データの場合、AIは不適切に入力されたデータを示す可能性のある異常値を特定できる。いずれにせよ、AIは再び特別な目を持ち、アクションを推奨し、必要な場合にのみデータ・エンジニアに結果を提示する。
AIがデータエンジニアリング・タスクを高速化
抽出、変換、ロード(ETL)のプロセスは、複数のソースからのデータをデータウェアハウスに統合する。AIによってデータ・エンジニアは大幅な時間節約となり、定型作業から解放されるため、より迅速にデータを提供し、ビジネスへのさらなる価値提供に集中できる。重複レコードの削除、空白値の入力、他のデータのフォーマット、データ品質の修正などのタスクはすべて、データパイプラインを合理化するためにAIを適用する完璧な方法と言える。またデータ・エンジニアにとっては、データにクラスタリングやセグメンテーションを適用したり、AIモデルを訓練するためのデータを準備したりするなど、データをさらに強化することに集中できる時間が増えることを意味する。
ETLを超える:生成AIによる会話型アナリティクス
データプレパレーションにとどまらず、大規模言語モデル(LLM)をアナリティクスツールに会話エクスペリエンスに使用することで、エンドユーザーを日常の分析に関与させる新しい方法を提供するが可能となる。その意味で、多くの人が、アプリケーションの「コパイロット」に期待している。アプリでアナリティクスを提供している(または提供する予定がある)場合、ユーザーのためのアナリティクス向けコパイロットを検討するとよいだろう。そうすれば、ユーザーはデータについて質問し、回答や説明を得ることで理解度が高まれる。
そして、あなたがデータエンジニアなら、エンドユーザーにより簡単なセルフサービス方法を促進することはWin-Winである。第一に、エンドユーザーにとっては、オンデマンドで自分の質問に簡単に回答できる。第二に、分析の専門家やデータエンジニアにとっては、単発のアナリティクスの問い合わせに役立つ。つまり、誰もがより良く、より速く、よりスマートに仕事ができることが可能と言える。
以上のように、AIをアナリティックスに活用すると様々なメリットを産む。データエンジニアの生産性を高めるためにも検討いただきたい。
この投稿に記載されているすべてのデータは情報提供のみを目的としており、正確ではありません。前もってご了承ください。
本記事は、Sisense社の許諾のもと弊社独自で記事化しました。
https://www.sisense.com/blog/will-ai-assist-data-engineers-or-replace-them/
※ SisenseおよびSisense Hunchは、Sisense Inc の商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。
キーワード
注目の記事一覧
- データプレパレーションプロセスとETLにAIが活躍できる7分野
- データの可視化に必須のチャート13選
- SAP 生成AIアシスタント/コパイロット「Joule(ジュール)」
- データパイプラインと変換ロジックを定義するノーコード/プロコードアプローチ
- 行動を喚起するチャート3選
月別記事一覧
- 2025年1月 (1)
- 2024年12月 (1)
- 2024年10月 (1)
- 2024年8月 (1)
- 2024年7月 (2)
- 2024年6月 (1)
- 2024年4月 (1)
- 2024年2月 (1)
- 2024年1月 (1)
- 2023年9月 (1)
- 2023年8月 (2)
- 2023年7月 (1)