GRANVALLEY

ブログBlog

生成AIにおけるデータ基盤を安全かつ確実に準備する5つの方法

公開日 2023年8月1日    最終更新日 2023年8月1日

生成AIがもたらす変革。私たちはこれを期待している反面、信頼性とデータ・プライバシーに関する懸念の高まりによって、危惧している。特に、ここ数ヶ月、AI企業に対して著作権侵害を含むいくつかの訴訟が起こされ、世界中の政府もまた、こうした企業の活動を調査し、EU AI法のような新たな規制を導入するための措置を講じていることがそれを証明している。

では、AIが提供できる価値を活用するために、データのプライバシーを維持しながら誤った情報を防止し、人が誤った判断をせずビジネスへの影響を回避するにはどうすればよいのか?

企業において、生成AIを利用するにあたり独自の戦略を定義する必要がある。まずは最初に、大規模言語モデル(LLM)に対してどのアプローチを採用するかを決める。好ましいアプローチの1つとして、組織独自のデータで学習させたエンタープライズLLMの実装である。安全でコンプライアンスに準拠した方法にてエンタープライズLLMを構築するには、自社と顧客のデータを保護するセキュアな環境でモデルを実行することが前提となる。

生成AIはデータがすべてである。大規模な言語モデルは、学習させたデータと同程度の性能しか発揮されないため、最新のデータ・ファブリックで信頼できるデータ基盤を確立することが最重要となる。今回、これらを踏まえて、エンタープライズLLMの実装戦略とインフラ投資を計画する際に、生成AIとデータ基盤を安全に、そして信頼させるための5つの方法を考えてみる。

データのスマートな転送と統合

企業内には、膨大な数のソースから数多くのフォーマット形式で無数のデータを所有するが、大規模な言語モデルでは大規模なデータセットでこれらを学習させることで恩恵を受ける。まずは、生成されたコンテンツを最適化し、シームレスかつ効率的なフローを実現するためには、このデータを識別・収集し、データウェアハウスやデータレイクに転送するプロセスを確立する必要がある。

信頼させるには:
データのレイテンシーを抑え、データの可用性を最大化するセキュアなポイント・ツー・ポイントのレプリケーション・アーキテクチャーを活用することである。

データの継続的な更新

常に新鮮なデータを提供することが大切である。大規模な言語モデルにこれらデータを適応させながら改善することで、文脈に関連した首尾一貫した出力が生成することができるようになる。そのためには、必要なときに必要な場所で継続的にデータを取り込み、複製する、リアルタイムの変更データ取り込みをサポートするデータ管理アプローチが必要です。

信頼させるには:
リアルタイムにデータをストリーミングすること。大規模な言語モデルにより生成される結果の精度と関連性が最適化される。

データの最適化された変換

データを大規模言語モデルで使用可能にするためには、生の状態から適切に変換する必要がある。ターゲットシステムに応じて、最も効率的な方法で変換を実行できる柔軟性が必須と言える。例えば、プッシュダウンSQLはクラウドデータウェアハウスに最適で、SparkクラスタとSpark SQLはデータレイクに適している。

信頼させるには:
データモードとデータ変換ロジックが利用可能であることを確認し、モデルチューニングをする。

高品質データへのアクセス

データの品質は、モデルの出力の信頼性、正確性、一貫性に直接影響するため、生成AIにとって最も重要といえる。そのためトレーニング時に高品質なデータを使用する。それによりモデルは意味のあるパターンと関連性を学習し、文脈に適した価値あるコンテンツを確実に生成できるようになる。

信頼させるには:
データをリアルタイムで自動的にクリーニングし、プロファイリングするソリューションを用意する。これにより不良データによるトレーニングが排除可能となる。

データのガバナンス

データガバナンスは、データの責任ある利用を保証するため、生成AIにとって必要不可欠といえる。これは、データの収集、キュレーション、保存に関する確立された戦略とポリシーに加え、データ・パイプラインのエンドツーエンドのプロセスを自動化するテクノロジーの導入も検討する。

信頼させるには:
カタログ・ソリューションとデータ・リネージュ・ソリューションを活用すること。これらによりデータセット間の関係を自動的に見つけて文書化し、データの正確性と一貫性を検証することができるようになる。

あらゆるソースからのデータを活用し、品質を向上させ、安全で包括的な最新のデータファブリックを作成する技術は、生成AIで成功するために必須である。
これらを包括的に支援するQlikとTalendのデータ統合ソリューションも一つの選択と言えるだろう。

データドリブン経営の「本質」を明らかにする書籍が登場!

弊社のトップコンサルタント「データドリブン経営の不都合な真実」が東洋経済新報社から発売。

※ Qlik、QlikViewQlik Sense、QlikTechは、QlikTech International ABの商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。