iPaaSで実現するRAGのデータガバナンス
企業におけるデータ活用は生成AIの台頭により新たなステージに進みつつあります。中でも、生成AIの回答精度を高める技術であるRAG (Retrieval Augmented Generation) を採用することにより、業務担当者・IT担当者を問わず企業の誰もが、ハルシネーションを気にすることなく生成AIを介して自由にデータを活用することができるようになります。
本コラムでは、iPaaS (Integration Platform as a Service) を用いることで、RAGの活用におけるガバナンスを確保できるのか、またいかに安全かつ効率的にビジネスに活用できるのかについてご紹介します。
Shinnosuke Yamamoto -読み終わるまで6分

RAGにおけるデータガバナンスとは
データガバナンスとは、企業の資産であるデータにおける収集・蓄積・使用・廃棄までの一連のプロセスを統制し、データの品質や整合性、安全性を確保するためのフレームワークの一つです。日本では「データマネジメント知識体系ガイド」と訳されているDMBOK (Data Management Body Of Knowledge) の11領域の一つとしても規定されており、企業が戦略的にデータを活用していくために考慮すべき重要な観点です。
生成AIを通じて企業データを取り扱う際にも同様に、チャットボットやワークフロー等のRAGアプリケーションを導入する際にはデータガバナンスの考慮が重要です。それでは、RAGにおけるデータガバナンスとは具体的にどのような観点で考えられるのでしょうか。例として、品質、セキュリティ、コスト効率を挙げて考えます。
-
▼RAGについてもっと詳しく知りたい
⇒ 検索拡張生成(RAG:Retrieval Augmented Generation)|用語集
1. 品質:生成AIの回答精度
第一に、品質とは、RAGアプリケーションがもたらす結果、すなわち生成AIの回答の精度を指します。RAGにおける回答の精度は主にインプット・プロセス・アウトプットにおいて評価することができます。インプットとは、生成AIが参照する企業データです。そもそも参照先である企業データの内容が誤っていれば、それに基づいた回答結果は正しいものにはなりません。プロセスは検索機能が挙げられます。せっかくデータが揃っていても、検索機能が適切に必要なデータを見つけられなければ意味がありません。アウトプットは生成AIの回答能力です。検索機能によって適切に高品質なデータが取得できたとしても、生成AIの生成能力が低ければ欲しい情報を得ることはできません。
2. セキュリティ:データの安全・安心な管理
第二に、セキュリティとは、企業データが安全・安心に管理されることを指します。これは企業外に対するセキュリティに限らず、企業内においても考慮が必要です。例えば、社員の住所や評価といった個人情報は、社内であっても誰にでも公開してよいものではありません。多くの企業では、このような個人情報に関わるデータは業務システムに閉じられているか、あるいはデータウェアハウス等に蓄積している場合はマスキング(特定のフィールド情報のみ参照できないようにする)されています。RAGにおいても同様に適切なユーザーが適切な範囲でデータにアクセスできることが求められます。
3. コスト効率:運用コストの適正化
第三に、コスト効率とは、RAGの運用におけるコストの適正化を指します。コストとはRAGアプリケーションの利用料(生成AIの利用に伴う課金を含む)のほか、この仕組みを維持する運用に関わる人的コストも含みます。せっかくRAGアプリケーションを構築したとしても、その運用のために多くのエンジニアが裏側でマニュアル作業で運用していては、本来進めるべき他の業務に時間を割くことが難しくなります。いかに運用コストを必要十分に保つ仕組みを考えていくかが重要です。
iPaaSで実現するRAGのデータガバナンス
RAGを実現する方法は様々ありますが、セゾンテクノロジーはiPaaSを用いたRAGの構築を推奨しています。iPaaSとはIntegration Platform as a Seriviceの略称であり、企業が持つ様々な業務システムや生成AI等のサービスをつなぎ、それらデータを統合して活用できる仕組みを提供します。
iPaaSで実現するRAGでは、先ほどご紹介したデータガバナンスの観点で、企業データを安全・安心に活用することができる様々な機能を実現することが可能です。今回はデータガバナンスに関わる4つの機能をご紹介します。
-
▼iPaaSについてもっと詳しく知りたい
⇒ iPaaS|用語集
1. クエリ拡張による検索精度の向上
クエリ拡張とは、RAGにおいて検索精度を向上させるためのテクニックのひとつです。RAGにおける検索機能としては一般にベクトルデータベースが利用されますが、ベクトルデータベースは外部から検索ワードをクエリとして受け取り、最も検索ワードに近しい要素を検索して返却します。クエリ拡張では、このクエリを少し工夫することによって検索のヒット率を高めます。
具体的には、類語・同義語をクエリの中に含めます。RAGアプリケーションでは、ユーザーは人間の言葉で生成AIに対して指示を出します。言葉は人によって様々なニュアンスや表現で用いられるため、同じ内容の事象を指していても異なる単語で表現される場合があります。しかしデータとしては特定の単一の表現で記録されているために、人間の言葉の揺らぎによってデータを特定することができない場合があります。この言葉の揺らぎを吸収するために類語・同義語をユーザーの指示文から生成し、元々の指示文と合わせて検索ワードとしてベクトルデータベースに問い合わせを行います。
データ処理に関わるワークフローを実現できるiPaaSでは、ベクトルデータベースに対する問い合わせを行う前に、類語・同義語を生成する役割を持つ生成AIを呼び出す処理を簡単に追加し、容易にクエリを拡張することが可能です。これにより単純な検索よりも検索精度を向上させることが期待できます。
-
▼ベクトルデータベースについてもっと詳しく知りたい
⇒ ベクトルデータベース(Vector database)|用語集
2. ユーザー権限に基づくデータアクセスの制御
データアクセスの制御では、ユーザーの権限に応じて適切なデータの検索・参照を行い、ガバナンスの確保を実現します。活用したいデータの中には、営業秘密や個人情報など、部門内での利用であったり、管理職だけの利用に閉じたい機密情報もあるでしょう。しかしこうしたアクセス制御を、データストレージやAIなど様々なツールで設定・管理していくことは運用上効率的であるとは言えません。
iPaaSによるRAGでは、データソースにおける権限を継承し、検索プロセス、抽出プロセス、分析プロセスにおいて適切な権限を割り振り、処理内容を動的に切り替えることが可能です。例えば、RAGチャットボットの実行ユーザーの名前やメールアドレス等から人事系マスターに問い合わせて一般職か管理職かを判定し、その属性に応じて検索可能なデータの一覧を分岐させるといった処理が可能です。データソース側でアクセス制御が行われていれば、データソースからデータを取得する際にユーザーの属性によってアクセスするためのログイン情報を切り分けて、適切な権限でデータに対してアクセスを行います。
これにより、組織全体として安全・安心にデータ資産を有効活用することが可能です。
3. キャッシュの蓄積と管理
キャッシュとは一時保存データを指します。RAGアプリケーションでは、直近行われたデータの検索結果や回答内容、ユーザーが良いフィードバックをしたものをキャッシュとして保存し、次回以降の類似のデータ活用において必要性に応じ再利用されます。キャッシュを利用可能な仕組みを設けることにより、再現性の確保、回答スピードの向上、コスト削減といった様々な効果が期待されます。
オンデマンドで行われるデータ活用では「前と同じ内容を出力したい」「前に作らせたあのグラフの書式でもう一度作りたい」といった、過去の優良事例をもとに再現したいといった要望が度々発生します。キャッシュを用いることにより、過去と同一の回答を行ったり、過去と同一のプロセスや手順で分析を行ったりすることが可能です。これにより、過去の優良事例の再現ができるとともに、生成処理の適宜スキップによる回答時間の短縮が期待できます。
また、多くの生成AIモデルは入出力におけるトークン(入出力における量の単位)の消費量により課金されます。キャッシュを利用することで、過去と同一の生成処理をスキップして回答におけるトークン消費量を削減します。例えば膨大な文章や画像等の生成には相当のトークンを必要としますので、同じものを都度生成するとなると少なからずコストがかかります。iPaaSでキャッシュデータベースへの保存と検索を可能にすることにより、RAGにおけるコスト削減に貢献することができます。
4. メタデータの自動更新
メタデータとは、データに関するデータを意味します。例えばデータの更新日や、データの保存場所、データの意味や計算式などが該当します。生成AIでデータを活用する上で、メタデータは生成AIがデータを解釈するために重要な補助資料となります。しかしながら、このメタデータの作成と管理は、多くのデータ管理者の作業負荷となっています。iPaaSによるRAGでは、このメタデータの管理プロセスをデータパイプラインとして定義し、生成AIを活用して自動的に更新される仕組みを実現します。
データ活用においてメタデータが重要とはいえ、例えば構造化データであれば、全てのテーブル、全てのカラム毎の情報をメタデータとして整備するには相応の調査・作業工数が求められます。メタデータの自動更新では、テーブル定義(DDL)やデータの中身を元に、生成AIがどのようなデータかを推論し、言語化してメタデータとして登録を行います。これによりデータ整備担当者の運用負荷を削減することが期待できます。
また、メタデータはベクトル検索において利用者が望むデータを見つけるための重要な参考情報ですが、現実には、利用者が入力する単語との表記の違い(例えば “社員” と “従業員”)や曖昧さ(例えば “生産性” や “パフォーマンス”)ゆえに、期待する結果が得られない場合があります。この利用者の入力とメタデータの紐付けを生成AIにより特定し、必要なメタデータに単語を追加し、検索時のヒット率を高めるチューニングを行います。
さいごに
いかがでしたでしょうか。RAGは、IT層・非IT層を含めて誰もがデータを活用できる大きな鍵となる可能性を秘めている一方で、全社で展開していくためには安全・安心にデータを利用できる仕組み作りが必要不可欠です。iPaaSで実現するRAGでは、今回ご紹介したような様々なデータガバナンスに関する仕組みをデータパイプラインとして実現することが可能です。もちろん、データガバナンスの在り方は一つではなく、今回ご紹介した内容がすべてではありません。企業に求められるデータガバナンスをいかにしてRAGに取り込んでいくか、ぜひセゾンテクノロジーまでご相談ください。
なお、データの統合によりいかにして企業データの品質が維持されるか、様々なデータや様々な生成AIにアクセスできることでどのようなデータ活用が実現できるかは、別のコラムにてご紹介していますので、ぜひ以下のおすすめコンテンツからご覧ください。
執筆者プロフィール

山本 進之介
- ・所 属:データインテグレーションコンサルティング部 Data & AI エバンジェリスト
- 入社後、データエンジニアとして大手製造業のお客様を中心にデータ基盤の設計・開発に従事。その後、データ連携の標準化や生成AI環境の導入に関する事業企画に携わる。2023年4月からはプリセールスとして、データ基盤に関わる提案およびサービス企画を行いながら、セミナーでの講演など、「データ×生成AI」領域のエバンジェリストとして活動。趣味は離島旅行と露天風呂巡り。
- (所属は掲載時のものです)
おすすめコンテンツ

データ連携にiPaaSをオススメする理由|iPaaSを徹底解説
iPaaSがなぜデータ連携に適しているのか、従来の方法とどのように異なるのか、そして実際にどのように活用されているのかを徹底解説します。
データ活用コラム 一覧
- データ連携にiPaaSをオススメする理由|iPaaSを徹底解説
- システム連携とは?自社に最適な連携方法の選び方をご紹介
- 自治体DXにおけるデータ連携の重要性と推進方法
- 生成 AI が切り開く「データの民主化」 全社員のデータ活用を阻む「2つの壁」の突破法
- RAG(検索拡張生成)とは?| 生成AIの新しいアプローチを解説
- Snowflakeで実現するデータ基盤構築のステップアップガイド
- SAP 2027年問題とは? SAP S/4HANAへの移行策と注意点を徹底解説
- Salesforceと外部システムを連携するには?連携方法とその特徴を解説
- DX推進の重要ポイント! データインテグレーションの価値
- データクレンジングとは何か?|ビジネス上の意味と必要性・重要性を解説
- データレイクハウスとは?データウェアハウスやデータレイクとの違い
- データ基盤とは?社内外のデータを統合し活用を牽引
- データ連携を成功させるには標準化が鍵
- VMware問題とは?問題解決のアプローチ方法も解説
- kintone活用をより加速するデータ連携とは
- MotionBoardの可能性を最大限に引き出すデータ連携方法とは?
- データクレンジングの進め方 | 具体的な進め方や注意点を解説
- データ活用を支えるデータ基盤の重要性 データパイプライン選定の9つの基準
- 生成AIを企業活動の実態に適合させていくには
- Boxとのシステム連携を成功させるためのベストプラクティス ~APIとiPaaSの併用で効率化と柔軟性を両立~
- RAGに求められるデータ基盤の要件とは
- HULFTで実現するレガシーシステムとSaaS連携
- データ分析とは?初心者向けに基本から活用法までわかりやすく解説
- 今すぐ取り組むべき経理業務の効率化とは?~売上データ分析による迅速な経営判断を実現するデータ連携とは~
- Amazon S3データ連携のすべて – メリットと活用法
- ITとOTの融合で実現する製造業の競争力強化 – 散在する情報を統合せよ!
- データ分析手法28選!|ビジネスに活きるデータ分析手法を網羅的に解説
- Amazon Auroraを活用した最適なデータ連携戦略
- 生成AIで実現するデータ分析の民主化
- データ活用とは?ビジネス価値を高める基礎知識
- iPaaSで進化!マルチRAGで社内データ価値を最大化
- Microsoft Entra ID連携を徹底解説
- iPaaSで実現するRAGのデータガバナンス