鍵はデータの構造化!生成AIの回答精度を高める前処理の実践
近年、生成AIの活用が急速に広まる中、その回答精度を左右する要因としてデータ前処理が注目されています。データの整形や形式統一によって、ハルシネーションが発生するリスクを抑制することが期待されています。
本記事では、生成AIに適したデータを提供するうえで重要な「データの構造化」について解説し、具体的な前処理手法をご紹介します。
Shinnosuke Yamamoto -読み終わるまで5分
データの構造とは何か
データは大きく分けて、明確な行や列のルールを持つ構造化データ、自由な形式で保存された非構造化データ、その中間的な半構造化データに分類されます。実際の業務では、表形式の数値データだけでなく、テキストや音声、画像など多様な情報源を扱うケースが増えています。
構造化データ
テーブルやデータベースのように、行や列のルールが明確に定義されているデータを指します。
構造化データの例として、顧客マスターや売上データが挙げられます。これらのデータは事前に定義されたフォーマットで蓄積されるため、生成AIで活用する際には、一般的に生成AIがテキストからSQLを作り出す「Text-to-SQL」と呼ばれるアプローチを取ります。
-
▼生成AIについてもっと詳しく知りたい
⇒ 生成AI(Generative AI)|用語集
非構造化データ
文書や画像、音声、動画など、決まった枠組みがないデータを指します。近年の業務情報にはメール本文やSNS投稿、PDFやスキャン画像など、非構造化データの占める割合がとても大きいのが実情です。
そのままの形では生成AIが扱いにくく、意味や文脈を解析するために事前の変換やラベリングが必要になります。テキストや音声を抽出するOCRや音声認識などを活用し、分かりやすい形式に変換するのが一般的な手法です。
半構造化データ
XMLやJSONのように、タグやキーといったメタ情報を部分的に含むデータ形式です。構造的でありながら、柔軟に拡張できるため、多様なデータを扱いやすい点がメリットです。
人間が見ても機械が解析しても理解しやすく、生成AIへの入力データとしても有用です。運用面で扱いやすいよう、各項目に意味を持たせ、十分な説明やスキーマ定義を積み重ねるほど、高度な応用が可能になります。
生成AIにとってなぜデータ構造が重要か
構造化が不十分なデータをそのまま投入すると、生成AIの推論精度が低下したり、文脈を取り違えた回答が生成されやすくなります。生成AI(RAGなど)へ適切な情報を渡すためには、AIが正しく解釈しやすい形に整形することが不可欠です。

理由① データの理解と文脈の把握
AIはユーザーが求めるデータを正しく検索し、正しく解釈することが求められます。データの構造が明確であることは、AIにとっての検索性や解釈性を高めるうえで重要な要素のひとつです。
例えば、情報同士の親子関係(章と節、本文の関係など)や並列関係(箇条書きなど)も重要なデータの構造の要素です。AI-OCRや構造化API等によってデータの構造を明確にすることで、AIにとっての検索性や解釈性が高まり、回答精度を高められることが期待されます。
-
▼APIについてもっと詳しく知りたい
⇒ API|用語集
理由② 出力の一貫性と精度の確保
データの形式がバラバラでなく一定のフォーマットに沿って構造的に整理されることによって、AIによる回答の粒度やレベル感に一定の一貫性を持たせることができるようになります。
また、データの構造が明確になることで、必要な情報と不要な情報を明確に区別し、必要な情報だけに基づいた回答を導くことが可能になります。ノイズとなる情報を排除することで、不要な回答や期待しない回答の生成を防ぎます。
理由③ 処理効率とコスト最適化
AIが参照するデータの構造が明確であることで、検索時や要約時の処理時間を短縮し、コストを抑制することが期待されます。
大量のデータを扱う企業にとっては、ひとつひとつのデータの処理時間やコストの積み重ねが大きな機会損失につながります。データを事前に整理することで検索性能や回答性能を高め、より人が注力すべきことにリソースを振り向けることができます。
構造化形式の例
業務でよく使われるドキュメントは、マークダウン記法やJSON形式など、拡張子は違っていても論理的に整理された構造を持たせる工夫ができます。これにより、テキスト本文と見出し、リストなどを区別しやすくなり、生成AIが目的の情報を素早く拾い上げやすくなります。
QA形式にまとめられたデータも、質問と回答の対応関係が明確になるため、生成AIが要点を検索しやすい形式といえます。自社の知識ベースや製品情報などを階層的に組み立てることで、回答の精度向上が期待できるでしょう。
形式例① マークダウン記法
テキスト中に見出しやリスト、リンクといったマークアップを施すことで、シンプルながら可読性の高い文書を作れます。システム間での取り回しがしやすく、表示形式によらず内容や構造を正確に伝えられるのが利点です。
生成AIに渡すデータとしては、見出しレベルの情報や箇条書きなどをタグ代わりに活用することで、文書の意図をAI側により伝えやすくなります。
形式例② QA形式(質問と回答のペア)
問い合わせ対応やFAQコンテンツを構造化する場合に便利な手法です。LLMによって想定される質問と回答のペアを生成し、質問と回答のペアをCSV等の形式で保持します。
QA形式でデータを保持することによって、ユーザーからの質問に対して元データから回答を都度考えるのではなく、網羅的な質問リストの中から探索することで迅速かつ的確に回答を導くことが期待されます。
形式③ JSON/XML形式
システム同士が読み書きしやすいフォーマットとして、階層構造を定義できることが最大の特徴です。要素の入れ子を自由に設定できるため、複雑なデータでも意味を持たせながら格納しやすくなります。
テーブルデータだけでなく、各項目にメタ情報を付与できるため、生成AIが文脈を理解するときにも非常に有用です。例えばタグ情報やファイルが保存されているファイルパスまたはURLなどを紐づけることで、より高速かつ正確な回答を導くことが期待されます。
非構造化データの構造化手法
非構造化データの増加に伴い、OCRや音声認識などさまざまな技術が開発されてきました。これらの技術により単なるテキスト変換にとどまらず、文書や発話の意図までをも解析し、その構造を認識できるようになっています。
ドキュメントの構造化
紙の書類やスキャンデータ等のPDFなどのデータは、まずテキストをデータとして扱えるようにAI-OCRによってテキスト情報の抽出を行います。
抽出されたテキストは、LLMなどを用いてマークダウン記法やQA形式等に構造化します。AI-OCRの中には、テキスト情報の抽出と同時に構造化を行うものもあります。
画像の構造化
画像データは、多様な形式のデータを解釈できるマルチモーダルLLMによって、画像データ内の物体を識別します。識別した情報をもとに、この画像が何かを端的に示すラベルや、説明文を示すキャプションを生成し、メタデータとして付与します。
画像データそのものを扱うのではなく、ラベルやキャプションといったテキスト情報に置換することによって、ドキュメント等のファイルと同様に検索・回答時に取り扱うことができるようになります。
音声の構造化
音声データは、まず音声認識によってテキスト情報に変換することが重要です。最近の会議システムでは自動的に文字起こしする機能を持つものもあります。
テキスト情報に変換された音声データは、LLMや音声分析ツールを用いて、話者分離(会話の登場人物を認識して分けること)や感情分析(発言がポジティブかネガティブか等の感情ステータスをラベリングする)を行い、要約やキーワードを抽出してメタデータとして付与します。
データパイプラインへの統合
大量のデータを一元的かつ自動的に扱うには、構造化プロセスだけでなく、収集からAI活用までの流れを統合する仕組みが必要です。
最近は単にデータを構造化するだけでなく、情報の収集と前処理をシステム全体で自動化する試みが進んでいます。データの収集や構造化を同時に行い、チャンク分割を効率的に進めることで、大量のデータも即座に生成AIが参照できるようになります。
構造化の自動化
膨大な非構造化文書や多言語データに対しては、人手作業で前処理を行うのは到底間に合いません。自動OCRやマルチモーダルLLMを活用した音声認識、ラベリングなどを組み合わせることで、データ量によらない柔軟な対応を実現できます。
昨今では、AI-OCRと構造化機能を統合したクラウドサービスもAPI形式で利用可能になっています。こうした構造化APIを活用することで、より迅速に社内のデータを活用に結びつけることが可能になります。
収集からAIへの連携までの自動化
構造化を自動化するだけでは、データを更新する際に都度担当者がデータを集めて登録する必要性が残ってしまいます。データの収集から構造化等の前処理、ベクトルデータベースへの登録等のAIへの連携までの一連のデータ処理プロセスを管理できる仕組み「データパイプライン」の整備が重要です。
データパイプラインにおける各処理は順序制御され、同期的にモニタリングされます。ある処理プロセスでエラーが発生した場合、そのエラーデータはAIには登録されず、担当者に通知されます。このような仕組みを設けることで、データの品質を維持し、AIが参照すべきデータの欠損を防ぎます。
AIのためのデータパイプラインを実現するiPaaS
iPaaS(Integration Platform as a Service)は、異なるシステム間のデータ連携を可視化し、運用を効率化するプラットフォームです。クラウド環境でもオンプレミス環境でも柔軟にデータの流れを構築して、生成AIで活用するためのデータをリアルタイムに供給できます。
構造化のほか、データのクレンジングや重複排除などもiPaaS上のワークフローとして組み込めば、AIに渡すデータのステータスを常に管理することができるようになります。こうした仕組みを活用することで、構造化されたデータの価値をより大きく引き出すことができるようになります。
日本発iPaaS「HULFT Square」では、構造化をはじめとする様々なAI活用のための処理テンプレートを整備しています。
AI活用を加速する「HULFT Square」の前処理テンプレート
HULFT Squareでは、「自分たちでやるには難しい」と感じるよくあるAIの前処理を“使えるかたち”でパッケージ化した、ノーコードでそのまま利用できる実用的なアプリケーションテンプレートを提供しています。
-
▼iPaaSについてもっと詳しく知りたい
⇒ iPaaS|用語集
さいごに
本記事では、生成AIの回答精度を高めるためのデータ構造化と前処理の重要性、そして具体的な手法についてご紹介しました。
データの構造化は、企業が持つ大量のファイルを正しく解析し、文脈を誤らずに伝えるための不可欠なプロセスです。非構造化データでも、OCRや音声認識を組み合わせれば、自動的にテキストへ変換し、AIが解釈しやすい形で利用できるようになります。
iPaaSをデータパイプラインとして活用することで、データの品質を持続的に高める仕組みを運用することができるようになります。回答精度を高めるアプローチとして、ぜひiPaaSでデータの前処理に取り組んでみてください。
執筆者プロフィール
山本 進之介
- ・所 属:データインテグレーションコンサルティング部 Data & AI エバンジェリスト
- 入社後、データエンジニアとして大手製造業のお客様を中心にデータ基盤の設計・開発に従事。その後、データ連携の標準化や生成AI環境の導入に関する事業企画に携わる。2023年4月からはプリセールスとして、データ基盤に関わる提案およびサービス企画を行いながら、セミナーでの講演など、「データ×生成AI」領域のエバンジェリストとして活動。趣味は離島旅行と露天風呂巡り。
- (所属は掲載時のものです)
おすすめコンテンツ
データ活用コラム 一覧
- データ連携にiPaaSをオススメする理由|iPaaSを徹底解説
- システム連携とは?自社に最適な連携方法の選び方をご紹介
- 自治体DXにおけるデータ連携の重要性と推進方法
- 生成 AI が切り開く「データの民主化」 全社員のデータ活用を阻む「2つの壁」の突破法
- RAG(検索拡張生成)とは?| 生成AIの新しいアプローチを解説
- Snowflakeで実現するデータ基盤構築のステップアップガイド
- SAP 2027年問題とは? SAP S/4HANAへの移行策と注意点を徹底解説
- Salesforceと外部システムを連携するには?連携方法とその特徴を解説
- DX推進の重要ポイント! データインテグレーションの価値
- データクレンジングとは何か?|ビジネス上の意味と必要性・重要性を解説
- データレイクハウスとは?データウェアハウスやデータレイクとの違い
- データ基盤とは?社内外のデータを統合し活用を牽引
- データ連携を成功させるには標準化が鍵
- VMware問題とは?問題解決のアプローチ方法も解説
- kintone活用をより加速するデータ連携とは
- MotionBoardの可能性を最大限に引き出すデータ連携方法とは?
- データクレンジングの進め方 | 具体的な進め方や注意点を解説
- データ活用を支えるデータ基盤の重要性 データパイプライン選定の9つの基準
- 生成AIを企業活動の実態に適合させていくには
- Boxとのシステム連携を成功させるためのベストプラクティス ~APIとiPaaSの併用で効率化と柔軟性を両立~
- RAGに求められるデータ基盤の要件とは
- HULFTで実現するレガシーシステムとSaaS連携
- データ分析とは?初心者向けに基本から活用法までわかりやすく解説
- 今すぐ取り組むべき経理業務の効率化とは?~売上データ分析による迅速な経営判断を実現するデータ連携とは~
- Amazon S3データ連携のすべて – メリットと活用法
- ITとOTの融合で実現する製造業の競争力強化 – 散在する情報を統合せよ!
- データ分析手法28選!|ビジネスに活きるデータ分析手法を網羅的に解説
- Amazon Auroraを活用した最適なデータ連携戦略
- 生成AIで実現するデータ分析の民主化
- データ活用とは?ビジネス価値を高める基礎知識
- iPaaSで進化!マルチRAGで社内データ価値を最大化
- Microsoft Entra ID連携を徹底解説
- iPaaSで実現するRAGのデータガバナンス
- 銀行DXを加速!顧客データとオープンデータで描く金融データ活用の未来
- データ統合とは?目的・メリット・実践方法を徹底解説
- 貴社は大丈夫?データ活用がうまくいかない理由TOP 5
- 連携事例あり|クラウド会計で実現する経理業務の自動化徹底解説!
- 顧客データを統合してインサイトを導く手法とは
- SX時代におけるサステナビリティ経営と非財務データ活用の重要性
- メタデータとは?基礎から最新動向までFAQ形式で解説
- データは分散管理の時代?データメッシュを実現する次世代データ基盤とは
- API連携で業務を加速!電子契約を使いこなす方法とは
- BIツール vs. 生成AI?両立して実現するAI時代のデータ活用とは
- 脱PoC!RAGの本番運用を支える「データパイプライン」とは
- モダンデータスタックとは?全体像と構成要素から学ぶ最新データ基盤
- データ分析の結果をわかりやすく可視化!〜 ダッシュボードの基本と活用徹底ガイド 〜
- Boxをもっと便利に!メタデータで始めるファイル管理効率化
- メタデータで精度向上!生成AI時代に必要なメタデータと整備手法を解説
- HULFTユーザーに朗報!基幹システムとSalesforceを最短1時間でつなぐ方法
- 脱炭素経営に向けて!データ連携基盤でGHG排出量をクイックに可視化
- データが拓く未来のウェルスマネジメント
- iPaaSが必要な理由とは?クラウド時代に求められる統合プラットフォーム
- 顧客データがつながると、ビジネスは変わる。HubSpot連携で始める統合データ活用
- AI時代のデータ探索:ベクトル検索の手法とデータ連携方法を解説
- RAGのドキュメント検索の精度を高めるチャンク分割とは
- 名刺管理データを真価に変える:CRM・SFA活用で営業力を最大化
- ETL・ELT・EAIの違いとは?データ連携基盤を最適化するポイントを徹底解説
- Marketoと外部ツールのデータ連携で実現するBtoBマーケティングの効率化
- 鍵はデータの構造化!生成AIの回答精度を高める前処理の実践
