データ活用コラム

鍵はデータの構造化！生成AIの回答精度を高める前処理の実践

近年、生成AIの活用が急速に広まる中、その回答精度を左右する要因としてデータ前処理が注目されています。データの整形や形式統一によって、ハルシネーションが発生するリスクを抑制することが期待されています。
本記事では、生成AIに適したデータを提供するうえで重要な「データの構造化」について解説し、具体的な前処理手法をご紹介します。

生成AI

データ活用

データ連携

Shinnosuke Yamamoto －読み終わるまで5分

データの構造とは何か

データは大きく分けて、明確な行や列のルールを持つ構造化データ、自由な形式で保存された非構造化データ、その中間的な半構造化データに分類されます。実際の業務では、表形式の数値データだけでなく、テキストや音声、画像など多様な情報源を扱うケースが増えています。

構造化データ

テーブルやデータベースのように、行や列のルールが明確に定義されているデータを指します。

構造化データの例として、顧客マスターや売上データが挙げられます。これらのデータは事前に定義されたフォーマットで蓄積されるため、生成AIで活用する際には、一般的に生成AIがテキストからSQLを作り出す「Text-to-SQL」と呼ばれるアプローチを取ります。

▼生成AIについてもっと詳しく知りたい
⇒ 生成AI（Generative AI）｜用語集

非構造化データ

文書や画像、音声、動画など、決まった枠組みがないデータを指します。近年の業務情報にはメール本文やSNS投稿、PDFやスキャン画像など、非構造化データの占める割合がとても大きいのが実情です。

そのままの形では生成AIが扱いにくく、意味や文脈を解析するために事前の変換やラベリングが必要になります。テキストや音声を抽出するOCRや音声認識などを活用し、分かりやすい形式に変換するのが一般的な手法です。

半構造化データ

XMLやJSONのように、タグやキーといったメタ情報を部分的に含むデータ形式です。構造的でありながら、柔軟に拡張できるため、多様なデータを扱いやすい点がメリットです。

人間が見ても機械が解析しても理解しやすく、生成AIへの入力データとしても有用です。運用面で扱いやすいよう、各項目に意味を持たせ、十分な説明やスキーマ定義を積み重ねるほど、高度な応用が可能になります。

TOPへ

生成AIにとってなぜデータ構造が重要か

構造化が不十分なデータをそのまま投入すると、生成AIの推論精度が低下したり、文脈を取り違えた回答が生成されやすくなります。生成AI（RAGなど）へ適切な情報を渡すためには、AIが正しく解釈しやすい形に整形することが不可欠です。

理由① データの理解と文脈の把握

AIはユーザーが求めるデータを正しく検索し、正しく解釈することが求められます。データの構造が明確であることは、AIにとっての検索性や解釈性を高めるうえで重要な要素のひとつです。

例えば、情報同士の親子関係（章と節、本文の関係など）や並列関係（箇条書きなど）も重要なデータの構造の要素です。AI-OCRや構造化API等によってデータの構造を明確にすることで、AIにとっての検索性や解釈性が高まり、回答精度を高められることが期待されます。

▼APIについてもっと詳しく知りたい
⇒ API｜用語集

理由② 出力の一貫性と精度の確保

データの形式がバラバラでなく一定のフォーマットに沿って構造的に整理されることによって、AIによる回答の粒度やレベル感に一定の一貫性を持たせることができるようになります。

また、データの構造が明確になることで、必要な情報と不要な情報を明確に区別し、必要な情報だけに基づいた回答を導くことが可能になります。ノイズとなる情報を排除することで、不要な回答や期待しない回答の生成を防ぎます。

理由③ 処理効率とコスト最適化

AIが参照するデータの構造が明確であることで、検索時や要約時の処理時間を短縮し、コストを抑制することが期待されます。

大量のデータを扱う企業にとっては、ひとつひとつのデータの処理時間やコストの積み重ねが大きな機会損失につながります。データを事前に整理することで検索性能や回答性能を高め、より人が注力すべきことにリソースを振り向けることができます。

TOPへ

構造化形式の例

業務でよく使われるドキュメントは、マークダウン記法やJSON形式など、拡張子は違っていても論理的に整理された構造を持たせる工夫ができます。これにより、テキスト本文と見出し、リストなどを区別しやすくなり、生成AIが目的の情報を素早く拾い上げやすくなります。

QA形式にまとめられたデータも、質問と回答の対応関係が明確になるため、生成AIが要点を検索しやすい形式といえます。自社の知識ベースや製品情報などを階層的に組み立てることで、回答の精度向上が期待できるでしょう。

形式例① マークダウン記法

テキスト中に見出しやリスト、リンクといったマークアップを施すことで、シンプルながら可読性の高い文書を作れます。システム間での取り回しがしやすく、表示形式によらず内容や構造を正確に伝えられるのが利点です。

生成AIに渡すデータとしては、見出しレベルの情報や箇条書きなどをタグ代わりに活用することで、文書の意図をAI側により伝えやすくなります。

形式例② QA形式（質問と回答のペア）

問い合わせ対応やFAQコンテンツを構造化する場合に便利な手法です。LLMによって想定される質問と回答のペアを生成し、質問と回答のペアをCSV等の形式で保持します。

QA形式でデータを保持することによって、ユーザーからの質問に対して元データから回答を都度考えるのではなく、網羅的な質問リストの中から探索することで迅速かつ的確に回答を導くことが期待されます。

形式③ JSON/XML形式

システム同士が読み書きしやすいフォーマットとして、階層構造を定義できることが最大の特徴です。要素の入れ子を自由に設定できるため、複雑なデータでも意味を持たせながら格納しやすくなります。

テーブルデータだけでなく、各項目にメタ情報を付与できるため、生成AIが文脈を理解するときにも非常に有用です。例えばタグ情報やファイルが保存されているファイルパスまたはURLなどを紐づけることで、より高速かつ正確な回答を導くことが期待されます。

TOPへ

非構造化データの構造化手法

非構造化データの増加に伴い、OCRや音声認識などさまざまな技術が開発されてきました。これらの技術により単なるテキスト変換にとどまらず、文書や発話の意図までをも解析し、その構造を認識できるようになっています。

ドキュメントの構造化

紙の書類やスキャンデータ等のPDFなどのデータは、まずテキストをデータとして扱えるようにAI-OCRによってテキスト情報の抽出を行います。

抽出されたテキストは、LLMなどを用いてマークダウン記法やQA形式等に構造化します。AI-OCRの中には、テキスト情報の抽出と同時に構造化を行うものもあります。

画像の構造化

画像データは、多様な形式のデータを解釈できるマルチモーダルLLMによって、画像データ内の物体を識別します。識別した情報をもとに、この画像が何かを端的に示すラベルや、説明文を示すキャプションを生成し、メタデータとして付与します。

画像データそのものを扱うのではなく、ラベルやキャプションといったテキスト情報に置換することによって、ドキュメント等のファイルと同様に検索・回答時に取り扱うことができるようになります。

音声の構造化

音声データは、まず音声認識によってテキスト情報に変換することが重要です。最近の会議システムでは自動的に文字起こしする機能を持つものもあります。

テキスト情報に変換された音声データは、LLMや音声分析ツールを用いて、話者分離（会話の登場人物を認識して分けること）や感情分析（発言がポジティブかネガティブか等の感情ステータスをラベリングする）を行い、要約やキーワードを抽出してメタデータとして付与します。

TOPへ

データパイプラインへの統合

大量のデータを一元的かつ自動的に扱うには、構造化プロセスだけでなく、収集からAI活用までの流れを統合する仕組みが必要です。

最近は単にデータを構造化するだけでなく、情報の収集と前処理をシステム全体で自動化する試みが進んでいます。データの収集や構造化を同時に行い、チャンク分割を効率的に進めることで、大量のデータも即座に生成AIが参照できるようになります。

構造化の自動化

膨大な非構造化文書や多言語データに対しては、人手作業で前処理を行うのは到底間に合いません。自動OCRやマルチモーダルLLMを活用した音声認識、ラベリングなどを組み合わせることで、データ量によらない柔軟な対応を実現できます。

昨今では、AI-OCRと構造化機能を統合したクラウドサービスもAPI形式で利用可能になっています。こうした構造化APIを活用することで、より迅速に社内のデータを活用に結びつけることが可能になります。

収集からAIへの連携までの自動化

構造化を自動化するだけでは、データを更新する際に都度担当者がデータを集めて登録する必要性が残ってしまいます。データの収集から構造化等の前処理、ベクトルデータベースへの登録等のAIへの連携までの一連のデータ処理プロセスを管理できる仕組み「データパイプライン」の整備が重要です。

データパイプラインにおける各処理は順序制御され、同期的にモニタリングされます。ある処理プロセスでエラーが発生した場合、そのエラーデータはAIには登録されず、担当者に通知されます。このような仕組みを設けることで、データの品質を維持し、AIが参照すべきデータの欠損を防ぎます。

AIのためのデータパイプラインを実現するiPaaS

iPaaS（Integration Platform as a Service）は、異なるシステム間のデータ連携を可視化し、運用を効率化するプラットフォームです。クラウド環境でもオンプレミス環境でも柔軟にデータの流れを構築して、生成AIで活用するためのデータをリアルタイムに供給できます。

構造化のほか、データのクレンジングや重複排除などもiPaaS上のワークフローとして組み込めば、AIに渡すデータのステータスを常に管理することができるようになります。こうした仕組みを活用することで、構造化されたデータの価値をより大きく引き出すことができるようになります。

日本発iPaaS「HULFT Square」では、構造化をはじめとする様々なAI活用のための処理テンプレートを整備しています。

AI活用を加速する「HULFT Square」の前処理テンプレート

HULFT Squareでは、「自分たちでやるには難しい」と感じるよくあるAIの前処理を“使えるかたち”でパッケージ化した、ノーコードでそのまま利用できる実用的なアプリケーションテンプレートを提供しています。

▼iPaaSについてもっと詳しく知りたい
⇒ iPaaS｜用語集

TOPへ

さいごに

本記事では、生成AIの回答精度を高めるためのデータ構造化と前処理の重要性、そして具体的な手法についてご紹介しました。

データの構造化は、企業が持つ大量のファイルを正しく解析し、文脈を誤らずに伝えるための不可欠なプロセスです。非構造化データでも、OCRや音声認識を組み合わせれば、自動的にテキストへ変換し、AIが解釈しやすい形で利用できるようになります。

iPaaSをデータパイプラインとして活用することで、データの品質を持続的に高める仕組みを運用することができるようになります。回答精度を高めるアプローチとして、ぜひiPaaSでデータの前処理に取り組んでみてください。

セゾンテクノロジーのオンライン相談

当社のデータ活用プラットフォームについて、もう少し詳しい話が聞きたい方はオンライン相談も承っています。

オンライン相談をする

TOPへ

執筆者プロフィール

山本進之介

・所属：データインテグレーションコンサルティング部 Data & AI エバンジェリスト
入社後、データエンジニアとして大手製造業のお客様を中心にデータ基盤の設計・開発に従事。その後、データ連携の標準化や生成AI環境の導入に関する事業企画に携わる。2023年4月からはプリセールスとして、データ基盤に関わる提案およびサービス企画を行いながら、セミナーでの講演など、「データ×生成AI」領域のエバンジェリストとして活動。趣味は離島旅行と露天風呂巡り。
（所属は掲載時のものです）

鍵はデータの構造化！生成AIの回答精度を高める前処理の実践

目次