AI前処理 PDFファイルからテキストを抽出しMarkdownファイルに変換
- 名称
- PDFからテキスト抽出
- タグ
- AI前処理/Claude/生成AI
- 使用コネクター
- RESTコネクター
- API
- APIバージョン:2023-06-01

生成AIで利用するRAGのデータ準備を容易にする、HULFT Squareのアプリケーションです。
本アプリケーションは、LLMであるClaudeを利用してPDFファイル内のテキストを抽出、Markdownファイルとして出力します。
スクリプト詳細
PDFファイルをMarkdownファイルに変換
ScannedPdf_To_Markdown_Claude_convert

PDFファイル変換の所要トークン数の制限値チェック
ScannedPdf_To_Markdown_Claude_validate_limits

PDFファイルのページ数を取得
ScannedPdf_To_Markdown_Claude_get_max_page

PDFファイルのページ毎にテキスト抽出の結果をMarkdownファイルに出力
ScannedPdf_To_Markdown_Claude_convert_to_markdown

インストール方法と使い方はこちら