ビデオチュートリアル

ビデオチュートリアル

PDFのデータ抽出と自動化

PDFドキュメントの情報とテキストを抽出する

まず、StudioでPDFアクティビティパッケージが有効になっていることを確認します。(有効になっていない場合は、Manage Packagesウィンドウでダウンロードしてください。)

このアクティビティにより、PDFファイルに含まれるテキストブロックと要素の両方を処理できます。

ドキュメント全体(または特定のページ)を抽出する場合は、Read PDF Textアクティビティを使って文字列を出力します。出力した文字列は、処理や加工に使用できます。

テキスト画像の抽出には、Read PDF with OCRアクティビティを使用します。ドロップするだけでOCRエンジン(Abbyy、Microsoft、Google)で処理され、テキストが文字列型の変数として出力されます。

PDFファイルのテキスト抽出には、Screen Scrapingウィザードも使用できます。詳しくは、UIの高度な自動化をご覧ください。

Get Textは、UI要素のテキストを抽出するアクティビティです。このアクティビティを使用するには、セレクターに関する知識が必要です。

Anchor Baseアクティビティ(Find ElementまたはImageGet Textを使用)では、単一のPDFファイル、または同じ構造を持つ複数のPDFファイルから、変動する値を抽出できます。