【UiPath】PDFファイルのテキストデータを取得(PDFアクティビティ、OCR、アンカーベース、CV)

UiPath Studioの開発では、PDFファイルのテキスト取得して、システムへのデータ登録やメールの送信に利用したい場合があります。

この記事では、PDFパッケージのインストール方法、PDFアクティビティで出来ること、PDFのテキストデータの抽出方法について、解説します。

目次へ進む

＼セール期間中がお買い得／

オンライン学習サービスUdemyのUiPathコースを見てみる

*無料動画あり

Udemyの公式サイトはこちら

当ブログ『エフペンITブログ』の運営者

エフペン

システム開発,クラウド構築,サービス企画まで幅広い経験を持つITエンジニア。当ブログでは、UiPathや資格取得のノウハウを発信します。profile詳細 / twitter:@fpen17

PDFパッケージインストール手順

PDFのテキスト読み込みやPDFのページ数の取得するアクティビティは、PDFのアクティビティパッケージ(UiPath.PDF Activities)をインストールする必要があります。

アクティビティパッケージは、プロセスごとに設定されるので、新しいプロセスを作成するたびに必要に応じてインストールします。

PDFパッケージのインストール手順
①対象のプロセスをStudioで開いた状態で、[パッケージを管理]をクリックする

②ポップアップされた画面の[オフィシャル]をクリックする

③検索窓に「PDF」を入力し、[UiPath.PDF Activities]をクリックする

④[インストール]をクリックする

⑤[保存]をクリックする

⑥左下の[プロジェクト]をクリックし、UiPath.PDF Activitiesが表示されていることを確認する

PDFアクティビティでできること

PDFのアクティビティパッケージをインストールすることで、テキスト読み取りや画像を作成するアクティビティを使用できます。

PDFアクティビティは、アプリの連携 > PDF にあります。

PDFアクティビティ

アクティビティ名	アクティビティの動作
OCR で PDF を読み込み (Read PDF With OCR)	OCR テクノロジーを使用して、指定した PDF ファイルからすべての文字を読み取り、String 型変数に格納します。
PDF から画像を抽出 (Extract Images From PDF)	指定した PDF ファイルから画像を抽出します。
PDF のテキストを読み込み (Read PDF Text)	指定した PDF ファイルからすべての文字を読み取り、String 型変数に格納します。
PDF のパスワードを管理 (Manage PDF Password)	指定した PDF ファイルのパスワードを変更します。
PDF のページ数を取得 (Get PDF Page Count)	PDF ファイルの総ページ数を指定します。
PDF のページ範囲を抽出 (Extract PDF Page Range)	PDF ドキュメントの指定したページ範囲を抽出します。
PDF ファイルを結合 (Join PDF Files)	文字列の配列で格納されている複数の PDFファイルを単一の PDF ファイルに結合します。
PDF ページを画像としてエクスポート (Export PDF Page As Image)	指定した PDF ファイルのページから画像を作成します。

PDFファイルの全テキストデータ抽出

PDFファイル内の全テキストの抽出は、PDFのテキストを読み込み、フルテキストを取得、OCRでPDFを読み込み　のアクティビティを使用します。

PDFの全テキストを抽出するアクティビティ

アクティビティ名	アクティビティの場所	アクティビティの概要	読み取り精度
PDF のテキストを読み込み	アプリの連携 > PDF	指定した PDF ファイルからすべての文字を読み取り、String 型変数に格納します。	△
フルテキストを取得	UI Automation > テキスト > 画面スクレイピング	フルテキストの画面スクレイピングメソッドで、指定した UI 要素から文字列とその情報を抽出します。	△
OCR で PDF を読み込み	アプリの連携 > PDF	OCR テクノロジーを使用して、指定した PDF ファイルからすべての文字を読み取り、String 型変数に格納します。	×～△ (使用するOCRによる)

エフペン

Officeファイルをエクスポートしたファイルはほぼ正確に読み取りますが、手書きした用紙のPDFファイルのテキスト読み取り精度は低くなります。

ラッコくん

無料で使用できるOCRは、かなり読み取り精度が低いので、大きな期待は禁物だよ。

エフペン

テキストの読み取り精度とプロセスの安定度を考慮して、利用優先順位は、PDF のテキストを読み込み　＞　フルテキストを取得　＞　OCR で PDF を読み込み　をベースに考えると良いです。

PDFのテキストを読み込み (Read PDF Text)

PDFファイルのすべての文字を読み取るのは、「PDFのテキストを読み込み (Read PDF Text)」のアクティビティを使用します。

「PDFのテキストを読み込み (Read PDF Text)」は、System> Activities> Statements にあります。

PDF のテキストを読み込みの設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	ファイル (File)	ファイル名	読み込む PDF ファイルのパスです。
	ファイル (File)	パスワード	PDF ファイルのパスワードです (必要な場合)
	入力	書式を保持	選択されていると、このオプションは抽出が完了した後、ファイルの書式設定を維持します。
	入力	範囲	読み取るページの範囲。
	出力	テキスト	抽出した文字列です。
	共通	表示名	アクティビティの表示名です。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

PDF のテキストを読み込み (Read PDF Text)

サンプルプロセス
PDFファイルの全テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・プロセス

・「PDF のテキストを読み込み」のプロパティ

・変数のプロパティ

・読み込み対象のPDF(エクセルファイルのエクスポート、手書きなし)

・実行結果

エフペン

エクセルをエクスポートして作成したPDFなので、正確に読み取れています。

ラッコくん

読み取り対象のPDFファイルに手書きが含まれていると、読み取り精度は落ちるよ。

フルテキストを取得 (Get Full Text)

指定した UI 要素をPDFファイルを指定して、PDFファイルのテキストの文字を読み取るのは、「フルテキストを取得 (Get Full Text)」のアクティビティを使用します。

フルテキストを取得は、PDFファイルを開いた状態のセレクタを指定するので、Adobe Acrobat Reader(もしくは代替製品のPDFビューア) をインストールしておく必要があります。

フルテキストを取得は、UI Automation > テキスト > 画面スクレイピングにあります。

フルテキストを取得を読み込みの設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	出力	テキスト	指定した UI 要素から抽出された文字列です。
	オプション	非表示を無視	このチェックボックスをオンにした場合は、指定した UI 要素の文字列情報が抽出されません。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
	セレクタ	ターゲット	アクティビティの実行時に特定の UI 要素の検索に使用する Text プロパティです。
		タイムアウト(ミリ秒)	エラーがスローされる前にアクティビティが実行されるまで待機する時間 (ミリ秒単位) を指定します。
		準備完了まで待機	アクションを実行する前に、ターゲットが準備完了になるまで待ちます。
		要素	別のアクティビティから返される UiElement 変数を使用します。
		クリッピング領域	UiElement を基準とし、左、上、右、下の方向で、クリッピング四角形 (ピクセル単位) を定義します。
	共通	表示名	アクティビティの表示名です。
	共通	エラー発生時に実行を継続	アクティビティが例外をスローした場合でも、ワークフローを継続するかどうかを指定します。

フルテキストを取得 (Get Full Text)

サンプルプロセス
あらかじめ開いておいたPDFファイルのUI要素を指定して全テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・プロセス

・フルテキストを取得のプロパティ

・フルテキストを取得のセレクタ

・読み取り対象のPDFファイル

・実行結果のログ

エフペン

エクセルをエクスポートして作成したPDFだと、フルテキストを取得で正確に読み取れています。

OCRでPDF を読み込み (Read PDF With OCR)

OCRでPDFファイルのすべての文字を読み取るのは、「OCRでPDF を読み込み (Read PDF With OCR)」のアクティビティを使用します。

「OCRでPDF を読み込み (Read PDF With OCR)」は、アプリの連携 > PDF にあります。

OCRでPDF を読み込みの設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	共通	表示名	アクティビティの表示名です。
	ファイル	ファイル名	読み込む PDF ファイルのパスです。
	ファイル	パスワード	PDF ファイルのパスワードです (必要な場合)。
	入力	並列度	並列で分析するページ数を指定します (該当する場合)。
		画像 DPI	OCR 処理で使用する DPI です。
		範囲	読み取るページの範囲。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
	出力	テキスト	抽出した文字列です。

OCRでPDFを読み込み (Read PDF With OCR)

ラッコくん

「OCRでPDFを読み込み」を使用する場合、「OCRでPDFを読み込み」内にOCRエンジンのアクティビティをセットする必要があるよ。

エフペン

OCRエンジンの「Microsoft OCR」追加設定不要だけど、「Tesseract OCR(旧Google OCR)」は、追加設定が必要です。

Tesseract OCRの追加設定手順
Tesseract OCR(旧Google OCR)は日本語の言語ファイルを、指定フォルダへ配置する必要があります。具体的な手順は以下の通りです。

①tesseract-ocr/tessdata のページで、jpn.traineddata をダウンロードする。

②UiPath のインストールディレクトリ(※)に「tessdata」フォルダーを作成し、jpn.traineddataファイルを保存します。

エフペン

※エンタープライズ版のUiPathのインストールディレクトリは、「C:\Program Files\UiPath\Studio」です

ラッコくん

※Community版のUiPathのインストールディレクトリは、「C:\Users\[ユーザー名]\AppData\Local\UiPath\app-xx.xx.xx\net461」になります。xx.xx.xxの部分はバージョンを表すため、存在するフォルダで一番大きい数字を選ぶよ。

③UiPath を再起動(アプリケーションを一度閉じてから起動)すると、日本語を使用できるようになります。

Google OCR

サンプルプロセス１
Microsoft OCRでPDFファイルの全テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・「OCR で PDF を読み込み」のプロパティ

・「Microsoft OCR」のプロパティ

・変数のプロパティ

・読み取り対象のPDF

・実行結果のログ

ラッコくん

Microsoft OCRは読み取り精度が低いので、エクセルをエクスポートしたファイルでも、いくつか誤って読み取りしている単語があるよ。

サンプルプロセス２
Tesseract OCRでPDFファイルの全テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・「OCR で PDF を読み込み」のプロパティ

・「Tesseract OCR」のプロパティ

・変数のプロパティ

・読み取り対象のPDF

・実行結果のログ

エフペン

「Tesseract OCR」の読み取り精度は、あまりよくありません。

PDFファイルの一部テキストデータ抽出

PDFファイル内の一部テキストの抽出は、テキストの取得、表示中のテキストを取得、アンカーベース、CV テキストを取得のアクティビティを使用します。

PDFの一部テキストを抽出するアクティビティ

アクティビティ名	アクティビティの場所	アクティビティの概要	読み取り精度
テキストを取得	UI AUtomation > 要素 > 制御	指定した UI 要素からテキスト値を抽出します。	△
表示中のテキストを取得	UI AUtomation > テキスト > 画面スクレイピング	Native 画面スクレイピングメソッドを使用して、指定した UI 要素から文字列とその情報を抽出します。	△
アンカーベース	UI AUtomation > 要素 > 検出	他の UI 要素をアンカーとして使用して UI 要素を検索するコンテナーです。	△
CV テキストを取得	Computer Vision	UiPath Computer Visionニューラルネットワークを使用して、指定されたUI要素からテキストを抽出します。	△

ラッコくん

読み取り精度とプロセスの安定を考慮すると、UI要素を優先した方がいいよ。

エフペン

アクティビティの順でいうと、テキストの取得、アンカーベース(要素) > 表示中のテキストを取得 > CV テキストを取得、アンカーベース(画像)　です。

テキストを取得 (Get Text)

PDFの指定したUI 要素から一部のテキスト値を抽出するのは、「テキストを取得 (Get Text)」のアクティビティを使用します。

「テキストを取得 (Get Text)」は、 UI AUtomation > 要素 > 制御　にあります。

テキストを取得の設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	出力	値	指定した UI 要素から抽出したテキストを変数に格納できます。
	共通	表示名	アクティビティの表示名です。
	共通	エラー発生時に実行を継続	アクティビティが例外をスローした場合でも、ワークフローを継続するかどうかを指定します。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
	ターゲット	セレクタ	アクティビティの実行時に特定の UI 要素の検索に使用する Text プロパティです。
		タイムアウト(ミリ秒)	エラーがスローされる前にアクティビティが実行されるまで待機する時間 (ミリ秒単位) を指定します。
		準備完了まで待機	アクションを実行する前に、ターゲットが準備完了になるまで待ちます。
		要素	別のアクティビティから返される UiElement 変数を使用します。
		クリッピング領域	UiElement を基準とし、左、上、右、下の方向で、クリッピング四角形 (ピクセル単位) を定義します。

テキストを取得 (Get Text)

サンプルプロセス
あらかじめ開いておいたPDFファイルのUI要素を指定して一部テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・プロセス

・「テキストを取得」のプロパティ

・「テキストを取得」のセレクタ

・変数の設定

・読み取り対象のPDF

・実行結果のログ

表示中のテキストを取得 (Get Visible Text)

Native 画面スクレイピングメソッドを使用して、PDFから指定した UI 要素から文字列とその情報を抽出するのは、「表示中のテキストを取得 (Get Visible Text)」のアクティビティを使用します。

「表示中のテキストを取得 (Get Visible Text)」は、UI AUtomation > テキスト > 画面スクレイピング　にあります。

表示中のテキストを取得の設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	出力	テキスト	指定した UI 要素から抽出された文字列です。
	出力	単語情報	指定した UI 要素の中で見つかった各単語のスクリーン座標です。
	オプション	区切り文字	文字列 (単語) を区切る文字を指定します。
	オプション	書式付きテキスト	このチェックボックスをオンにした場合、スクレイピングしたテキストの画面レイアウトが保持されます。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
	入力	セレクター	アクティビティの実行時に特定の UI 要素の検索に使用する Text プロパティです。
		タイムアウト(ミリ秒)	エラーがスローされる前にアクティビティが実行されるまで待機する時間 (ミリ秒単位) を指定します。
		準備完了まで待機	アクションを実行する前に、ターゲットが準備完了になるまで待ちます。
		要素	別のアクティビティから返される UiElement 変数を使用します。
		クリッピング領域	UiElement を基準とし、左、上、右、下の方向で、クリッピング四角形 (ピクセル単位) を定義します。
	共通	表示名	アクティビティの表示名です。
	共通	エラー発生時に実行を継続	アクティビティが例外をスローした場合でも、ワークフローを継続するかどうかを指定します。

表示中のテキストを取得 (Get Visible Text)

サンプルプロセス
あらかじめ開いておいたPDFファイルのUI要素を指定して一部テキストを読み取り、読み取ったテキストデータと単語情報をログメッセージへ出力する。

・プロセス

・表示中のテキストを取得

エフペン

「表示中のテキストを取得」で、テキストと単語情報を出力しています。

ラッコくん

単語情報は、IEnumerable<TextInfo>型で出力されるので、「繰り返し (コレクションの各要素)」を使って、各要素を出力しているよ。

・表示中のテキストを取得のセレクター

・繰り返し (コレクションの各要素)のプロパティ

エフペン

「繰り返し (コレクションの各要素)」のTypeArgumentは、要素内の型であるTextInfoを指定します。

・変数の設定

・読み取り対象のPDF

・実行結果のログ

アンカーベース (Anchor Base)

PDF内で画面上の要素を特定できない場合は、他の要素や画像を目印として指定し、相対的な位置にある要素の値を取得する「アンカーベース (Anchor Base)」のアクティビティを使用します。

「アンカーベース (Anchor Base)」は、UI AUtomation > 要素 > 検出　にあります。

アンカーベースの設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	入力	アンカー位置	コントロールが固定されているコンテナーの端を指定します。
	共通	表示名	アクティビティの表示名です。
	共通	エラー発生時に実行を継続	アクティビティが例外をスローした場合でも、ワークフローを継続するかどうかを指定します。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

アンカーベース (Anchor Base)

サンプルプロセス１
あらかじめ開いておいたPDFファイルのUI要素を指定して、相対位置にある一部テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・プロセス

ラッコくん

アンカーベースの左側は、アンカーとなるUI要素を取得出来るアクティビティを配置するよ。

エフペン

アンカーベースの右側は、指定したUI要素の相対位置にある取得したい要素のアクティビティを配置します。

・「アンカーベース」のプロパティ

・「要素を探す」のプロパティ

・「要素を探す」のセレクター

・「テキストを取得」のプロパティ

・変数

・読み取り対象のPDF

・実行結果のログ

サンプルプロセス２
あらかじめ開いておいたPDFファイルの画像要素を指定して、相対位置にある一部テキストを読み取り、読み取ったテキストデータをログメッセージへ出力する。

・プロセス

ラッコくん

アンカーベースの左側に、アンカーとなる画像を探すアクティビティを配置しているよ

・「アンカーベース」のプロパティ

・「画像を探す」のプロパティ

・「テキストを取得」のプロパティ

・変数

・読み取り対象のPDF

・実行結果のログ

CV テキストを取得(CV Get Text)

PDF内で画面上の要素を特定できない、アンカーベースの画像指定もできない場合は、AI Computer Visionを使って他の画像を目印として指定し、相対的な位置にある要素の値を取得する「CV テキストを取得(CV Get Text)」のアクティビティを使用します。

エフペン

「CV テキストを取得(CV Get Text)」は、「CV 画面スコープ (CV Screen Scope)」内でしか使用できません。

ラッコくん

「CV 画面スコープ (CV Screen Scope)」を使うためには、UiPath Automation CloudからAPIキーを取得して、プロパティに設定する必要があるよ。

「CV テキストを取得(CV Get Text)」と「CV 画面スコープ (CV Screen Scope)」は、Compuer Vision　配下にあります。

CV テキストを取得の設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	共通	エラー発生時に実行を継続	アクティビティが例外をスローした場合でも、ワークフローを継続するかどうかを指定します。
		実行後の待機時間	アクティビティ実行後した後の遅延時間 (ミリ秒) です。
		実行前の待機時間	アクティビティが何らかの操作の実行を開始するまでの遅延時間 (ミリ秒) です。
		表示名	アクティビティの表示名です。
	入力	記述子	使用されるターゲットと各アンカーの画面上の座標 (ある場合)。
		メソッド	テキストの取得に使用するメソッドを指定します。
		タイムアウト (ミリ秒)	エラーがスローされる前にアクティビティが実行されるまで待機する時間 (ミリ秒単位) を指定します。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
	オプション	あらかじめ更新	オンの場合、Computer Vision による画面の分析が実行され、前回 [CV 画面スコープ] または [CV 更新] アクティビティを使用した後にユーザーインターフェイスが変更されている場合は、その変更をキャプチャします。
	出力	結果	変数に格納された取得テキスト。
	再利用可能な領域	入力領域	変数に格納されている別の CV アクティビティのターゲットを受信し、このアクティビティのターゲットとして使用します。
	再利用可能な領域	出力領域	このアクティビティのターゲットを Rectangle 変数として保存します。

CV テキストを取得(CV Get Text)

CV 画面スコープの設定項目

設定場所		設定項目	設定内容
[プロパティ] パネル内	共通	エラー発生時に実行を継続	アクティビティが例外をスローした場合でも、ワークフローを継続するかどうかを指定します。
		実行前の待機時間	アクティビティが何らかの操作の実行を開始する前の遅延時間 (ミリ秒単位) です。
		表示名	アクティビティの表示名です。
	入力	CVメソッド	–
	ターゲット	クリッピング領域	UiElement を基準とし、左、上、右、下の方向で、クリッピング四角形 (ピクセル単位) を定義します。
		要素	別のアクティビティから返される UiElement 変数を使用します。
		セレクター	アクティビティの実行時に特定の UI 要素の検索に使用する Text プロパティです。
		タイムアウト(ミリ秒)	エラーがスローされるまでにアクティビティが待機する時間 (単位: ミリ秒) を指定します。
		準備完了まで待機	アクティビティを実行する前にターゲットが準備完了になるまで待機します。
	その他	プライベート	オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
	サーバー (同期済み)	API キー	Computer Vision サーバーへのアクセスに必要な API キーです。
		URL	Computer Vision サービスを実行するサーバーの URL。既定では、このプロパティは https://cv.uipath.com/ に設定されています。
		ローカルサーバーを使用	選択すると、ローカルサーバーが分析に使用されます。
アクティビティの本体		指定した画面	自動化するアプリケーションは、アクティビティの本体にある [画面上で指定] ボタンを使用することで、[CV 画面スコープ] アクティビティに指定できます。
アクティビティの本体		画面名	ドロップダウンから画面の名前を選択し、rename ボタンをクリックして、名前を変更することもできます。