スマートOCR オンラインマニュアル

スマートOCR オンラインマニュアル

メニュー
メニューを閉じる

抽出条件の設定

非定型帳票のテンプレート

4-2.非定型帳票テンプレートを新規作成する

4-2-1非定型帳票の新規テンプレートを作成します。

プルダウンから「新規」を選びます。

非定型帳票の新規テンプレート

4-2-2次に、「テンプレート名」を記入します。

「テンプレート名」を記入します

4-2-3非定型帳票を選択します。

非定型帳票を選択

定型帳票・非定型帳票のラジオボタンが表示されない場合
会社単位の設定にて、「定型帳票」を有効化されていない場合には、非定型帳票のテンプレートしかご利用できないため、ラジオボタンが表示されません。詳しくはサポートまでお問い合わせください。

4-2-4「キー・バリューデータ」「表データ」 の各タブでそれぞれ設定が可能です。「項目名」を記入し、「抽出条件」を設定します。

項目名を記入

4-3.「抽出条件設定」で設定できる項目の一覧表

4-3-1非定型帳票の抽出条件として設定できる項目の一覧表です。

設定項目① 設定項目② 設定項目③
キー・バリューデータ バリューの設定 タイプ、期間、含まれる単語、含まれない単語
キーの設定 キーの数、キーに含む文字、キーに含まない文字、優先順位設定その他
検索エリア 指定方法、検索ページの指定
アフター処理 抽出方法、候補の指定、文字列結合、フィルター、出力変換
検証設定 必須項目の抽出チェック、抽出条件の合致をチェック
表データ 抽出しない ーーーー
自動抽出 ーーーー
項目指定 表示項目名、検索キーワード、抽出行の指定、抽出用フィルター
エリア指定 表のエリア指定、ヘッダーのエリア指定
検証設定 必須項目の抽出チェック、抽出条件の合致をチェック
振り分け ファイル名、キーワード名 ファイル名に含む文字列、ドキュメントに含む文字列

上記の項目についての具体的な説明が以下に続きます。

 

4-4.「キー・バリューデータ」の設定をする

4-4-1抽出したいデータを設定していきます。 抽出したいデータの項目名を「キー」、値(内容)を「バリュー」といいます。キー・バリューデータでは、項目と値を1対1のペアで抽出します。

キー・バリューデータ

はじめに「項目抽出名」の右にあるボタンを押します。

項目をさらに追加するときも同じようにボタンを押します。ボタンを押した数だけ項目の設定入力欄が下図のように表示されます。

抽出条件設定を作成する

4-5.バリューの設定をする

4-5-1抽出したいデータの値(内容)であるバリューを設定します。

バリューの設定をプルダウン

日付や、金額、消費税、住所、メールアドレスなどの抽出したいデータに合わせて選択することができます。

バリューデータ「タイプ」

バリューデータ「タイプ」一覧

バリューデータ「タイプ」一覧

4-6.「キー」の設定をする

「キー」の設定

キーに含む文字キーに含まない文字を登録します。

複数入力する場合は、「 , 」(カンマ) で区切ります。

「キー」の設定

便利な機能 キーに含む文字などを登録する際に便利な機能です。非定型帳票テンプレートの編集モード中は、画面中央に表示されている帳票上の水色の枠をクリックするだけで該当のテキストがコピーされます。 クリックで文字をコピー

バリューの位置の優先順位設定

キーがバリューのどこに位置するかという設定を行います。

キーとバリュー

今回バリューはキーの右側・下側にある可能性が高いので、数字をあげ優先順位を高く設定することで優先して抽出することができます。

バリューの位置の優先順位設定

4-7.キーの数について

4-7-1キーの数は一つのみならず、二つ、もしくは三つを指定することも可能です。

キーの数

4-7-2二つ(行、列)を指定する

「二つ(行、列)」の場合、行のキーと列のキーで交差した文字列が抽出できます。

【例 1】代表の方のご年齢を抽出する

二つ(行、列)

  • 行キーに含める文字 ・・・代表の方
  • 下位キーに含める文字 ・・・ご年齢

4-7-2二つ(上位、下位)を指定する

「二つ(上位、下位)」の場合、上位、下位ごとに文字設定と、バリューの位置設定ができます。

【例 2】請求金額の合計を抽出する

例 1

  • 上位キーに含める文字 ・・・請求金額
  • 下位キーに含める文字 ・・・合計
  • バリューの位置 ・・・キーの右側にある

例 1 表

【例 3】請求金額の合計を抽出する

例 2

  • 上位キーに含める文字 ・・・請求金額
  • 下位キーに含める文字 ・・・合計
  • バリューの位置 ・・・キーの下側にある

例 2 表

4-7-3三つ(上位、中位、下位)を指定する

キーを三つ指定する場合は次のようなイメージとなります。

三つ(上位、中位、下位)を指定する

4-8.ページ内の文字検索位置の優先度を設定する

4-8-1「検索エリア」の設定

帳票を四分割し、請求金額がどこにある可能性が高いか設定していきます。

請求金額部分の可能性設定

まず検索エリアをプルダウンし、「ページ内の検索位置の優先順位設定」を選びます。 複数ページ帳票の場合は、請求金額がどのページにあるかを設定します。

検索エリアをプルダウン

9分割の指定も可能です。
9分割で指定することも可能です。オプション機能となりますため、ご利用をご希望の場合はサポートまでお問い合わせください。 9分割

4-8-2エリア指定

指定方法を「エリア指定」と選択します。 「指定開始」ボタンを押し、「請求金額」の文字位置設定を行います。

文字位置設定

エリアの指定方法

※エリアの指定方法:画像にマウスの左ボタンを押しながらドラッグしてください。

マウスドラッグでエリア指定

4-9.「アフター処理」の設定

4-9-1「抽出方法」の設定

設定した「バリュー」「キー」「エリア指定」の中から一番マッチ率が高い文字列を表示させます。

抽出方法

設定した「バリュー」「キー」「エリア指定」の中からマッチさせたい項目を選択できます。

マッチ率が一番高い文字列

4-9-2「候補の指定」の設定

・1番目を利用する…
マッチ率が1番高い文字列を表示します。

・一番後ろを利用する…
マッチ率が一番低い文字列を表示します。

候補の指定

4-9-3「文字列結合」の設定

「バリュー」の右側に位置する文字列を 結合させることが可能です。

文字列結合

文字列結合例

文字列結合一覧

文字列結合一覧

4-9-4「ドットカンマ」の設定

数値のドットとカンマを正規化する置換処理の設定です。

「ドットカンマ」の設定

ドットとカンマの選択肢におけるそれぞれの処理方法は次のとおりです。

ドットカンマ標準処理

  • ドットカンマの一番右がドットである場合にドット以降が3桁であればカンマに置換
  • ドットカンマの一番右がカンマである場合にカンマ以降が1桁、2桁、4桁以上であればドットに置換
  • ドットカンマの一番右のドット以外のドットをカンマに置換

ドットカンマ標準処理の例

ドットカンマ標準処理の例

置換しない

すべてのドットカンマで置換をしない

ドットカンマ削除

すべてのドットカンマを削除

全部カンマ

すべてのドットカンマをカンマに置換

全部ドット

すべてのドットカンマをドットに置換

国際標準処理 

すべてのドットカンマを半角スペースに置換

小数点置換

ドットカンマの一番右がカンマである場合のみドットに置換

4-9-5「フィルター」の設定

特定した「バリュー」から除外したい条件を設定しフィルターをかけることができます。

フィルターの設定

フィルター例

フィルター一覧

例:抽出結果、OCR変換後の帳票 フィルター 例:設定した項目
①抽出パターンを入力する #\d{4}年#\d{1,2}月#\d{1,2}日
②除く文字列やパターンを入力する /(.*FAX:)|(.*FAX番号:)|(.*FAX)/
③項目名に一致する文字列を除く ---
④1つ目の空白までの文字列を除く ---
⑤一番後ろの空白までの文字列を除く ---
⑥はしご枠数字対応 ---
--- ②+③+④ ---

正規表現の例(①、②で設定可能)

文字列で入力する場合カンマ区切りで複数登録できます。
例:請求番号,伝票番号,請求No
正規表現で入力する場合
形式1:#正規表現 例:#\d{4}年\d{1,2}月\d{1,2}日
形式2:/正規表現/ 例:/\d{4}年\d{1,2}月\d{1,2}日/
最初の1個だけでなく、文字列の最後まで検索を繰り返す場合 /正規表現/gm を利用してください。
複数正規表現を利用したい場合 正規表現の間に「&」を入力してください。
その他の正規表現のサンプルはこちら

4-9-6「一括置換」の設定

抽出した文字列は、他の文字列に置換することが可能です。一括置換への設定は文字列だけでなく正規表現を登録することも可能です。

一括置換

抽出した文字列は、他の文字列に置換することできます。

一括置換例

複数箇所置換したい場合は文字列間に「,」を入れてください。 例)「1,2,3」 → 「はい,いいえ,どちらでもない」で設定した場合 抽出の結果は「3」の場合、「どちらでもない」に出力されます。 ※空白に置換する場合、「”」(2つのシングルクオーテーション)を利用してください。

4-9-7「デフォルト値」の設定

抽出するデータが無かった場合に、デフォルト値として指定の値を代入することができます。

「デフォルト値」の設定

現在、デフォルト値として設定できるのは次の3種類となります。

入力した値を設定

デフォルト値としてテンプレートに設定した任意の値をデフォルト値とします。

入力した値を設定

抽出した日付を設定

テンプレートによりデータ抽出した日付をデフォルト値とします。

抽出した日付を設定

抽出した日付と時刻を設定

テンプレートによりデータ抽出した日付と時刻をデフォルト値とします。

抽出した日付と時刻を設定

4-10. 検証設定

4-10-1「検証設定」の利用方法について

「必須」および「必須メッセージ」は、該当の項目が入力必須の際にご利用ください。
もし未入力だった場合、アラートメッセージが表示されるため、空欄のままデータを保存してしまうことを防ぐ機能です。

「検証条件」および「検証エラー」は、該当の項目が検証条件に合っていない場合、アラートメッセージを表示します。
もし抽出結果が検証条件に該当しない場合、そのままデータを保存してしまうことを防ぐ機能です。

4-10-2「必須」および「必須メッセージ」

「必須」にチェックを入れて、項目が未入力だった場合に表示したいメッセージを「必須メッセージ」に入力してください。

必須項目の検証設定

設定後、データ抽出結果の画面では、未入力だった場合枠内がピンク色になり、「必須メッセージ」にご入力いただいたメッセージが赤い文字でアラートとして表示されます。

必須項目のエラー表示

4-10-3「検証条件」および「検証エラー」

「検証条件」に条件にしたい任意の正規表現を入力して、「検証エラー」に検証条件に合致しなかった場合に表示するメッセージを入力してください。

検証条件の設定

正規表現のサンプルはこちら

設定後、データ抽出結果の画面では、抽出結果が検証条件と合致しなかった場合、枠内がピンク色になり、「検証エラー」にご入力いただいたメッセージが赤い文字でアラートとして表示されます。

下図サンプルでは、抽出された請求書コードが7桁でしたが、検証条件を8桁にしたため、アラートメッセージが表示されています。

検証条件のエラー表示

4-10-4エラー表示された場合

必須、検証条件のどちらでアラートメッセージが表示されても、アラートメッセージが表示されてる場合、保存していただくことは可能ですが、確定していただくことはできません。

アラートメッセージの出ている箇を全て正しく修正していただいた後に、確定できるようになります。

検証設定のアラート表示

4-11.「表データ」設定をする

4-11-1帳票に記載されている表形式の繰り返しデータから抽出したい項目を設定します。 例えば、請求書に記載されている「商品名」「消費税」「合計金額」等を抽出できます。

表データ設定

4-11-2表抽出方法

表データの抽出方法には、自動抽出項目指定エリア指定関連項目指定の4つの方法があります。

表抽出方

自動抽出

ファイル内で一番大きい枠の表が抽出されます。
※注意:枠がない表は抽出できません。

項目指定

ヘッダーの項目名に「検索キーワード」を含む列から表データを抽出します。

項目指定

抽出方法 > 項目指定 > 検索キーワード 「抽出行の指定」 ヘッダーが複数行ある場合、キーワードの位置する「抽出行」を指定できます。

抽出行の指定

抽出行の指定例

抽出方法 > 項目指定 > 抽出用フィルター 抽出するバリューとなる値の種類を指定できます。

抽出用フィルター

文字列で入力する場合カンマ区切りで複数登録できます。
例:請求番号,伝票番号,請求No
正規表現で入力する場合
形式1:#正規表現 例:#\d{4}年\d{1,2}月\d{1,2}日
形式2:/正規表現/ 例:/\d{4}年\d{1,2}月\d{1,2}日/
最初の1個だけでなく、文字列の最後まで検索を繰り返す場合 /正規表現/gm を利用してください。
複数正規表現を利用したい場合 正規表現の間に「&」を入力してください。
その他の正規表現のサンプルはこちら

エリア指定

キーワードで抽出できなかった項目を位置指定することにより抽出できます。

表のエリア指定

マウス操作で表を抽出したいエリアを指定します。

ヘッダーのエリア指定

マウス操作で表のヘッダーを指定します。

ヘッダーのエリア指定

4-11-3その他の設定

ページ指定

1つのファイル内に複数ページある場合に、表データとして抽出したい対象ページを指定することができます。特に指定がなければデフォルト値のallのままにしてください。

除外する行

表抽出方法にて項目指定または関連項目指定を選択した場合に利用できる設定です。

除外する行の指定がある場合に、該当行にあるキーワードを指定することで、その行を除外することができます。

カンマ区切りで複数入力が可能です。空白行を除外する場合は、「空白行」の文字を入れてください。

最終行指定

表抽出方法にて項目指定または関連項目指定を選択した場合に利用できる設定です。

各ページの最終行の指定をする場合に、キーワードを入力します。

>最終行の次の行中にあるキーワードを指定してください。

カンマ区切りで複数入力できます。

セル内の行数が一定の項目を基準に抽出

表抽出方法にて項目指定を選択した場合に利用できる設定です。

行間に枠線がない等の場合に、行を判別するための設定です。

チェックを入れると、行の基準について詳細設定が表示されますので、各項目を設定します。

チェックを入れると、行の基準について詳細設定が表示されますので、各項目を設定します。

行データの必須項目チェック

表抽出方法にて項目指定または関連項目指定を選択した場合に利用できる設定です。

行データの必須項目を設定することができます。設定することで必須項目が空白の行は除外されます。

行データの必須項目チェック

チェックを入れると、対象となる必須項目を選択することができます。

行データの必須項目チェック(詳細)

4-12.抽出テストで確認する

4-12-1キー・バリューデータにて設定した個々の抽出項目が、きちんとデータ抽出できているか確認します。

項目名の下にあるアイコンを押します。

抽出テスト

4-12-2ポップアップで画面が表示され、設定された条件ごとに抽出結果の詳細情報を確認することができます。

抽出テストの結果を確認

4-13.項目表示順の並び替えをする

テンプレートの項目の表示順は並び替えが可能です。キー・バリューデータ、表データのそれぞれで表示順の並び替えできます。操作方法はキー・バリューデータでも表データでも同様です。

アイコンを押します。

テンプレートの項目を並び替え

ポップアップ画面上で並び替えが可能です。マウスでドラッグして順番を入れ替えます。

表示順設定のポップアップ画面

テンプレートの設定を終了する

最後に確定ボタンを押してテンプレート設定を終了します。確定ボタンを押さずに現在の画面を離れると、設定内容は保存されませんので確定ボタンを押し忘れないようご注意ください。

続いて「定型帳票の抽出条件設定」はこちらにてご説明します。 「テンプレートのインポート」はこちらにてご説明します。