スマートOCR オンラインマニュアル

スマートOCR オンラインマニュアル

メニュー
メニューを閉じる

抽出条件の設定

非定型帳票のテンプレート

4-2.非定型帳票テンプレートを新規作成する

4-2-1非定型帳票の新規テンプレートを作成します。

プルダウンから「新規」を選びます。

4-2-2次に、「テンプレート名」を記入します。

4-2-3非定型帳票を選択します。

4-2-4「キー・バリューデータ」「表データ」 の各タブでそれぞれ設定が可能です。「項目名」を記入し、「抽出条件」を設定します。

項目名を記入

4-3.「抽出条件設定」で設定できる項目の一覧表

4-3-1非定型帳票の抽出条件として設定できる項目の一覧表です。

設定項目① 設定項目② 設定項目③
キー・バリューデータ バリューの設定 タイプ、期間、含まれる単語、含まれない単語
キーの設定 キーの数、キーに含む文字、キーに含まない文字、優先順位設定その他
検索エリア 指定方法、検索ページの指定
アフター処理 抽出方法、候補の指定、文字列結合、フィルター、出力変換
表データ 抽出しない ーーーー
自動抽出 ーーーー
項目指定 表示項目名、検索キーワード、抽出行の指定、抽出用フィルター
エリア指定 表のエリア指定、ヘッダーのエリア指定
振り分け ファイル名、キーワード名 ファイル名に含む文字列、ドキュメントに含む文字列

上記の項目についての具体的な説明が以下に続きます。

 

4-4.「キー・バリューデータ」の設定をする

4-4-1抽出したいデータを設定していきます。 抽出したいデータの項目名を「キー」、値(内容)を「バリュー」といいます。キー・バリューデータでは、項目と値を1対1のペアで抽出します。

キー・バリューデータ

はじめに「項目抽出名」の右にあるボタンを押します。

項目をさらに追加するときも同じようにボタンを押します。ボタンを押した数だけ項目の設定入力欄が下図のように表示されます。

抽出条件設定を作成する

4-5.バリューの設定をする

4-5-1抽出したいデータの値(内容)であるバリューを設定します。

バリューの設定をプルダウン

日付や、金額、消費税、住所、メールアドレスなどの抽出したいデータに合わせて選択することができます。

バリューデータ「タイプ」

バリューデータ「タイプ」一覧

バリューデータ「タイプ」一覧

4-6.「キー」の設定をする

「キー」の設定

キーに含む文字キーに含まない文字を登録します。

複数入力する場合は、「 , 」(カンマ) で区切ります。

「キー」の設定

便利な機能

キーに含む文字などを登録する際に便利な機能です。非定型帳票テンプレートの編集モード中は、画面中央に表示されている帳票上の水色の枠をクリックするだけで該当のテキストがコピーされます。

クリックで文字をコピー

バリューの位置の優先順位設定

キーがバリューのどこに位置するかという設定を行います。

キーとバリュー

今回バリューはキーの右側・下側にある可能性が高いので、数字をあげ優先順位を高く設定することで優先して抽出することができます。

バリューの位置の優先順位設定

4-7.キーの数について

4-7-1キーの数は一つのみならず、2つ、もしくは3つを指定することも可能です。

キーの数

4-7-2二つ(行、列)を指定する

「二つ(行、列)」の場合、行のキーと列のキーで交差した文字列が抽出できます。

【例 1】代表の方のご年齢を抽出する

二つ(行、列)

  • 行キーに含める文字 ・・・代表の方
  • 下位キーに含める文字 ・・・ご年齢

4-7-2二つ(上位、下位)を指定する

「二つ(上位、下位)」の場合、上位、下位ごとに文字設定と、バリューの位置設定ができます。

【例 2】請求金額の合計を抽出する

例 1

  • 上位キーに含める文字 ・・・請求金額
  • 下位キーに含める文字 ・・・合計
  • バリューの位置 ・・・キーの右側にある

例 1 表

【例 3】請求金額の合計を抽出する

例 2

  • 上位キーに含める文字 ・・・請求金額
  • 下位キーに含める文字 ・・・合計
  • バリューの位置 ・・・キーの下側にある

例 2 表

4-7-3三つ(上位、中位、下位)を指定する

キーを三つ指定する場合は次のようなイメージとなります。

三つ(上位、中位、下位)を指定する

4-8.ページ内の文字検索位置の優先度を設定する

4-8-1「検索エリア」の設定

帳票を四分割し、請求金額がどこにある可能性が高いか設定していきます。

請求金額部分の可能性設定

まず検索エリアをプルダウンし、「ページ内の検索位置の優先順位設定」を選びます。 複数ページ帳票の場合は、請求金額がどのページにあるかを設定します。

検索エリアをプルダウン

9分割の指定も可能です。 9分割で指定することも可能です。オプション機能となりますため、ご利用をご希望の場合はサポートまでお問い合わせください。 9分割

4-8-2エリア指定

指定方法を「エリア指定」と選択します。 「指定開始」ボタンを押し、「請求金額」の文字位置設定を行います。

文字位置設定

エリアの指定方法

※エリアの指定方法:画像にマウスの左ボタンを押しながらドラッグしてください。

マウスドラッグでエリア指定

4-9.「アフター処理」の設定

4-9-1「抽出方法」の設定

設定した「バリュー」「キー」「エリア指定」の中から一番マッチ率が高い文字列を表示させます。

抽出方法

設定した「バリュー」「キー」「エリア指定」の中からマッチさせたい項目を選択できます。

マッチ率が一番高い文字列

4-9-2「候補の指定」の設定

・1番目を利用する… マッチ率が1番高い文字列を表示します。 ・一番後ろを利用する… マッチ率が一番低い文字列を表示します。

候補の指定

4-9-3「文字列結合」の設定

「バリュー」の右側に位置する文字列を 結合させることが可能です。

文字列結合

文字列結合例

文字列結合一覧

文字列結合一覧

4-9-4「フィルター」の設定

特定した「バリュー」から除外したい条件を設定しフィルターをかけることができます。

フィルターの設定

フィルター例

フィルター一覧

例:抽出結果、OCR変換後の帳票 フィルター 例:設定した項目
①抽出パターンを入力する #\d{4}年#\d{1,2}月#\d{1,2}日
②除く文字列やパターンを入力する /(.*FAX:)|(.*FAX番号:)|(.*FAX)/
③項目名に一致する文字列を除く ---
④1つ目の空白までの文字列を除く ---
⑤一番後ろの空白までの文字列を除く ---
⑥はしご枠数字対応 ---
--- ②+③+④ ---

正規表現の例(③、④で設定可能)

文字列で入力する場合カンマ区切りで複数登録できます。
例:請求番号,伝票番号,請求No
正規表現で入力する場合
形式1:#正規表現 例:#\d{4}年\d{1,2}月\d{1,2}日
形式2:/正規表現/ 例:/\d{4}年\d{1,2}月\d{1,2}日/
最初の1個だけでなく、文字列の最後まで検索を繰り返す場合 /正規表現/gm を利用してください。
複数正規表現を利用したい場合 正規表現の間に「&」を入力してください。
その他の正規表現のサンプルはこちら

4-9-6「一括置換」の設定

抽出した文字列は、他の文字列に置換することが可能です。

一括置換

抽出した文字列は、他の文字列に置換することできます。

一括置換例

複数箇所置換したい場合は文字列間に「,」を入れてください。 例)「1,2,3」 → 「はい,いいえ,どちらでもない」で設定した場合 抽出の結果は「3」の場合、「どちらでもない」に出力されます。 ※空白に置換する場合、「*」を利用してください。

コンマとピリオド(ドット)の置換

コンマとピリオドが正しく読み取れない場合に対応するために正規表現を利用して置換することが可能です。

3桁区切りの数字の場合に変換する

後に数字が3桁続く場合の全箇所が置換対象になる指定方法です。

例)3桁区切りの数字のピリオド(ドット)をコンマに変換する場合

設定内容

置換対象文字(左側の欄) 置換文字(右側の欄)
/[.,](\d{3})(?!\d)/g ,$1
コンマ、ピリオドの置換に関してその他のサンプルはこちら

4-9-6「デフォルト値」の設定

抽出するデータが無かった場合に、デフォルト値として指定の値を代入することができます。

デフォルト値

4-10.「表データ」設定をする

4-10-1帳票に記載されている表形式の繰り返しデータから抽出したい項目を設定します。 例えば、請求書に記載されている「商品名」「消費税」「合計金額」等を抽出できます。

表データ設定

テーブル抽出方法

テーブル抽出方法

自動抽出

ファイル内で一番大きい枠の表が抽出されます。 ※注意:枠がない表は抽出できません。

項目指定

ヘッダーの項目名に「検索キーワード」を含む列から表データを抽出します。

項目指定

表示項目名など

抽出方法 > 項目指定 > 検索キーワード 「抽出行の指定」 ヘッダーが複数行ある場合、キーワードの位置する「抽出行」を指定できます。

抽出行の指定

抽出行の指定例

抽出方法 > 項目指定 > 抽出用フィルター 抽出するバリューとなる値の種類を指定できます。

抽出用フィルター

文字列で入力する場合カンマ区切りで複数登録できます。
例:請求番号,伝票番号,請求No
正規表現で入力する場合
形式1:#正規表現 例:#\d{4}年\d{1,2}月\d{1,2}日
形式2:/正規表現/ 例:/\d{4}年\d{1,2}月\d{1,2}日/
最初の1個だけでなく、文字列の最後まで検索を繰り返す場合 /正規表現/gm を利用してください。
複数正規表現を利用したい場合 正規表現の間に「&」を入力してください。
その他の正規表現のサンプルはこちら

エリア指定

キーワードで抽出できなかった項目を位置指定することにより抽出できます。

エリア指定

表のエリア指定

ヘッダーのエリア指定

4-11.抽出テストで確認する

4-11-1設定した個々の抽出項目が、きちんとデータ抽出できているか確認します。

項目名の下にあるアイコンを押します。

抽出テスト

4-11-2ポップアップで画面が表示され、設定された条件ごとに抽出結果の詳細情報を確認することができます。

抽出テストの結果を確認

4-12.項目表示順の並び替えをする

テンプレートの項目の表示順は並び替えが可能です。キー・バリューデータ、表データのそれぞれで表示順の並び替えできます。操作方法はキー・バリューデータでも表データでも同様です。

アイコンを押します。

テンプレートの項目を並び替え

ポップアップ画面上で並び替えが可能です。マウスでドラッグして順番を入れ替えます。

表示順設定のポップアップ画面

テンプレートの設定を終了する

最後に確定ボタンを押してテンプレート設定を終了します。確定ボタンを押さずに現在の画面を離れると、設定内容は保存されませんので確定ボタンを押し忘れないようご注意ください。

続いて「定型帳票の抽出条件設定」はこちらにてご説明します。 「テンプレートのインポート」はこちらにてご説明します。