抽出条件の設定
定型帳票のテンプレート
目次
4-14.定型帳票テンプレートを新規作成する
4-14-1定型帳票の新規テンプレートを作成します。
プルダウンから「新規」を選びます。
4-14-2次に、「テンプレート名」を記入します。
4-14-3定型帳票を選択します。
4-14-4「キー・バリューデータ」「表データ」 の各タブでそれぞれ設定が可能です。「項目名」「列名」を記入し、「抽出条件」を設定します。
4-15.「抽出条件設定」で設定できる項目の一覧表
4-15-1定型の抽出条件として設定できる項目の一覧表です。
設定項目① | 設定項目② | 設定項目③ |
---|---|---|
キー・バリューデータ | キー・バリューデータ | タイプ、フィルター、一括置換、エリア指定 |
表データ | 抽出しない | ーーーー |
エリア指定 | 表のエリア指定、セルのエリア指定、セル内の行数、抽出行の指定、ページ指定、アフター処理 | |
振り分け | ファイル名、キーワード名 | ファイルのタグ、ファイル名に含む文字列、ドキュメントに含む文字列、含まない文字列 |
上記の項目についての具体的な説明が以下に続きます。
4-16.「キー・バリューデータ」を設定する
はじめに「抽出項目名」の右にあるボタンを押します。
項目をさらに追加するときも同じようにボタンを押します。
タイプ
抽出する項目のタイプを選択します。チェックボックスか、それ以外かを選択します。チェックボックスの対象はレ点だけでなく、マルで囲む書式や、塗りつぶし書式、ラジオボタンなども含まれます。文字や数字などを抽出したい場合は、「エリア内すべて取り出す」を選択してください。
フィルター
特定した「バリュー」から除外したい条件を設定しフィルターをかけることができます。
フィルターの例
フィルター一覧
例:抽出結果、OCR変換後の帳票 | フィルター | 例:設定した項目 |
---|---|---|
①抽出パターンを入力する | #\d{4}年#\d{1,2}月#\d{1,2}日 | |
②除く文字列やパターンを入力する | /(.*FAX:)|(.*FAX番号:)|(.*FAX)/ | |
③項目名に一致する文字列を除く | --- | |
④1つ目の空白までの文字列を除く | --- | |
⑤一番後ろの空白までの文字列を除く | --- | |
--- | ②+③+④ | --- |
正規表現の例(③、④で設定可能)
- 文字列で入力する場合カンマ区切りで複数登録できます。
- 例:請求番号,伝票番号,請求No
- 正規表現で入力する場合
- 形式1:#正規表現 例:#\d{4}年\d{1,2}月\d{1,2}日
- 形式2:/正規表現/ 例:/\d{4}年\d{1,2}月\d{1,2}日/
- 最初の1個だけでなく、文字列の最後まで検索を繰り返す場合 /正規表現/gm を利用してください。
- 複数正規表現を利用したい場合 正規表現の間に「&」を入力してください。
一括置換
抽出した文字列は、他の文字列に置換することが可能です。一括置換への設定は文字列だけでなく正規表現を登録することも可能です。
抽出した文字列は、他の文字列に置換することできます。
置換に複数のバリエーションを持たせたい場合は文字列間に「,」を入れてください。 例)「1,2,3」 → 「はい,いいえ,どちらでもない」で設定した場合 抽出の結果は「3」の場合、「どちらでもない」に出力されます。
※空白に置換する場合、「”」(2つのシングルクオーテーション)の符号を利用してください。
コンマとピリオド(ドット)の置換
コンマとピリオドが正しく読み取れない場合に対応するために正規表現を利用して置換することが可能です。
3桁区切りの数字の場合に変換する
後に数字が3桁続く場合の全箇所が置換対象になる指定方法です。
例)3桁区切りの数字のピリオド(ドット)をコンマに変換する場合
設定内容
置換対象文字(左側の欄) | 置換文字(右側の欄) | |
---|---|---|
/[.,](\d{3})(?!\d)/g | → | ,$1 |
エリアの指定
抽出したい箇所をマウスでエリア指定します。
「タイプ」にて「チェックボックス」を選択した場合は、選択肢すべてのエリアを指定します。チェックボックスが選択されているときの出力値もそれぞれ入力してください。
4-17.「表データ」設定をする
4-17-1定型帳票においても、非定型帳票と同様に帳票に記載されている表形式の繰り返しデータから抽出したい項目を設定することが可能です。 例えば、請求書にの明細として記載されている「商品名」「消費税」「金額」等を抽出できます。
表データを設定するには、「表データ」タブを選択します。
表抽出方法にて「エリア指定」を選択します。定型帳票における表データ抽出方法はエリア指定のみとなります。
マウスでドラッグして帳票の中から表のエリアを指定してください。
表の項目名の表記されたヘッダー行を含めたエリアを選択してもかまいません。
4-17-2続いて表データの項目を設定します。
はじめに「抽出列名」の右にあるボタンを押します。
項目データの入力欄が表示されます。
さらに項目を追加する場合はさきほどのボタンを追加で押すか、画面下部にある「抽出列追加」を押すことで項目追加できます。
4-17-3ここからは項目の設定内容の説明です。
まず最初に項目名を登録しましょう。項目名はOCR処理時にキーワードから抽出するのではなくエリア指定で抽出するため、帳票に表示されていない名称でも大丈夫です。
セルのエリア
1行目に相当する抽出対象のセルをエリア指定します。項目名のセルではなく抽出したい値(内容)がある1行目のセルを指定してください。
セル内の行数、抽出行の指定
一つのセル内に複数行で構成され、行ごとに値(内容)の意味合いが異なる場合に使用する設定です。
設定例
アフター処理
抽出したデータの特定文字列を置換したり、正規表現にて表示させたい場合に設定します。
デフォルト値とは、抽出するデータがセル内になかった場合(セルが空白だった場合)に表示させる値(内容)です。
その他の設定
ページ指定
1つのファイル内に複数ページある場合に、表データとして抽出したい対象ページを指定することができます。特に指定がなければデフォルト値のallのままにしてください。
除外する行
表抽出方法にて列指定または関連列指定を選択した場合に利用できる設定です。
抽出列名を1つ以上設定した際に、除外する行・最終行指定ができます。
除外する行の指定がある場合に、該当行にあるキーワードを指定することで、その行を除外することができます。
カンマ区切りで複数入力が可能です。空白行を除外する場合は、「空白行」の文字を入れてください。
最終行指定
表抽出方法にて列指定または関連列指定を選択した場合に利用できる設定です。
抽出列名を1つ以上設定した際に、除外する行・最終行指定ができます。
各ページの最終行の指定をする場合に、キーワードを入力します。
最終行の次の行中にあるキーワードを指定してください。
カンマ区切りで複数入力できます。
セル内の行数が一定の項目を基準に抽出
行間に枠線がない等の場合に、行を判別するための設定です。
チェックを入れると、行の基準について詳細設定が表示されますので、各項目を設定します。
行データの必須項目チェック
行データの必須項目を設定することができます。設定することで必須項目が空白の行は除外されます。
チェックを入れると、対象となる必須項目を選択することができます。
4-17-4帳票内に表が複数ある場合は「表追加」ボタンをクリックして表を追加します。
4-18.項目表示順の並び替えをする
テンプレートの項目の表示順は並び替えが可能です。キー・バリューデータ、表データのそれぞれで表示順の並び替えできます。操作方法はキー・バリューデータでも表データでも同様です。
アイコンを押します。
ポップアップ画面上で並び替えが可能です。マウスでドラッグして順番を入れ替えます。
4-19.アンカーを設定する
4-19-1定型帳票の抽出とは、帳票上の位置座標から項目ごとの読み取る範囲を指定する仕組みであり、読み取る位置座標は常に同じであることを想定しています。
しかしながら、スキャンやFAXなどにおいては、用紙に対して帳票の位置にずれが生じてしまうことがあり、読み取り対象のエリアがずれてしまい、データ抽出できない場合があります。
このような「ずれ」に対しても、読み取り精度を向上させるための機能がアンカーです。アンカーは常に固定位置にある特定文字列を目印として帳票のエリア指定位置を補正し、データ抽出の精度を向上させます。
4-19-2アンカーの設定方法
アンカーは抽出設定画面右上のアイコンから設定します。
アンカー設定のポップアップにて、固定文字列を登録します。固定文字列は複数設定できます。
固定文字列はなるべく帳票の上部、中部、下部の各エリアに指定いただくと精度が向上いたします。
アンカー設定では、固定文字列として正規表現で設定することも可能です。
アンカー設定後に、再度OCR処理をすることで、さきほどは位置がずれて読み取れなかった帳票も読み取れるようになります。
4-19-2アンカーの基準ファイルを調べるには、アンカーの設定ウィンドウにて確認可能です。
テンプレートの設定を終了する
最後に確定ボタンを押してテンプレート設定を終了します。確定ボタンを押さずに現在の画面を離れると、設定内容は保存されませんので確定ボタンを押し忘れないようご注意ください。
「非定型帳票の抽出条件設定」はこちらにてご説明します。 「テンプレートのインポート」はこちらにてご説明します。