スマートOCR オンラインマニュアル

スマートOCR オンラインマニュアル

メニュー
メニューを閉じる

抽出条件の設定

定型帳票のテンプレート

4-13.定型帳票テンプレートを新規作成する

4-13-1定型帳票の新規テンプレートを作成します。

プルダウンから「新規」を選びます。

4-13-2次に、「テンプレート名」を記入します。

4-13-3定型帳票を選択します。

4-13-4「キー・バリューデータ」「表データ」 の各タブでそれぞれ設定が可能です。「項目名」を記入し、「抽出条件」を設定します。

項目名を記入

4-14.「抽出条件設定」で設定できる項目の一覧表

4-14-1定型の抽出条件として設定できる項目の一覧表です。

設定項目① 設定項目② 設定項目③
キー・バリューデータ キー・バリューデータ タイプ、フィルター、一括置換、エリア指定
表データ 抽出しない ーーーー
エリア指定 表のエリア指定、セルのエリア指定、セル内の行数、抽出行の指定、ページ指定、アフター処理
振り分け ファイル名、キーワード名 ファイルのタグ、ファイル名に含む文字列、ドキュメントに含む文字列、含まない文字列

上記の項目についての具体的な説明が以下に続きます。

 

4-15.「キー・バリューデータ」を設定する

はじめに「項目抽出名」の右にあるボタンを押します。

項目をさらに追加するときも同じようにボタンを押します。

タイプ

抽出する項目のタイプを選択します。チェックボックスか、それ以外かを選択します。チェックボックスの対象はレ点だけでなく、マルで囲む書式や、塗りつぶし書式、ラジオボタンなども含まれます。文字や数字などを抽出したい場合は、「エリア内すべて取り出す」を選択してください。

フィルター

特定した「バリュー」から除外したい条件を設定しフィルターをかけることができます。

フィルターの例

フィルター例

フィルター一覧

例:抽出結果、OCR変換後の帳票 フィルター 例:設定した項目
①抽出パターンを入力する #\d{4}年#\d{1,2}月#\d{1,2}日
②除く文字列やパターンを入力する /(.*FAX:)|(.*FAX番号:)|(.*FAX)/
③項目名に一致する文字列を除く ---
④1つ目の空白までの文字列を除く ---
⑤一番後ろの空白までの文字列を除く ---
--- ②+③+④ ---
 

正規表現の例(③、④で設定可能)

文字列で入力する場合カンマ区切りで複数登録できます。
例:請求番号,伝票番号,請求No
正規表現で入力する場合
形式1:#正規表現 例:#\d{4}年\d{1,2}月\d{1,2}日
形式2:/正規表現/ 例:/\d{4}年\d{1,2}月\d{1,2}日/
最初の1個だけでなく、文字列の最後まで検索を繰り返す場合 /正規表現/gm を利用してください。
複数正規表現を利用したい場合 正規表現の間に「&」を入力してください。
その他の正規表現のサンプルはこちら

一括置換

抽出した文字列は、他の文字列に置換することが可能です。

抽出した文字列は、他の文字列に置換することできます。

一括置換例

置換に複数のバリエーションを持たせたい場合は文字列間に「,」を入れてください。 例)「1,2,3」 → 「はい,いいえ,どちらでもない」で設定した場合 抽出の結果は「3」の場合、「どちらでもない」に出力されます。

※空白に置換する場合、「*」(アスタリスク)の符号を利用してください。

コンマとピリオド(ドット)の置換

コンマとピリオドが正しく読み取れない場合に対応するために正規表現を利用して置換することが可能です。

3桁区切りの数字の場合に変換する

後に数字が3桁続く場合の全箇所が置換対象になる指定方法です。

例)3桁区切りの数字のピリオド(ドット)をコンマに変換する場合

設定内容

置換対象文字(左側の欄) 置換文字(右側の欄)
/[.,](\d{3})(?!\d)/g ,$1
コンマ、ピリオドの置換に関してその他のサンプルはこちら

エリアの指定

抽出したい箇所をマウスでエリア指定します。

「タイプ」にて「チェックボックス」を選択した場合は、選択肢すべてのエリアを指定します。チェックボックスが選択されているときの出力値もそれぞれ入力してください。

4-16.「表データ」設定をする

4-16-1定型帳票においても、非定型帳票と同様に帳票に記載されている表形式の繰り返しデータから抽出したい項目を設定することが可能です。 例えば、請求書にの明細として記載されている「商品名」「消費税」「金額」等を抽出できます。

表データを設定するには、「表データ」タブを選択します。

表抽出方法にて「エリア指定」を選択します。定型帳票における表データ抽出方法はエリア指定のみとなります。

マウスでドラッグして帳票の中から表のエリアを指定してください。

表の項目名の表記されたヘッダー行を含めたエリアを選択してもかまいません。

4-16-2続いて表データの項目を設定します。

はじめに「項目抽出名」の右にあるボタンを押します。

項目データの入力欄が表示されます。

さらに項目を追加する場合はさきほどのボタンを追加で押すか、画面下部にある「表示項目追加」を押すことで項目追加できます。

4-16-3ここからは項目の設定内容の説明です。

まず最初に項目名を登録しましょう。項目名はOCR処理時にキーワードから抽出するのではなくエリア指定で抽出するため、帳票に表示されていない名称でも大丈夫です。

セルのエリア

1行目に相当する抽出対象のセルをエリア指定します。項目名のセルではなく抽出したい値(内容)がある1行目のセルを指定してください。

セル内の行数、抽出行の指定

一つのセル内に複数行で構成され、行ごとに値(内容)の意味合いが異なる場合に使用する設定です。

設定例

アフター処理

抽出したデータの特定文字列を置換したり、正規表現にて表示させたい場合に設定します。

デフォルト値とは、抽出するデータがセル内になかった場合(セルが空白だった場合)に表示させる値(内容)です。

ページ指定

1つのファイル内に複数ページある場合に、表データとして抽出したい対象ページを指定することができます。特に指定がなければデフォルト値のallのままにしてください。

4-16-4帳票内に表が複数ある場合は「表追加」ボタンをクリックして表を追加します。

4-17.項目表示順の並び替えをする

テンプレートの項目の表示順は並び替えが可能です。キー・バリューデータ、表データのそれぞれで表示順の並び替えできます。操作方法はキー・バリューデータでも表データでも同様です。

アイコンを押します。

テンプレートの項目を並び替え

ポップアップ画面上で並び替えが可能です。マウスでドラッグして順番を入れ替えます。

表示順設定のポップアップ画面

テンプレートの設定を終了する

最後に確定ボタンを押してテンプレート設定を終了します。確定ボタンを押さずに現在の画面を離れると、設定内容は保存されませんので確定ボタンを押し忘れないようご注意ください。

「非定型帳票の抽出条件設定」はこちらにてご説明します。 「テンプレートのインポート」はこちらにてご説明します。