抽出条件の設定
STEP 4 抽出条件設定
STEP3 で使用した抽出条件設定(テンプレート)の作成を説明します。抽出したいデータの項目名を「キー」、値(内容)を「バリュー」といいます。ここでは、お客様が抽出したいデータを設定することができます。
4-1.テンプレートは定型と非定型の2種類
4-1-1 スマートOCRでは、定型、非定型のどちらの帳票にも対応可能です。OCRによる画像からテキストデータへ変換する処理は、定型も非定型も変わりはありませんが、どの文字をどの項目として抽出するのかは定型・非定型のテンプレートでは方法論が異なります。どちらが優れているというものではなく、メリット・デメリットから適しているほうを選択するのがよいでしょう。
非定型帳票OCRの特徴
非定型では項目名の文字列から読み取り対象項目を見つけ出し、周辺にある文字列を対応する値としてデータ化していきます。
帳票の書式が一定でなく、OCRで読み取りたい項目の位置が決まっていない帳票に向いています。
スマートOCRには非定型のテンプレート設定においてもエリア指定機能がありますが、非定型では相対座標での位置指定となります。
相対座標のため、非定型では不特定サイズのスマートフォンなどで撮影した画像などでも、OCRが可能になります。
座標によるエリア指定でキッチリと項目ごとに抽出範囲を指定しなくとも済むため、テンプレートの作成に手間がかからない点がメリットです。
しかし、非定型では、過剰な罫線やレイアウト上の間隔が原因で、抽出したい文字列が分断されることもあります。このような場合に非定型テンプレートでは「アフター処理」という設定機能で結合する等の対処が可能ですが、アフター処理が複雑になるようであれば、該当書式は定型でテンプレート作成するほうが手間がかからない場合もあります。
定型帳票OCRの特徴
帳票の書式が固定レイアウトであり、テンプレート設定においては帳票用紙の絶対座標でOCRで処理する位置を指定します。
書式1つごとに1つのテンプレートを作成するため、書式が1パターンで統一されている場合が向いています。
定型のメリットは項目ごとにエリア指定をして、抽出範囲を指定することで、指定範囲内に収まる文字列を確実に抽出することにあります。エリア指定はすべての項目に対して設定することに手間がかかること、少しでも書式が異なる場合にはテンプレートをそれぞれの書式ごとに作成しなければならないことで手間がかかる点がデメリットとも言えます。
例えば、手書きの記入用紙などで、ガイドラインとして使用されている区切り線で、読み取りデータが分割されたくない場合には定型OCRのほうが精度が高くなります。
定型OCRでは画像サイズが固定であることを前提としており、スマートフォンで撮影した写真からの読み取りには適していません。
定型・非定型の比較
ここまで非定型・定型の特徴を説明してきましたが、ここからは具体例をあげてさらに詳しく説明します。
文字列の間隔があることで抽出データが意図せず分割された非定型の例
非定型では2つの文字列に分かれてしまっても、アフター処理の設定で結合することも可能です。
定型ではエリア指定することで範囲内の文字列を全て抽出します。
指定したエリア内の文字列を一回で抽出できます。
次に罫線が多いことで分割されてしまう具体例をご説明します。
桁区切り線により分割されてしまった非定型の例
桁ごとにセルが分かれていることで非定型では分割して抽出されます。これは手書き帳票でよく見かける書式です。
このような場合、非定型ではアフター処理設定で文字列を結合する必要があります。
定型でのエリア指定
指定した範囲は一つの文字列として抽出できます。
次に1つの文字列として抽出したデータを分割したい場合について説明いたします。
分割したいデータの例(非定型)
上図は非定型のOCR結果です。赤線の部分だけを抽出したい場合には、データを分割する必要があります。
アフター処理でフィルターを使用して抽出することができない場合には、非定型での対応は難しいといえます。
この例では、動的な文字列がほかに存在するため、非定型のフィルターでは対処できません。
非定型では一つの文字列として抽出されたデータをアフター処理で分割するのは、苦手されることが多いとも言えます。
一つの文字列としてOCR抽出されたデータを分割する必要が生じた場合には、定型でエリア指定することも検討されるとよいでしょう。