スマートOCR オンラインマニュアル

スマートOCR オンラインマニュアル

メニュー
メニューを閉じる

やりたいことから探す

正規表現

正規表現とは、いくつかの文字列を一つの形式で表現するための表現方法です。データ抽出の設定にて正規表現を活用いただくと、思い通りの文字列が抽出できるようになり、たいへん便利な手法です。

W1-1.正規表現サンプル

スマートOCRでよく使われる正規表現の例をご紹介します。

抽出したい項目 正規表現
日付 /\d{4}[/\.年]\d{1,2}[/\.月]\d{1,2}日?/
電話番号 /^[0-9]{2,4}-[0-9]{2,4}-[0-9]{3,4}$/
郵便番号 /^[0-9]{3}-[0-9]{4}$/
都道府県 /.{2,3}[都道府県]/
(例)東京都
メールアドレス /^[0-9a-z_./?-]+@([0-9a-z-]+\.)+[0-9a-z-]+$/
(例)sample.123@mail.com
桁数指定 ・数字の場合
/[0-9]{桁数}/
・数字以外の文字
/\D{桁数}/

(例)12345678
  行の先頭から4桁を取得したい場合
  /^[0-9]{4}/
  行の末尾から4桁を取得したい場合
  /[0-9]{4}$/
特定の数字を含む数字の文字列 /\d*(特定の数字)\d*/
(例)”1234567″を取得したい
/\d*234\d*/
特定の文字を含む文字列 /\D*(特定の文字)\D*/
(例)”田中太郎”を取得したい
/\D*田中\D*/