[go: up one dir, main page]

JP2019101647A - Information processing device, control method therefor, and program - Google Patents

Information processing device, control method therefor, and program Download PDF

Info

Publication number
JP2019101647A
JP2019101647A JP2017230519A JP2017230519A JP2019101647A JP 2019101647 A JP2019101647 A JP 2019101647A JP 2017230519 A JP2017230519 A JP 2017230519A JP 2017230519 A JP2017230519 A JP 2017230519A JP 2019101647 A JP2019101647 A JP 2019101647A
Authority
JP
Japan
Prior art keywords
data
entry
post
entry data
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017230519A
Other languages
Japanese (ja)
Other versions
JP7181445B2 (en
Inventor
健翔 大田
Kento Ota
健翔 大田
唯仁 八尾
Tadahito Yao
唯仁 八尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2017230519A priority Critical patent/JP7181445B2/en
Publication of JP2019101647A publication Critical patent/JP2019101647A/en
Application granted granted Critical
Publication of JP7181445B2 publication Critical patent/JP7181445B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

To provide a technique for automatically determining whether or not a writing format of before-writing data and a writing format of after-writing data are consistent with each other.SOLUTION: An information processing device for acquiring information obtained from a difference between before-writing data and after-writing data: reads data portions in the before-writing data and the after-writing data; associates positions of feature points existing commonly in the read data portions of the before-writing data and the after-writing data between the read before-writing data and the read after-writing data; alters the positions of the feature points in the read after-writing data so as to be consistent with the before-writing data from which the positions of the associated feature points are read; performs binarization to a gradation indicating a portion including data and a gradation indicating a portion lacking data in the read before-writing data and the read after-writing data after altering; and determines the consistency in writing formats of the read before-writing data and the read after-writing data in accordance with the degree of overlapping of the binarized before-writing data and the binarized after-writing data.SELECTED DRAWING: Figure 3

Description

本発明は、記入形式が合っている記入前データと記入後データのセットであるか否かを自動判別する技術に関する。   The present invention relates to a technique for automatically determining whether or not a set of pre-entry data and post-entry data whose entry form is correct.

帳票から文字を読み取るOCR(Optical Character Recognition)装置を利用するにあたり、スキャン等で入力する帳票の種類(記入形式)のレイアウト情報を事前にOCR装置に設定してことは、OCRをする際には一般的である。   When using OCR (Optical Character Recognition) apparatus that reads characters from a form, setting layout information of the form type (entry form) to be input by scanning etc. in advance to the OCR apparatus is equivalent to OCR It is common.

使用する帳票の種類は、ユーザが明示的に与えることもできるが、機械が自動で識別する方法も考えられる。自動識別にすることで、帳票用紙をバッチ単位で入力する際に、ページ数を固定して帳票を読み込ませたり、順番を決めたりする必要が無くなり、便利である。帳票の自動識別手法の主要なものは、入力した帳票画像中から識別に有用な特徴点を抽出し、帳票の種類(記入形式)の候補群の中から一番特徴点の近いものを、該当する帳票の種類(記入形式)として識別するものである。   Although the type of form to be used can be given explicitly by the user, a method of automatically identifying it by the machine is also conceivable. The automatic identification is convenient because it is not necessary to fix the number of pages and read a form or to determine the order when inputting form sheets in batch units. The main thing of the automatic identification method of form is to extract feature points that are useful for identification from the input form image, and select the closest form point among the candidate group of form type (entry form), It is identified as the type of form (entry form) to be processed.

しかしながら、帳票の種類(記入形式)のレイアウトによっては特徴点の取りにくいものもある。例えば、下線で構成されたレイアウトの帳票である。   However, depending on the layout of the form type (entry form), some feature points may be difficult to obtain. For example, it is a form of a layout configured by underlining.

特許文献1には、上記のような、特徴点の取りにくいレイアウトの帳票の種類(記入形式)でも、帳票識別を可能にする方法として、論理演算と不一致尺度に基づいて識別する技術について開示されている。   Patent Document 1 discloses a technique of identifying based on a logical operation and a mismatch measure as a method of enabling form identification even in the form (entry form) of forms having layouts in which characteristic points are difficult to obtain as described above. ing.

特開2013−196611号公報JP, 2013-196611, A

このように、特許文献1には、記入前帳票画像(記入前データ)、記入例帳票画像、識別対象帳票画像の3種のデータを用意する。それぞれの帳票画像をグリッドに分け、各小領域が前景領域(1)か背景領域(0)かの判定を行う。そうすると0と1で構成されたグリッドができる。記入前帳票グリッドと識別対象帳票グリッド間、および記入例帳票グリッドと識別対象帳票グリッド間で論理演算をすることで、グリッド間で0と1が不一致な小領域の量を求める。不一致な小領域の量をもとに、特定の尺度で不一致の度合いをはかる。記入前帳票画像と識別対象帳票画像で不一致の度合いを求め、不一致の度合いにもとづき、識別対象帳票画像が記入前帳票画像により生成されたものかどうかを判定する技術が記載されている。   Thus, Patent Document 1 prepares three types of data: a pre-entry form image (data before entry), an entry example form image, and an identification target form image. Each form image is divided into grids, and it is determined whether each small area is a foreground area (1) or a background area (0). You will then have a grid of 0s and 1s. By performing logical operations between the entry front form grid and the identification target form grid, and between the entry example form grid and the identification target form grid, the amounts of small areas in which 0 and 1 do not match between the grids are obtained. Based on the amount of non-matching small areas, measure the degree of non-match on a specific scale. A technique is described that determines the degree of disagreement between the entry front form image and the identification target form image, and determines whether the identification target form image is generated by the entry front form image based on the degree of mismatch.

しかしこの手法では、精度を良くするために事前に記入例帳票画像を作成する必要があり煩雑である。
更に、用紙のズレや画像間でのサイズの違いを吸収するために領域分割を行っているが、領域分割する粒度を複数設定しておく必要があり煩雑である。
更に、傾きのズレ等に対しては未対応であり、精度に問題がある
However, in this method, in order to improve the accuracy, it is necessary to create an entry example form image in advance, which is cumbersome.
Furthermore, although area division is performed in order to absorb paper displacement and differences in size between images, it is necessary to set a plurality of grain sizes for area division, which is complicated.
Furthermore, it does not correspond to the shift of inclination etc., and there is a problem in accuracy

そのため、記入例帳票画像を作成することなく、またスキャンした識別対象帳票画像のサイズの違いや傾きのズレ、位置のズレを自動で補正することが望まれる。   Therefore, it is desirable to automatically correct the difference in size, inclination shift, and position shift of the scanned identification target form image without creating the entry example form image.

本発明は、記入前データと記入後データの差分から情報を得るために、記入前データと記入後データの両方のデータを用いて、記入形式が合っている記入前データと記入後データのセットであるか否かを自動判別することが可能な仕組みを提供することを目的とする。   The present invention uses both pre-entry data and post-entry data to obtain information from pre-entry data and post-entry data difference, and sets the pre-entry data and post-entry data in the form of entry. It is an object of the present invention to provide a mechanism capable of automatically determining whether or not

本発明は、記入前データ及び記入後データとの差分から得られる情報を取得する情報処理装置であって、当該記入前データ及び記入後データにおけるデータ箇所を読み取る読取手段と、前記読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、前記読み取った記入前データと記入後データ間で対応付けする対応付け手段と、前記対応付けした特徴点同士の位置を前記読み取った記入前データに合わせるように、前記読み取った記入後データの特徴点の位置を変形させる変形手段と、前記変形させた後に、前記読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化する二値化手段と、前記二値化した記入前データ及び前記二値化した記入後データの重複度に従って、前記読み取った記入前データ及び記入後データとの記入形式の整合性を判定する判定手段と、を備えることを特徴とする。   The present invention is an information processing apparatus for acquiring information obtained from a difference between pre-entry data and post-entry data, and a reading means for reading a data part in the pre-entry data and post-entry data; Correspondence means for correlating the position of feature points commonly present in the data portion of the data and post-entry data between the read pre-entry data and the post-entry data, and the position of the associated feature points Deformation means for deforming the position of the feature point of the read post-entry data so as to match the read pre-entry data, and the read pre-entry data and post-entry data after the transformation. Binarization means for binarizing into a gradation indicating a certain part and a gradation indicating a part without data, the data before the binarization and the binarization According multiplicity of filled-out data, characterized in that it comprises, a judging means for judging the consistency of the filling type and the read entry data before and filled-out data.

本発明は、記入前データ及び記入後データとの差分から得られる情報を取得する情報処理装置の制御方法であって、前記情報処理装置の読取手段が、当該記入前データ及び記入後データにおけるデータ箇所を読み取る読取工程と、前記情報処理装置の対応付け手段が、前記読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、前記読み取った記入前データと記入後データ間で対応付けする対応付け工程と、前記情報処理装置の変形手段が、前記対応付けした特徴点同士の位置を前記読み取った記入前データに合わせるように、前記読み取った記入後データの特徴点の位置を変形させる変形工程と、前記情報処理装置の二値化手段が、前記変形させた後に、前記読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化する二値化工程と、前記情報処理装置の判定手段が、前記二値化した記入前データ及び前記二値化した記入後データの重複度に従って、前記読み取った記入前データ及び記入後データとの記入形式の整合性を判定する判定工程と、を含むことを特徴とする。   The present invention is a control method of an information processing apparatus for acquiring information obtained from a difference between pre-entry data and post-entry data, and the reading means of the information processing device is data in the pre-entry data and post-entry data. A reading step of reading a position, and a position of feature points common to data positions of the read pre-entry data and the post-entry data, the association means of the information processing apparatus, And an associating step of associating the post-entry data, and the post-entry data of the read-out data so that the transformation means of the information processing apparatus matches the positions of the associated feature points with the read pre-entry data. A transformation step of transforming the position of the feature point, and the read pre-entry data and post-entry data after the transformation by the binarizing means of the information processing apparatus And a binarization step of binarizing to a gradation indicating a portion having data, and a gradation indicating a portion having no data, the pre-filling data binarized by the determination unit of the information processing apparatus, and And determining the consistency of the entry form between the read pre-entry data and the post-entry data according to the degree of duplication of the post-entry data that has been binarized.

本発明は、記入前データ及び記入後データとの差分から得られる情報を取得する情報処理装置で読み取り実行可能なプログラムであって、前記情報処理装置を、当該記入前データ及び記入後データにおけるデータ箇所を読み取る読取手段と、前記読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、前記読み取った記入前データと記入後データ間で対応付けする対応付け手段と、前記対応付けした特徴点同士の位置を前記読み取った記入前データに合わせるように、前記読み取った記入後データの特徴点の位置を変形させる変形手段と、前記変形させた後に、前記読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化する二値化手段と、前記二値化した記入前データ及び前記二値化した記入後データの重複度に従って、前記読み取った記入前データ及び記入後データとの記入形式の整合性を判定する判定手段と、して機能させる。   The present invention is a program that can be read and executed by an information processing apparatus that acquires information obtained from the difference between the pre-entry data and the post-entry data, and the information processing apparatus comprises: Correlating the reading means for reading the part and the positions of the feature points common to the data part of the read pre-entry data and post-entry data, between the read pre-entry data and the post-entry data Means, and deformation means for deforming the position of the feature point of the read post-entry data so that the positions of the associated feature points are matched with the read pre-entry data; and In the pre-entry data and post-entry data, binarization is performed to binarize to a tone indicating a location where data is present and a tone indicating a location where data is not present Determining means for determining the consistency of the entry form between the read pre-entry data and the post-entry data according to the stage and the degree of duplication of the binarized pre-entry data and the binarized post-entry data; Make it work.

本発明により、記入前データと記入後データの差分から情報を得るために、記入前データと記入後データの両方のデータを用いて、記入形式が合っている記入前データと記入後データのセットであるか否かを自動判別することが可能な仕組みを提供することが可能となる。   According to the present invention, in order to obtain information from the difference between pre-entry data and post-entry data, using both pre-entry data and post-entry data, a set of pre-entry data and post-entry data whose entry form is correct It is possible to provide a mechanism capable of automatically determining whether or not.

本発明の実施形態における、帳票識別のシステム(手書き文字OCRシステム)構成の一例を示す図である。It is a figure which shows an example of the system (handwritten character OCR system) structure of form identification in embodiment of this invention. 本発明の実施形態における、OCR装置等のハードウェア構成の一例を示すブロック図である。It is a block diagram showing an example of hardware constitutions, such as an OCR device in an embodiment of the present invention. 本発明の実施形態における、帳票識別する処理の一例を示すフローチャートである。It is a flow chart which shows an example of processing of form identification in an embodiment of the present invention. 本発明の実施形態における、フィッティングする処理の一例を示すフローチャートである。It is a flow chart which shows an example of processing to fit in an embodiment of the present invention. 本発明の実施形態における、不一致率の算出の一例を示すフローチャートである。It is a flowchart which shows an example of calculation of a non-matching rate in embodiment of this invention. 本発明の実施形態における、記入前帳票情報データベースの一例を示す図である。It is a figure which shows an example of a pre-entry form information database in embodiment of this invention. 本発明の実施形態における、記入前帳票画像(表紙)の一例を示す図である。It is a figure which shows an example of a pre-entry form image (cover) in the embodiment of the present invention. 本発明の実施形態における、記入前帳票画像(本文)の一例を示す図である。It is a figure which shows an example of a pre-entry form image (text) in the embodiment of the present invention. 本発明の実施形態における、識別対象帳票画像の一例を示す図である。It is a figure which shows an example of the identification target slip image in embodiment of this invention. 本発明の実施形態における、フィッティング処理により得られた、変形後識別対象帳票画像の一例を表す図である。FIG. 7 is a diagram illustrating an example of a post-deformation identification target form image obtained by the fitting process according to the embodiment of the present invention. 本発明の実施形態における、変形のための特徴点の対応付け処理の一例を表す図である。It is a figure showing an example of the matching processing of the feature point for modification in the embodiment of the present invention. 本発明の実施形態における、記入前帳票画像(表紙)と変形後識別対象帳票画像(表紙)の画素同士の積を取り、AND画像(1)を生成する処理の一例を表す図である。It is a figure showing an example of processing which takes product of a pixel of a pre-entry form image (front cover) and a post-deformation identification target form image (front cover) in the embodiment of the present invention and generates an AND image (1). 本発明の実施形態における、記入前帳票画像(本文)と変形後識別対象帳票画像(表紙)の画素同士の積を取り、AND画像(2)を生成する処理の一例を表す図である。It is a figure showing an example of processing which takes the product of the pixels of a pre-entry form image (text) and a post-deformation identification target form image (cover) in the embodiment of the present invention and generates an AND image (2). 本発明の実施形態における、AND画像(1)と変形後識別対象帳票(表紙)の画素同士の排他的論理和を取り、XOR画像を生成する処理の一例を表す図である。It is a figure showing an example of processing which takes exclusive OR of pixels of AND picture (1) and a discernment subject slip (cover) after modification in an embodiment of the present invention, and generates an XOR picture. 本発明の実施形態における、AND画像(2)と変形後識別対象帳票(表紙)の画素同士の排他的論理和を取り、XOR画像を生成する処理の一例を表す図である。It is a figure showing an example of processing which takes exclusive OR of pixels of AND picture (2) and a discernment subject form (cover page) after modification in an embodiment of the present invention, and generates an XOR picture. 本発明の実施形態における、変形前、変形後の画素の位置関係を示す式、不一致率を算出する式の一例を示す図である。It is a figure which shows an example which shows the positional relationship of the pixel before deformation | transformation in embodiment of this invention, and a deformation | transformation, and a formula which calculates non-matching rate.

図1を説明する。   FIG. 1 will be described.

図1は、本発明の実施形態における帳票識別のシステムのシステム構成の一例を示す図である。   FIG. 1 is a diagram showing an example of a system configuration of a form identification system according to an embodiment of the present invention.

手書き文字抽出の主要な処理を行うためのOCR装置(情報処理装置)1001および、帳票をスキャンして画像ファイル化(画像スキャン)するスキャナ3001が通信経路4001を介して接続される構成となっている。   An OCR apparatus (information processing apparatus) 1001 for performing main processing of handwritten character extraction and a scanner 3001 for scanning a form and converting it into an image file (image scan) are connected via a communication path 4001. There is.

通信経路4001はスキャナ3001の有する物理インターフェースに応じて、有線LAN,無線LAN,USBなどの形態をとることができる。   The communication path 4001 can take the form of a wired LAN, a wireless LAN, a USB or the like according to the physical interface of the scanner 3001.

通信経路4001上にはファイルサーバ5001を置いてもよい。スキャナ3001でスキャンした画像をOCR装置1001に取り込む方法として、スキャナ3001からOCR装置1001に直接画像を送信する方法、スキャナ3001で取り込んだ画像ファイルをいったんファイルサーバ5001に保管し、OCR装置1001がファイルサーバ5001から画像ファイルを取り出す方法どちらをとっても良い。   A file server 5001 may be placed on the communication path 4001. As a method of loading the image scanned by the scanner 3001 into the OCR device 1001, a method of transmitting an image directly from the scanner 3001 to the OCR device 1001, storing the image file loaded by the scanner 3001 in the file server 5001 once Either method may be used to extract the image file from the server 5001.

図2を説明する。   FIG. 2 will be described.

図2は、本発明の実施形態におけるOCR装置1001のハードウェア構成の一例を示すブロック図である。ファイルサーバ5001も同様の構成となる。   FIG. 2 is a block diagram showing an example of the hardware configuration of the OCR apparatus 1001 according to an embodiment of the present invention. The file server 5001 has a similar configuration.

CPU1は、システムバス4に接続される各デバイスやコントローラを統括的に制御する。また、ROM2あるいは外部メモリ11には、CPU1の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各OCR装置の実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。   The CPU 1 centrally controls the devices and controllers connected to the system bus 4. In addition, the ROM 2 or the external memory 11 has a BIOS (Basic Input / Output System) which is a control program of the CPU 1, an operating system program (hereinafter referred to as an OS), and a function executed by each server or each OCR device. The necessary various programs described later are stored.

RAM3は、CPU1の主メモリ、ワークエリア等として機能する。CPU1は、処理の実行に際して必要なプログラム等をROM2あるいは外部メモリ11からRAM3にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。   The RAM 3 functions as a main memory, a work area, etc. of the CPU 1. The CPU 1 loads programs necessary for execution of processing from the ROM 2 or the external memory 11 to the RAM 3 and executes the loaded programs to realize various operations.

また、5は入力コントローラで、キーボード(KB)9やカメラデバイス12(撮像装置)、不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)10等の表示器への表示を制御する。なお、CRT10と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。   An input controller 5 controls inputs from a keyboard (KB) 9, a camera device 12 (imaging apparatus), a pointing device such as a mouse (not shown), and the like. A video controller 206 controls display on a display such as a CRT display (CRT) 10 or the like. Although the CRT 10 is described, the display may be not only a CRT but also another display such as a liquid crystal display. These are used by the administrator as needed.

メモリコントローラ7は、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはOCR装置MCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ11へのアクセスを制御する。   The memory controller 7 is an external storage device (hard disk (HD)) for storing a boot program, various applications, font data, user files, editing files, various data, etc., a flexible disk (FD), or an OCR device MCIA card slot Control access to an external memory 11 such as a Compact Flash (registered trademark) memory connected via an adapter.

通信I/Fコントローラ8は、ネットワーク(例えば、図に示したLAN)を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。   The communication I / F controller 8 is for connecting and communicating with an external device via a network (for example, the LAN shown in the figure), and executes communication control processing in the network. For example, communication using TCP / IP is possible.

なお、CPU1は、例えばRAM3内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT10上での表示を可能としている。また、CPU1は、CRT10上の不図示のマウスカーソル等でのユーザによる指示を可能とする。   The CPU 1 enables display on the CRT 10 by executing, for example, outline font rasterization processing on a display information area in the RAM 3. Further, the CPU 1 enables an instruction by the user with a mouse cursor (not shown) on the CRT 10 or the like.

本発明を実現するための後述する各種プログラムは、外部メモリ11に記録されており、必要に応じてRAM3にロードされることによりCPU1によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ11に格納されており、これらについての詳細な説明も後述する。   Various programs to be described later for realizing the present invention are stored in the external memory 11, and are executed by the CPU 1 by being loaded into the RAM 3 as necessary. Furthermore, definition files and various information tables used at the time of execution of the program are also stored in the external memory 11, and a detailed description of these will be described later.

また、本発明における実行可能なプログラムは、図3乃至図4の処理をコンピュータに実行させるプログラムである。なお、本発明におけるプログラムは、図3乃至図4の各処理ごとのプログラムであってもよい。   Furthermore, an executable program according to the present invention is a program that causes a computer to execute the processing of FIGS. 3 to 4. The program in the present invention may be a program for each process of FIGS. 3 to 4.

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。   As described above, the recording medium recording the program for realizing the functions of the above-described embodiments is supplied to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the program stored in the recording medium. It goes without saying that the object of the present invention can also be achieved by reading and executing.

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。   In this case, the program itself read out from the recording medium realizes the novel function of the present invention, and the recording medium recording the program constitutes the present invention.

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。   As a recording medium for supplying the program, for example, a flexible disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, DVD-ROM, magnetic tape, non-volatile memory card, ROM, EEPROM, silicon A disk etc. can be used.

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Further, by executing the program read by the computer, not only the functions of the above-described embodiment are realized, but also an operating system (OS) or the like running on the computer is actually executed based on the instructions of the program. It goes without saying that the processing is partially or entirely performed, and the processing realizes the functions of the above-described embodiments.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Furthermore, after the program read from the recording medium is written to the memory provided to the function expansion board inserted into the computer or the function expansion unit connected to the computer, the function expansion board is read based on the instruction of the program code. It goes without saying that the case where the CPU or the like provided in the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiment are realized by the processing.

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。   Further, the present invention may be applied to a system constituted by a plurality of devices or to an apparatus comprising a single device. It goes without saying that the present invention can also be applied to the case where it is achieved by supplying a program to a system or apparatus. In this case, by reading a recording medium storing a program for achieving the present invention into the system or apparatus, the system or apparatus can receive the effects of the present invention.

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。   Further, by downloading and reading out a program for achieving the present invention from a server on a network, a database or the like by a communication program, the system or apparatus can receive the effects of the present invention. In addition, the structure which combined each embodiment mentioned above and its modification is also contained in this invention altogether.

次に図3〜図5のフローチャートを用いて、本発明の実施形態におけるOCR装置1001が実行する処理について説明する。   Next, processing executed by the OCR device 1001 according to the embodiment of the present invention will be described with reference to the flowcharts of FIGS.

図3のフローチャートは、OCR装置1001のCPU201が所定の制御プログラムを読み出して実行する処理であり、帳票識別する処理を示すフローチャートである。   The flowchart in FIG. 3 is processing that the CPU 201 of the OCR device 1001 reads and executes a predetermined control program, and is a flowchart showing processing for form identification.

ユースケースの一例として、識別対象帳票が学校のレポートであり、表紙か本文を識別するタスクを考える。   As an example of the use case, consider that the identification target form is a school report, and a task to identify the cover or the text.

尚、以降で説明する記入後データは連続するページで構成されているものする。更に記入後データは、記入形式が異なる複数種類(表紙用、本文用)の記入前データの連続するページ毎に、記入前データとの差分から得られる情報(手書きの学籍番号、手書きの氏名、手書きの得点等)が既に記入済みのものとする。   The post-entry data described below is composed of continuous pages. Further, the post-entry data is information obtained from the difference with the pre-entry data for each successive page of the pre-entry data of a plurality of types (for the cover and for the text) having different entry forms (handwritten student ID number, handwritten name, It is assumed that the handwritten score etc. has already been entered.

ステップS301では、図2のCPU201は、ユーザから帳票識別要求を受け付ける。   In step S301, the CPU 201 in FIG. 2 receives a form identification request from the user.

ステップS3011では、記入後データのデータ箇所を連続するページの中で何ページ目かを選択する。   In step S3011, the number of pages of consecutive pages in the data portion of the data after entry is selected.

ステップS302では、図2のCPU201は、識別対象帳票情報をメモリに読み込む。
識別対象帳票情報には、スキャナ1101でスキャンした識別対象帳票画像501(今回は表紙とする)と、その帳票が属するグループの情報321のうちグループ1に属するという情報が含まれているとする。また識別対象帳票画像(記入後データ)501はスキャンに伴う傾きがあるものとする。さらに記入後データにおけるデータ箇所(罫線や記入枠や項目名、手書きの学籍番号、手書きの氏名、手書きの得点等)を読み取る(読取手段)。
In step S302, the CPU 201 in FIG. 2 reads identification target form information into the memory.
It is assumed that the identification target form information includes an identification target form image 501 (this time is a cover) scanned by the scanner 1101 and information that belongs to the group 1 among the information 321 of the group to which the form belongs. Further, it is assumed that the identification target form image (post-entry data) 501 has an inclination associated with the scan. Furthermore, it reads the data part (ruled line, entry frame, item name, handwritten student identification number, handwritten name, handwritten score, etc.) in the data after entry (reading means).

図6のデータベーステーブル301は、記入前帳票情報候補を格納した一例を示すテーブルである。この例では、画像ID、画像ファイル名、グループのインデックス321、表紙か本文かの情報を属性として持つ。   The database table 301 of FIG. 6 is a table showing an example of storing pre-entry form information candidates. In this example, an image ID, an image file name, an index 321 of a group, and information on whether a cover or a body is included as attributes.

このように、データベーステーブル301には、記入前帳票情報候補として記入形式が異なる複数種類の記入前データを記憶している(記憶手段)。   As described above, the database table 301 stores a plurality of kinds of pre-entry data different in entry form as entry form information candidates (storage means).

図7A、図7Bの画像は、データベーステーブル301内のグループ1に属する記入前帳票画像を読み出したものである。レコード311の画像が記入前帳票画像(記入前データ)401(表紙)にあたり、レコード312の画像が記入前帳票画像402(本文)にあたるとする。   The images shown in FIGS. 7A and 7B are obtained by reading out the pre-entry form image belonging to group 1 in the database table 301. The image of the record 311 corresponds to the entry form image (data before entry) 401 (cover), and the image of the record 312 corresponds to the entry form image 402 (text).

ステップS303では、図2のCPU201は、ファイルサーバ5001より、記入前帳票情報候補を抽出し、メモリ上のキューに格納する。ファイルサーバ5001はデータベーステーブル301の通りの構成になっている。   In step S303, the CPU 201 in FIG. 2 extracts the entry form information candidate from the file server 5001 and stores it in a queue on the memory. The file server 5001 is configured as shown in the database table 301.

記入前帳票情報候補はステップS302で与えられた識別対象帳票情報をもとに、その帳票が属するグループ1に該当する候補が抽出される。   Based on the identification target form information given in step S302, candidates for the pre-entry form information candidate corresponding to the group 1 to which the form belongs are extracted.

ステップS304では、図2のCPU201は、ステップS303で用意したキューを参照し、記入前帳票情報のレコードがあるかどうかを判定する。キューにレコードが残っていれば、ステップS305へ進み、残っていなければ、ステップS309へ進む。   In step S304, the CPU 201 in FIG. 2 refers to the queue prepared in step S303, and determines whether there is a record of pre-entry form information. If the record remains in the queue, the process proceeds to step S305. If not, the process proceeds to step S309.

ステップS305では、図2のCPU201は、ステップS303で用意したキューを参照し、先頭のレコード1つを取り出し、そのレコードをメモリに格納する。   In step S305, the CPU 201 in FIG. 2 refers to the queue prepared in step S303, extracts one head record, and stores the record in the memory.

さらに記入前データにおけるデータ箇所(罫線や記入枠や項目名等)を読み取る(読取手段)。   Furthermore, the data portion (ruled line, entry frame, item name, etc.) in the data before entry is read (reading means).

ステップS306では、図2のCPU201は、ステップS302で読み込んだ識別対象帳票情報と、ステップS305で読み込んだ、記入前帳票情報のレコード1つを、「フィッティング」サブプロセスへ渡し、識別対象帳票画像を構成する画素が記入前帳票画像の画素にフィッティングした、変形後識別対象帳票画像502を返り値として受取り、この返り値をメモリに格納する。   In step S306, the CPU 201 in FIG. 2 passes the identification target form information read in step S302 and one record of the pre-entry form information read in step S305 to the "fitting" subprocess, and the identification target form image The post-deformation identification form image 502, which is a fitting target pixel of the entry pre-form image, is received as a return value, and this return value is stored in the memory.

ステップS307では、図2のCPU201は、ステップS305で読み込んだ、記入前帳票情報のレコード1つと、ステップS306で受け取った変形後識別対象帳票画像502を「不一致率の算出」サブプロセスへ渡し、これら2つの画像の不一致率を算出する。   In step S307, the CPU 201 in FIG. 2 passes one record of the entry form information read in step S305 and the post-deformation identification form image 502 received in step S306 to the "calculation of mismatch rate" sub-process. Calculate the mismatch rate of the two images.

ステップS308では、図2のCPU201は、ステップS308で算出した不一致率を、記入前帳票情報のレコードと対応付けて、メモリへ格納する。その後、ステップS303の直前へ処理が渡される。   In step S308, the CPU 201 in FIG. 2 stores the non-matching rate calculated in step S308 in the memory in association with the record of the entry form information. Thereafter, the process is passed immediately before step S303.

ステップS309では、図2のCPU201は、ステップS308で格納された記入前帳票情報のレコードと不一致率のペアの中から、不一致率が最小のものを抽出しメモリに格納する。   In step S309, the CPU 201 in FIG. 2 extracts the one with the smallest mismatch rate out of the pair of the record of the entry form information stored in step S308 and the mismatch rate, and stores it in the memory.

つまりここで、ステップS506で既に判定をした、二値化した記入形式が異なる複数種類の記入前データと二値化した記入後データとの重複度(不一致率)をそれぞれ比較することで、読み取った記入後データと記入形式が異なる複数種類の記入前データの中で記入形式が合う記入前データを選択していることになる(選択手段)。   That is, here, reading is performed by comparing the multiplicity (mismatch rate) between the plural kinds of pre-entry data different in the binarized entry form and the binarized post-entry data which have already been determined in step S506. The pre-entry data in which the entry form is matched among the plurality of kinds of pre-entry data which are different from the post-entry data and the entry form will be selected (selection means).

ステップS310では、図2のCPU201は、ステップS309で格納した最小の不一致率を事前に設定したしきい値と比較する。このしきい値は、帳票かそれ以外かを判断するためのものである。不一位率がしきい値未満ならば、ステップS311へ、そうでなければS312へ進む。   In step S310, the CPU 201 in FIG. 2 compares the minimum mismatch rate stored in step S309 with a threshold value set in advance. This threshold is used to determine whether the form is or not. If the non-decision rate is less than the threshold value, the process proceeds to step S311, otherwise proceeds to S312.

ステップS311では、図2のCPU201は、ステップS308で格納された記入前帳票情報の画像が該当帳票であるという認識結果を出力する。この際に、複数の候補に対する不一致率を比較して、、クライアント端末7001で、その結果(複数の候補に対する不一致率)を表示できるように制御させる。   In step S311, the CPU 201 in FIG. 2 outputs a recognition result that the image of the entry pre-form information stored in step S308 is the corresponding form. At this time, the noncoincidence rates for a plurality of candidates are compared, and the client terminal 7001 is controlled to be able to display the result (incoincidence rates for a plurality of candidates).

更にここでは、ステップS308で格納された記入前帳票情報の画像が該当帳票であるので、ステップS309で選択された二値化した記入前データと、二値化した記入後データとの差分から得られる情報(手書きの学籍番号、手書きの氏名、手書きの得点等)を取得してもよい(取得手段)。   Furthermore, here, since the image of the entry pre-form information stored in step S308 is the corresponding form, it is obtained from the difference between the binarized pre-entry data selected in step S309 and the binarized post-entry data. Information (handwritten student identification number, handwritten name, handwritten score, etc.) may be acquired (acquisition means).

ステップS312では、図2のCPU201は、ステップS302で読み込んだ識別対象帳票情報の画像は、ファイルサーバ5001に登録されている記入前帳票情報のいずれとも一致しなかったとして、「OTHER(未登録)」という認識結果を返して、クライアント端末7001で「OTHER(未登録)」という認識結果を表示させるように制御させる。   In step S312, the CPU 201 in FIG. 2 determines that the image of the identification target form information read in step S302 does not match any of the pre-entry form information registered in the file server 5001, "OTHER (not registered) And causes the client terminal 7001 to display a recognition result of “OTHER (unregistered)”.

ステップS313では、記入後データに未処理のページがあるか否かを判断する。未処理のページがあると判断した場合には、S3011に戻って、以降の処理を繰り返す。未処理のページがないと判断した場合には、処理を終了する。   In step S313, it is determined whether there is an unprocessed page in the post-entry data. If it is determined that there is an unprocessed page, the process returns to S3011, and the subsequent processes are repeated. If it is determined that there is no unprocessed page, the process ends.

このように、記入後データが連続ページ(表紙、本文等)である場合には、ページ毎に読み取った記入後データのデータ箇所と記入形式の整合性が良い記入前データを、判定手段の記入形式の整合性の判定結果に従って、記入形式が異なる複数種類の記入前データの中からページ単位で選択することになる。   As described above, when the post-entry data is a continuous page (cover, text, etc.), the pre-entry data having good consistency between the data location of the post-entry data read for each page and the entry form is entered by the determination means. According to the determination result of the form consistency, it will be selected in page units from a plurality of types of pre-filling data different in the form of entry.

図4のフローチャートは、OCR装置1001のCPU201が所定の制御プログラムを読み出して実行する処理であり、2つの画像を一方へ画素単位でフィッティングする処理を示すフローチャートである
ステップS401では、図2のCPU201は、ステップS302で抽出した識別対象帳票情報中の識別対象帳票画像501を抽出し、特徴点群602を抽出する。なお、特徴点群602は、識別対象帳票画像501の一部であり、画像全体から特徴点が抽出されている。 特徴点は画像中の線分の端点、交点、輝度や色の境界になる線上の点が望ましい。こうした条件に合致する点を抽出するための手法として、KAZE、ORB(Oriented−BRIEF)、SIFT (Scale−invariant feature transform)などが知られている。 特徴点同士の対応がとれることを目的としているので、特徴点の質は識別に有用な質である必要はない。
The flowchart of FIG. 4 is a process in which the CPU 201 of the OCR device 1001 reads and executes a predetermined control program, and is a flowchart showing a process of fitting two images to one another in pixel units. In step S401, the CPU 201 of FIG. In step S302, the identification target form image 501 in the identification target form information extracted in step S302, and the feature point group 602 is extracted. The feature point group 602 is a part of the identification target form image 501, and feature points are extracted from the entire image. The feature point is preferably an end point of a line segment in an image, an intersection point, or a point on a line which is a boundary of luminance or color. KAZE, ORB (Oriented-BRIEF), SIFT (Scale-invariant feature transform), etc. are known as methods for extracting points meeting such conditions. The quality of feature points does not have to be a quality that is useful for identification because the purpose is to be able to correspond feature points.

ステップS402では、図2のCPU201は、ステップS401と同様にして、記入前帳票画像401から、特徴点群601を抽出する。   In step S402, the CPU 201 in FIG. 2 extracts the feature point group 601 from the entry form image 401 in the same manner as in step S401.

ステップS403では、図2のCPU201は、特徴点群601と特徴点群602間で、記入前後の帳票の同一個所から検出されたと推定される特徴点の対応付けを行う。特徴点の対応付けのアルゴリズムとしては、KNN(K−Nearest Neighbor algorithm)、Blute−Force、FLANN(Fast Library for Approximate Nearest Neighbors)などが知られている。   In step S403, the CPU 201 in FIG. 2 associates feature points that are estimated to be detected from the same part of the form before and after entry between the feature point group 601 and the feature point group 602. As an algorithm of feature point correspondence, KNN (K-Nearest Neighbor algorithm), Blute-Force, FLAN (Fast Library for Approximate Neighbors Neighbors), etc. are known.

つまりここで、読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、読み取った記入前データと記入後データ間で対応付けしていることになる(対応付け手段)。   In other words, here, the positions of the feature points that exist in common between the read pre-entry data and the post-entry data point are associated between the read pre-entry data and the post-entry data (Correspondence Attached means).

図10は、ステップ403における特徴点の対応付け処理の一例を示す図である。識別対象帳票画像501上の手書き文字から検出された特徴点は、記入前帳票画像401からは検出されないのでここで対応付けから除外され、帳票にもともと存在する罫線、見出しに対応する特徴点対応情報603が得られる。   FIG. 10 is a diagram showing an example of the process of associating feature points in step 403. Feature points detected from handwritten characters on the identification target form image 501 are not detected from the entry front form image 401, so they are excluded from association here, and feature point correspondence information corresponding to ruled lines and headings originally present in the form 603 is obtained.

ステップS404では、図2のCPU201は、対応する特徴点同士の座標から、識別対象帳票画像501を記入前帳票画像401と重なるように変形するための変換行列を算出する。変換行列を算出するための手法としては、RANSACやLeast Medianなどが知られている。   In step S404, the CPU 201 in FIG. 2 calculates a transformation matrix for transforming the identification target form image 501 so as to overlap with the entry form image 401 from the coordinates of corresponding feature points. As a method for calculating a transformation matrix, RANSAC, Least Median, etc. are known.

ステップS405では、識別対象帳票画像501に変換行列Tをかけて変形を行う。ここで行う変形は画像全体に対して単一の変換行列をかけるものである。この変形により、サイズの違いや、ズレ、スキャン時に発生した大きな傾きや、天地を逆にスキャンした場合でも補正できるというメリットがある。ここで得られる画像を変形後識別対象帳票画像502とする。   In step S405, a transformation matrix T is applied to the identification target form image 501 to perform transformation. The transformation performed here is to apply a single transformation matrix to the entire image. By this deformation, there is an advantage that correction can be made even when the difference in size, the shift, the large inclination generated at the time of scanning, or the reverse scanning of the top and bottom. The image obtained here is referred to as a post-deformation identification target form image 502.

つまりここで、ステップS403で対応付けした特徴点同士の位置を読み取った記入前データに合わせるように、読み取った記入後データの特徴点の位置を変形させていることになる(変形手段)。   That is, here, the positions of the feature points of the read-in data are corrected so as to match the positions of the feature points associated in step S403 with the read data before writing (deformation means).

数式1は変形後識別対象帳票画像502上の任意の点(x,y)と変形前の識別対象帳票画像501上の対応する点(x’,y’)との関係を表す式である。   Expression 1 is an expression representing the relationship between an arbitrary point (x, y) on the identification target form image 502 after deformation and a corresponding point (x ′, y ′) on the identification target form image 501 before deformation.

数式2は変形後識別対象帳票画像502上の任意の点(x,y)における色C2(x,y)を表す式である。C2(x,y)は変形前の識別対象帳票画像501上の点(x’,y’)におけるC1(x’,y’)となる。   Expression 2 is an expression representing the color C2 (x, y) at an arbitrary point (x, y) on the post-deformation identification form image 502. C2 (x, y) is C1 (x ', y') at a point (x ', y') on the identification target form image 501 before deformation.

図5のフローチャートは、OCR装置1001のCPU201が所定の制御プログラムを読み出して実行する処理であり、識別対象画像に対して、オリジナルの帳票との不一致率を算出する処理を示すフローチャートである。   The flowchart of FIG. 5 is a process executed by the CPU 201 of the OCR apparatus 1001 for reading and executing a predetermined control program, and is a flowchart showing a process of calculating a mismatch rate of an identification target image with an original form.

ステップS501では、図2のCPU201は、記入前帳票画像401と変形後識別対象帳票画像502に対し、二値化処理をかけ、二値化記入前帳票画像701と二値化変形後識別対象帳票画像702を生成する。   In step S501, the CPU 201 in FIG. 2 applies a binarization process to the pre-entry form image 401 and the post-transformation identification target form image 502, and the pre-form image 701 for binary entry and the post-binary identification target form An image 702 is generated.

つまりここで、ステップS405で変形させた後に、読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化させていることになる(二値化手段)。   That is, here, after the transformation in step S405, the read pre-entry data and the post-entry data are binarized into a gradation indicating a portion having data and a gradation indicating a portion not having data. (Binarization means).

ステップS502では、図2のCPU201は、二値化記入前帳票画像701と二値化変形後識別対象帳票画像702に対し、画素同士の論理積(AND)をとったAND画像703を生成する。AND画像は、二値化変形後識別対象帳票画像702が二値化記入前帳票画像701と情報を多く含んでいるほど、二値化記入前帳票画像701とAND画像703は近いものになる。逆に、違う二値化フォーム画像711と二値化変形後識別対象帳票画像702でANDを取ると、二値化フォーム画像711と異なるAND画像712ができる。   In step S502, the CPU 201 in FIG. 2 generates an AND image 703 in which the logical product (AND) of the pixels is obtained with respect to the binarized entry previous form image 701 and the binarized deformed identification target form image 702. In the AND image, as the identification target form image 702 after binarization contains more information with the binarized entry pre-form image 701, the binarized entry pre-form image 701 and the AND image 703 become closer. Conversely, when ANDing the different binarized form image 711 with the identification target form image 702 after binarization transformation, an AND image 712 different from the binarized form image 711 is formed.

ステップS503では、図2のCPU201は、二値化記入前帳票画像701とAND画像703に対し、画素同士の排他的論理和(XOR)をとったXOR画像704を生成する。XOR演算では2枚の画像間で違う画素であるとき不一致画素(この例では黒画素)とする。よって、不一致画素が少ないほど、二値化記入前帳票画像701に近いとみなせる。異なるAND画像712とXORを取って生成すると、不一致画素が多く残る。   In step S 503, the CPU 201 in FIG. 2 generates an XOR image 704 obtained by taking an exclusive OR (XOR) of pixels with respect to the binarized entry previous form image 701 and the AND image 703. In the XOR operation, when the pixels are different from each other in the two images, they are regarded as non-matching pixels (in this example, black pixels). Therefore, the smaller the number of unmatched pixels, the closer to the binarized entry form image 701. When XOR is generated with a different AND image 712, many unmatched pixels remain.

ステップS504では、図2のCPU201は、二値化記入前帳票画像701内の全ての前景画素(この例では黒画素)の量を集計し、メモリに格納する。   In step S504, the CPU 201 in FIG. 2 aggregates the amounts of all foreground pixels (black pixels in this example) in the binarized entry form image 701, and stores the amounts in the memory.

ステップS505では、図2のCPU201は、ステップS503で得られたXOR画像704内の全ての不一致画素(この例では黒画素)の量を集計し、メモリに格納する。   In step S505, the CPU 201 in FIG. 2 aggregates the amounts of all unmatched pixels (black pixels in this example) in the XOR image 704 obtained in step S503, and stores the amounts in the memory.

ステップS506では、図2のCPU201は、ステップS504で得られた二値化記入前帳票画像701内の全ての前景画素の量とステップS505で得られたXOR画像704内の全ての不一致画素の量を用いて数式3により、不一致率を求める。今回の例では、前者で後者を割ることで、どのくらいの誤差画素が論理演算結果として残存しているかの比率を出すこととした。   In step S506, the CPU 201 in FIG. 2 calculates the amounts of all foreground pixels in the binarized entry form image 701 obtained in step S504 and the amounts of all unmatched pixels in the XOR image 704 obtained in step S505. The mismatch rate is determined by Equation 3 using In this example, by dividing the latter by the former, the ratio of how many error pixels remain as a logical operation result is determined.

つまりここで、ステップS501で二値化した記入前データ及び二値化した記入後データの重複度(不一致率)に従って、読み取った記入前データ及び記入後データとの記入形式の整合性を判定していることになる(判定手段)。   That is, here, the consistency of the entry format between the read pre-entry data and the post-entry data is determined according to the duplication degree (mismatch rate) of the pre-entry data binarized in step S501 and the binarized post-entry data. (Determination means).

本実施例では、下記の5点が可能になる
1. 各学生でページ数が違い、かつ、表紙と本文が混在した用紙の束を入力することが出来ること
2. 記入例帳票画像を用意する必要がないこと
3. 識別対象帳票画像のスキャン時の傾き、ズレ、サイズの違いがあってもよいこと。
4. 識別に必要な特徴が正確に抽出できなくてもよいこと
5. 複数のレイアウトでの不一致率の比較表示やエラー時の警告をすること
In the present embodiment, the following five points become possible. Each student has different number of pages, and can input a bundle of sheets with mixed cover and text. There is no need to prepare an entry example form image 3. At the time of scanning of the identification target form image, there may be a difference in inclination, deviation, or size.
4. It is not necessary to extract features required for identification accurately. Compare non-match rates in multiple layouts and warn on errors

1001 OCR装置本体(情報処理装置)
3001 スキャナ本体(画像読取装置)
4001 ネットワーク経路
5001 ファイルサーバ(読取画像管理装置)
6001 サーバ(OCR結果管理装置)
7001 クライアント端末



1001 OCR main unit (information processing unit)
3001 Scanner body (image reader)
4001 Network Path 5001 File Server (Reading Image Management Device)
6001 server (OCR result management device)
7001 client terminal



Claims (5)

記入前データ及び記入後データとの差分から得られる情報を取得する情報処理装置であって、
当該記入前データ及び記入後データにおけるデータ箇所を読み取る読取手段と、
前記読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、前記読み取った記入前データと記入後データ間で対応付けする対応付け手段と、
前記対応付けした特徴点同士の位置を前記読み取った記入前データに合わせるように、前記読み取った記入後データの特徴点の位置を変形させる変形手段と、
前記変形させた後に、前記読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化する二値化手段と、
前記二値化した記入前データ及び前記二値化した記入後データの重複度に従って、前記読み取った記入前データ及び記入後データとの記入形式の整合性を判定する判定手段と、
を備えることを特徴とする情報処理装置。
An information processing apparatus for acquiring information obtained from a difference between pre-entry data and post-entry data,
Reading means for reading data locations in the pre-entry data and post-entry data;
Association means for associating the positions of feature points commonly present in the data locations of the read pre-entry data and post-entry data, between the read pre-entry data and the post-entry data;
Deforming means for deforming the positions of the feature points of the read post-entry data so as to align the positions of the correlated feature points with the read pre-entry data;
A binarizing means for binarizing to a gradation indicating a portion having data and a gradation indicating a portion having no data in the read pre-entry data and the post-entry data after the transformation;
A determination unit that determines the consistency of the entry format between the read pre-entry data and the entry data according to the degree of duplication of the pre-digitized data and the binarized post-entry data;
An information processing apparatus comprising:
記入形式が異なる複数種類の記入前データを記憶する記憶手段と、
前記二値化した前記記入形式が異なる複数種類の記入前データと前記二値化した記入後データとの重複度をそれぞれ比較することで、前記読み取った記入後データと前記記入形式が異なる複数種類の記入前データの中で記入形式が合う記入前データを選択する選択手段と、
前記選択された前記二値化した記入前データと、前記二値化した記入後データとの差分から得られる情報を取得する取得手段と、
更に備えることを特徴とする請求項1に記載の情報処理装置。
Storage means for storing a plurality of types of pre-entry data different in entry form;
The read-out data and the entry format are different from each other by comparing the duplication degree between the plurality of kinds of pre-entry data different in the entry format and the binarized entry format and the data after the entry after the binarization Selection means for selecting the pre-entry data matching the entry form in the pre-entry data;
Acquisition means for acquiring information obtained from the difference between the selected pre-binarized data before entry and the binarized post-entry data;
The information processing apparatus according to claim 1, further comprising:
記入後データは、前記記入形式が異なる複数種類の記入前データに前記差分から得られる情報が記載されている連続ページで構成されており、
前記読取手段が前記記入後データのデータ箇所をページ単位で読み取り、
前記ページ毎に読み取った記入後データのデータ箇所と記入形式の整合性が良い記入前データを、前記判定手段の前記記入形式の整合性の判定に結果に従って、前記記入形式が異なる複数種類の記入前データの中から前記ページ単位で選択することを特徴とする請求項2に記載の情報処理装置。
The post-entry data is composed of continuous pages in which information obtained from the difference is described in a plurality of kinds of pre-entry data different in the entry form,
The reading unit reads the data portion of the post-entry data in page units;
The data location of the post-entry data read for each page and the pre-entry data having good consistency with the entry form, according to the result of the determination of the entry form integrity of the decision means, a plurality of types of entry with different entry forms The information processing apparatus according to claim 2, wherein the information is selected in the page unit from the previous data.
記入前データ及び記入後データとの差分から得られる情報を取得する情報処理装置の制御方法であって、
前記情報処理装置の読取手段が、当該記入前データ及び記入後データにおけるデータ箇所を読み取る読取工程と、
前記情報処理装置の対応付け手段が、前記読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、前記読み取った記入前データと記入後データ間で対応付けする対応付け工程と、
前記情報処理装置の変形手段が、前記対応付けした特徴点同士の位置を前記読み取った記入前データに合わせるように、前記読み取った記入後データの特徴点の位置を変形させる変形工程と、
前記情報処理装置の二値化手段が、前記変形させた後に、前記読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化する二値化工程と、
前記情報処理装置の判定手段が、前記二値化した記入前データ及び前記二値化した記入後データの重複度に従って、前記読み取った記入前データ及び記入後データとの記入形式の整合性を判定する判定工程と、
を含むことを特徴とする制御方法。
A control method of an information processing apparatus for acquiring information obtained from a difference between data before entry and data after entry,
A reading step of reading a data portion in the pre-entry data and the post-entry data by a reading unit of the information processing apparatus;
The association means of the information processing apparatus associates the positions of feature points commonly present in the data locations of the read pre-entry data and post-entry data between the read pre-entry data and the post-entry data Matching step,
A deforming step of deforming the positions of the feature points of the read-in data, so that the deformation means of the information processing apparatus aligns the positions of the correlated feature points with the read data before writing;
In the pre-writing data and the post-writing data read after the transformation, the binarization means of the information processing apparatus is binary at the gradation indicating the location with data and the gradation indicating the location without data The binarization process to
The determination means of the information processing apparatus determines the consistency of the entry format between the read pre-entry data and the post-entry data according to the duplication degree of the binarized pre-entry data and the binarized post-entry data Judgment step to
A control method characterized by including.
記入前データ及び記入後データとの差分から得られる情報を取得する情報処理装置で読み取り実行可能なプログラムであって、
前記情報処理装置を、
当該記入前データ及び記入後データにおけるデータ箇所を読み取る読取手段と、
前記読み取った記入前データと記入後データのデータ箇所に共通して存在する特徴点同士の位置を、前記読み取った記入前データと記入後データ間で対応付けする対応付け手段と、
前記対応付けした特徴点同士の位置を前記読み取った記入前データに合わせるように、前記読み取った記入後データの特徴点の位置を変形させる変形手段と、
前記変形させた後に、前記読み取った記入前データ及び記入後データにおいて、データのある箇所を示す階調と、データの無い箇所を示す階調に二値化する二値化手段と、
前記二値化した記入前データ及び前記二値化した記入後データの重複度に従って、前記読み取った記入前データ及び記入後データとの記入形式の整合性を判定する判定手段と、
して機能させるためのプログラム。
It is a program that can be read and executed by an information processing apparatus that acquires information obtained from the difference between pre-entry data and post-entry data,
The information processing apparatus
Reading means for reading data locations in the pre-entry data and post-entry data;
Association means for associating the positions of feature points commonly present in the data locations of the read pre-entry data and post-entry data, between the read pre-entry data and the post-entry data;
Deforming means for deforming the positions of the feature points of the read post-entry data so as to align the positions of the correlated feature points with the read pre-entry data;
A binarizing means for binarizing to a gradation indicating a portion having data and a gradation indicating a portion having no data in the read pre-entry data and the post-entry data after the transformation;
A determination unit that determines the consistency of the entry format between the read pre-entry data and the entry data according to the degree of duplication of the pre-digitized data and the binarized post-entry data;
Program to make it work.
JP2017230519A 2017-11-30 2017-11-30 Information processing device, its control method and program Active JP7181445B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017230519A JP7181445B2 (en) 2017-11-30 2017-11-30 Information processing device, its control method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017230519A JP7181445B2 (en) 2017-11-30 2017-11-30 Information processing device, its control method and program

Publications (2)

Publication Number Publication Date
JP2019101647A true JP2019101647A (en) 2019-06-24
JP7181445B2 JP7181445B2 (en) 2022-12-01

Family

ID=66976966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017230519A Active JP7181445B2 (en) 2017-11-30 2017-11-30 Information processing device, its control method and program

Country Status (1)

Country Link
JP (1) JP7181445B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7428039B2 (en) 2020-03-25 2024-02-06 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057266A (en) * 1998-08-07 2000-02-25 Ricoh Co Ltd Form identification device, form identification method, and medium recording form identification program
JP2004280654A (en) * 2003-03-18 2004-10-07 Ricoh Co Ltd Image processing apparatus, recording medium, program, and image processing method
JP2008098876A (en) * 2006-10-11 2008-04-24 Fuji Xerox Co Ltd Image processor, and image processing program
JP2012198684A (en) * 2011-03-18 2012-10-18 Pfu Ltd Information processing device, business form type estimation method, and business form type estimation program
JP2013196611A (en) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd Business form discrimination device and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057266A (en) * 1998-08-07 2000-02-25 Ricoh Co Ltd Form identification device, form identification method, and medium recording form identification program
JP2004280654A (en) * 2003-03-18 2004-10-07 Ricoh Co Ltd Image processing apparatus, recording medium, program, and image processing method
JP2008098876A (en) * 2006-10-11 2008-04-24 Fuji Xerox Co Ltd Image processor, and image processing program
JP2012198684A (en) * 2011-03-18 2012-10-18 Pfu Ltd Information processing device, business form type estimation method, and business form type estimation program
JP2013196611A (en) * 2012-03-22 2013-09-30 Fuji Xerox Co Ltd Business form discrimination device and program
JP5862396B2 (en) * 2012-03-22 2016-02-16 富士ゼロックス株式会社 Form discrimination device and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
長谷川 史裕 外2名: "アフィン変換の係数を用いた定型帳票内の文字抽出", 電子情報通信学会技術研究報告, vol. 97, no. 459, JPN6021046590, 19 December 1997 (1997-12-19), JP, pages 7 - 14, ISSN: 0004648873 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7428039B2 (en) 2020-03-25 2024-02-06 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Also Published As

Publication number Publication date
JP7181445B2 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
US12294678B2 (en) Image processing apparatus, control method for image processing apparatus, and non-transitory storage medium
US8675260B2 (en) Image processing method and apparatus, and document management server, performing character recognition on a difference image
CN102117269B (en) Apparatus and method for digitizing documents
CN110728687B (en) File image segmentation method, device, computer equipment and storage medium
JP5934762B2 (en) Document modification detection method by character comparison using character shape characteristics, computer program, recording medium, and information processing apparatus
US11323577B2 (en) Image processing device for creating an album
US10142499B2 (en) Document distribution system, document distribution apparatus, information processing method, and storage medium
GB2572386A (en) An image processing system and an image processing method
US12423350B2 (en) Image processing apparatus deriving condition for estimating text block, image processing method, and storage medium
JP5094682B2 (en) Image processing apparatus, image processing method, and program
RU2597163C2 (en) Comparing documents using reliable source
JP3733310B2 (en) Document format identification device and identification method
JP2019101647A (en) Information processing device, control method therefor, and program
JP6931168B2 (en) Information processing device, control method, program
JP2022090469A (en) Format definition device, format definition method, and program
CN111325106A (en) Method and device for generating training data
JP2020038736A (en) Information identification program, information identification method, and image reading device
JP2020047138A (en) Information processing apparatus
JP4741363B2 (en) Image processing apparatus, image processing method, and image processing program
US11438477B2 (en) Information processing device, information processing system and computer readable medium
JP6606885B2 (en) Image processing apparatus and image processing program
CN117475453B (en) Document detection method and device based on OCR and electronic equipment
JP6682827B2 (en) Information processing apparatus and information processing program
US20220398376A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
US20250265856A1 (en) Image processing system

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R151 Written notification of patent or utility model registration

Ref document number: 7181445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250