JPH01280887A - Character recognition method - Google Patents
Character recognition methodInfo
- Publication number
- JPH01280887A JPH01280887A JP63225724A JP22572488A JPH01280887A JP H01280887 A JPH01280887 A JP H01280887A JP 63225724 A JP63225724 A JP 63225724A JP 22572488 A JP22572488 A JP 22572488A JP H01280887 A JPH01280887 A JP H01280887A
- Authority
- JP
- Japan
- Prior art keywords
- character
- characters
- recognition
- data
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000003287 optical effect Effects 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、紙面上に書かれた文書を画像として入力する
ことにより、文書画像から文字領域を捜し出しコート番
号に変換する文字認識装置の文字認識方法に関する。[Detailed Description of the Invention] [Field of Industrial Application] The present invention is a character recognition device that inputs a document written on paper as an image, searches for a character area from the document image, and converts it into a code number. Regarding recognition methods.
近年、文字認識装置の急激なる進歩により、さまざまな
文書画像から文字領域を自動的に抽出し、さらに一つ一
つの文字を切り出し、認識し、自動的に文書ファイルが
作成できるようになってきており、文字の認識方法はさ
まざまな方法が考え出されてきている。In recent years, rapid advances in character recognition devices have made it possible to automatically extract character areas from various document images, cut out and recognize individual characters, and automatically create document files. Various methods have been devised to recognize characters.
例えば、文字認識方法の一つとしてメツシュ特徴(研究
実用化報告、第34巻、第1号、P、 P。For example, as one of the character recognition methods, mesh features (Research and Practical Application Report, Vol. 34, No. 1, P, P.
47〜57)がある。該方法は、文字全体の大まかな針
状分布を表現したものである。特徴の抽出方法は、文字
の外接矩形を分割してnXnの小領域を求める。該各々
の小領域に含まれる文字部の面積を計数してメツシュ特
徴とする。該メツシュ特徴は、一つの文字につきnxn
コのデータを持っており、nXnコのうらにある領域に
おける文字部の面積の割合を辞書として所有しているデ
ータと比較することによって文字の推定が可能となる。47-57). This method expresses the rough needle-like distribution of the entire character. The feature extraction method involves dividing a circumscribed rectangle of a character to obtain nXn small regions. The area of the character part included in each of the small areas is counted and used as a mesh feature. The mesh feature is nxn per character.
The character can be estimated by comparing the ratio of the area of the character part in the area behind nXn with the data held as a dictionary.
また、他の方法として、ペリフェラル特徴(研究実用
化報告、第34巻、第1号、p、 p。In addition, as another method, peripheral characteristics (Research and Practical Application Report, Vol. 34, No. 1, p.
47〜57)がある。該方法は、文字の周辺情報に着目
したものである。特徴の抽出方法は、まず文字パターン
の外接矩形を求め、外接矩形の各辺をそれぞれn分割す
る。次に分割された分割辺から文字に向かって走査して
いき、最初に文字に出合うまでの面積、次に文字に出会
うまでの面積を計数する。各分割辺に対して同様の処理
を行うことにより、nX4X2のデータを持つペリフェ
ラル特徴を得ることかでき、該nX4X2のデータと辞
書とI2て所有しているデータとを比較することによっ
て文字の指定が可能となる。47-57). This method focuses on peripheral information of characters. The feature extraction method first finds a circumscribed rectangle of a character pattern, and divides each side of the circumscribed rectangle into n pieces. Next, it scans toward the characters from the divided side, and counts the area until it encounters the first character, and then the area until it encounters the next character. By performing the same processing on each divided side, it is possible to obtain peripheral features with nX4X2 data, and by comparing the nX4X2 data with the data owned by the dictionary and I2, the character can be specified. becomes possible.
また、上記2つの文字認識方法を始めとする殆どの認識
方法は、認識に入る前に一文字一文字の文字の切り出し
を行っている。−文字一文字の文字の切り出しは、文字
行の垂直方向の周辺分布を;1数し、該周辺分布の情報
及び文字の大きさから一文字一文字の文字の切れ目を推
定し切り出している。Furthermore, most recognition methods, including the above two character recognition methods, cut out each character one by one before starting recognition. - To cut out each character, the vertical peripheral distribution of a character line is counted by 1, and the character break of each character is estimated and cut out from the information on the peripheral distribution and the size of the character.
前記ペリフェラル特徴による文字の認識やメツシュ特徴
による文字の認識方法は、各文字ごとに文字のデータを
所有しており、該データと切り出し文字との比較によっ
て認識を行っているため、文字の針状の変動には非常に
弱いものをもっている。特にメツシュ特徴による認識に
おいては、他の文字が認識対象文字と一緒に切り出され
ると、外接矩形内での文字位置がずれ、全く違う文字と
認識してしまう可能性が大きい。そのために、文字の切
り出しには確実なものが要求される。しかしながら、文
字の切り出しを行う場合、特に欧米の活字印刷文字にお
いては、隣接する文字が連結したものが多く、これらの
文字の切り離しが課題となっている。The character recognition methods using peripheral features and mesh features have character data for each character, and recognition is performed by comparing this data with cut-out characters. It is extremely vulnerable to fluctuations in Particularly in recognition using the mesh feature, if another character is extracted together with the recognition target character, the position of the character within the circumscribed rectangle will shift, and there is a high possibility that the character will be recognized as a completely different character. For this reason, reliable cutting out of characters is required. However, when cutting out characters, there are many cases in which adjacent characters are connected, especially in European and American type printing characters, and separating these characters becomes a problem.
そこで本発明は、以上の様な課題を解決するもので、そ
の目的とするところは、欧米文書等に見られる連結文字
を確実に認識する方法を提供することにある。SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and its purpose is to provide a method for reliably recognizing connected characters found in European and American documents.
本発明の光学的画像入力手段により紙面等に書かれた文
字画像を読み取り、入力された画像データ中の文字を認
識しコード番号に置き換える文字認識方法は、
辞書に複数文字連結文字のデータを有し、該辞書データ
との比較により文字の認識を行うことを特徴とする。The character recognition method of the present invention reads a character image written on paper etc. using an optical image input means, recognizes the characters in the input image data, and replaces them with a code number. It is characterized in that characters are recognized by comparison with the dictionary data.
以下、本発明を実施例に基づいて詳細に説明する。 Hereinafter, the present invention will be explained in detail based on examples.
本発明の文字認識方法は、一般に第3図のブロック図に
示す様なハードウェアにおいて用いられる。該ハードウ
ェアは、認識対象文書画像を入力するための画(象入力
装置34、画像入力装置34によって入力された画像情
報及び演算結果を蓄えるRAM32、演算を実行するC
PU31、文字認識のための辞書データ及び演算のプロ
グラムが納まっているROM33、及び認識結果を表示
するデイスプレィ35によりin成されている。The character recognition method of the present invention is generally used in hardware as shown in the block diagram of FIG. The hardware includes an image input device 34 for inputting a document image to be recognized, a RAM 32 for storing image information input by the image input device 34 and calculation results, and a CPU for executing calculations.
It is comprised of a PU 31, a ROM 33 containing dictionary data and calculation programs for character recognition, and a display 35 for displaying recognition results.
以下、本発明の文字認識方法を第4図に示すフローチャ
ートに従って詳細に説明する。Hereinafter, the character recognition method of the present invention will be explained in detail according to the flowchart shown in FIG.
ブロックAにおいて認識対象となる文字画1象が入力さ
れる。この時、画像入力装置34の読み取り時によって
入力された文字画像はさまざまであるが、通常複数行の
文字画像が入力される。In block A, one character image to be recognized is input. At this time, the input character images vary depending on the time of reading by the image input device 34, but usually a plurality of lines of character images are input.
ブロックBにおいて、文字画像の行方向の周辺分布を計
数する。該周辺分布をみることにより、文字行の位置及
び行幅を知ることができる。また該行幅より、文字のだ
いたいの大きさを推定することができる。In block B, the peripheral distribution of the character image in the row direction is counted. By looking at the peripheral distribution, the position and line width of the character line can be known. Furthermore, the approximate size of the characters can be estimated from the line width.
ブロックCにおいて、ブロックBにおいて抽出された文
字行より文字の抽出を行う。今仮に、ブロックBにおい
て抽出された文字行が第2図21に示すr 1denL
11’1catlonJという14の文字が書かれた画
像であったとする。該文字21から一文字一文字を抽出
する場合、通常第1図22に示す様な文字行と垂直の方
向の周辺分布を計数する。In block C, characters are extracted from the character lines extracted in block B. Now, hypothetically, the character line extracted in block B is r 1denL shown in FIG. 21.
Assume that it is an image in which 14 characters such as 11'1catlonJ are written. When extracting each character from the characters 21, the peripheral distribution in the direction perpendicular to the character line as shown in FIG. 1 is usually counted.
該周辺分布は、文字の有無のみを示すものであり、実際
の周辺分布ではない。該周辺分布に着目することにより
、−文字一文字の文字の位置及び文字幅が分かる。通常
複数の文字が連結した場合には、文字幅が異常に大きく
なるため連続文字と判断し強制切り放しを行うことかで
き、−文字一文字の文字の切り出しが可能となる。とこ
ろが、第2図21に示したrldentINcatlo
nJという文字画像の様に、周辺分布22の結果に従っ
て文字を切り出した場合、7番[1に文字rfJを切り
出すはずが、文字rfiJを切り出してしまう。該文字
「fi」の文字幅は、第2図にも示した様に文字rhJ
と全く同じ幅である。従って、文字幅からrr iJと
いう文字画像は2つの文字であるということは判断でき
ずに認識に進んでしまう。該文字画像の認識を行うと文
字rhJと非常に良く似ているためにhと認識してしま
うことになる。しかし、該文字rfiJを2つの文字と
して切り出すことは全く不可能であり、無理に切り出そ
うとすると正常な文字rhJ も分解してしまう恐れが
ある。そこで本発明ではこの様な文字に対して強制的な
切り離しを行わずに次にブロックDの認識に進む。The marginal distribution only indicates the presence or absence of characters, and is not an actual marginal distribution. By focusing on the peripheral distribution, the position and width of each - character can be found. Normally, when a plurality of characters are connected, the character width becomes abnormally large, so it can be determined that the characters are continuous and the characters can be forcibly cut off, making it possible to cut out a single - character. However, rldentINcatlo shown in FIG.
When characters are cut out according to the result of the marginal distribution 22, like the character image nJ, the character rfJ should be cut out at number 7 [1, but instead the character rfiJ is cut out. The character width of the character “fi” is the character rhJ as shown in Figure 2.
It has exactly the same width. Therefore, recognition proceeds without being able to determine from the character width that the character image rr iJ is two characters. When this character image is recognized, it will be recognized as h because it is very similar to the character rhJ. However, it is completely impossible to cut out the character rfiJ as two characters, and if you try to cut it out by force, there is a risk that the normal character rhJ will also be broken down. Therefore, in the present invention, recognition of block D is proceeded to next without forcibly separating such characters.
ブロックDにおいては、ブロックCにおいて切り出され
た文字の認識を行う。通常の文字の場合は認識は問題な
く行われる。ところが、第2図21の文字rfiJにお
いて文字の認識は不可能であり、たいていの場合rhJ
と認識する。そこで本発明は、認識に用いられる辞書デ
ータ中に、第1図1〜5に示す様な複数文字連結文字の
データを所有する。従って文字の認識を行った場合、文
字rfJ rtJと判断することが可能となり、第2
図21に示した画像を、一つ一つの文字の切り出しが完
全に行われな(でも、正確にr Iacntl[’1c
atlonJと認識することが可能となる。In block D, the characters cut out in block C are recognized. In the case of normal characters, recognition is performed without problems. However, it is impossible to recognize the character rfiJ shown in Figure 2, 21, and in most cases rhJ
I recognize that. Therefore, in the present invention, dictionary data used for recognition includes data of multiple connected characters as shown in FIGS. 1 to 5. Therefore, when character recognition is performed, it is possible to determine the character rfJ rtJ, and the second
In the image shown in Figure 21, each character is not completely cut out (but it is
It becomes possible to recognize it as atlonJ.
以上の様にして文字の認識が終了すると、入力文字画像
のすべての文字の認識が終了するまで、ブロックC1ブ
ロックDの行程、さらにブロックB1ブロックC1ブロ
ックDの行程を繰り返す。When character recognition is completed in the manner described above, the process of block C1 block D and further the process of block B1 block C1 block D is repeated until recognition of all characters in the input character image is completed.
すべての文字の認識が終了すると、ブロックEにおいて
、デイスプレィ35等の表示装置に結果を表示して終了
する。When recognition of all characters is completed, the result is displayed on a display device such as the display 35 in block E, and the process ends.
以上述べた様に本発明によれば認識時に用いられる辞書
中に、第1図1〜5に示した様な複数文字連結文字のデ
ータを、−文字のデータと同様の形で有している。従っ
て本来ならば、第1図1〜5に示した様な文字は文字の
切り出しが失敗し、第1図6.7に示した様なrhJ、
「m」等の文字に間違えてしまうものを正確に複数文字
連結文字と111断し複数の文字の解答を行うことが可
能となる。従って、文字の切り出しの失敗による誤認識
が非常に少くなり、また、文字の切り出しにあまり高度
な技術は要求されなくなり、高速な文字の切り出しが可
能となる。よって本発明は、文字認識装置の信頼性と速
度を多いに向上させるものである。As described above, according to the present invention, the dictionary used at the time of recognition has data for multiple character concatenation characters as shown in FIGS. 1 to 5 in the same form as data for - characters. . Therefore, originally, the characters shown in Figure 1 1 to 5 would fail to be cut out, and rhJ as shown in Figure 1 6.7,
It becomes possible to accurately distinguish characters that are mistaken for letters such as "m" from multi-character concatenated characters, and to give answers for a plurality of characters. Therefore, erroneous recognition due to failure in character extraction is greatly reduced, and highly sophisticated techniques are not required for character extraction, allowing high-speed character extraction. The present invention therefore greatly improves the reliability and speed of character recognition devices.
第1図(a)(b)に本発明の文字認識方法の辞書を示
した図、
第2図に文字切り出し過程を示した図、第3図に本発明
の文字認識方法が用いられる文字認識装置のブロック図
、
第4図に本発明の文字認識方法のフローチャーを示す。
1〜5・・・複数文字連結文字
21・・・・・抽出文字行
22・・・・・文字行垂直方向周辺分布31争・・嗜番
CPU
32・φΦ書・RAM
33・・・・争ROM
34・・・・・画像入力装置
35・・・・・デイスプレィ
A・・・・φブロックA
B・・・・・ブロックB
C・・・・・ブロックC
D會・・・・ブロックD
E・・・・・ブロックE
以上
出願人 セイコーエプソン株式会社
代理人 弁理士 上 t!Ill 雅 誉(池1名)
/ ?
(d) (b)
第1図
第2図
第4図Figure 1 (a) and (b) are diagrams showing the dictionary of the character recognition method of the present invention, Figure 2 is a diagram showing the character extraction process, and Figure 3 is character recognition using the character recognition method of the present invention. A block diagram of the device and a flowchart of the character recognition method of the present invention are shown in FIG. 1 to 5...Multi-character concatenated characters 21...Extracted character line 22...Character line vertical peripheral distribution 31...Set number CPU 32/φΦ book/RAM 33...Dispute ROM 34...Image input device 35...Display A...φBlock A B...Block B C...Block C D Meeting...Block D E ...Block E Applicant Seiko Epson Co., Ltd. Agent Patent Attorney 1 t! Ill Miyabi Homare (Ike 1 person)
/ ? (d) (b) Figure 1 Figure 2 Figure 4
Claims (1)
読み取り、入力された画像データ中の文字を認識しコー
ド番号に置き換える文字認識方法は、 辞書に複数文字連結文字のデータを有し、該辞書データ
との比較により文字の認識を行うことを特徴とする文字
認識方法。[Claims] A character recognition method reads a character image written on paper etc. using an optical image input means, recognizes the characters in the input image data, and replaces them with a code number. 1. A character recognition method comprising data, and character recognition is performed by comparison with the dictionary data.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63225724A JPH01280887A (en) | 1988-01-07 | 1988-09-09 | Character recognition method |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP166588 | 1988-01-07 | ||
| JP63-1665 | 1988-01-07 | ||
| JP63225724A JPH01280887A (en) | 1988-01-07 | 1988-09-09 | Character recognition method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH01280887A true JPH01280887A (en) | 1989-11-13 |
Family
ID=26334937
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63225724A Pending JPH01280887A (en) | 1988-01-07 | 1988-09-09 | Character recognition method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH01280887A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6738519B1 (en) | 1999-06-11 | 2004-05-18 | Nec Corporation | Character recognition apparatus |
-
1988
- 1988-09-09 JP JP63225724A patent/JPH01280887A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6738519B1 (en) | 1999-06-11 | 2004-05-18 | Nec Corporation | Character recognition apparatus |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH05242292A (en) | Separating method | |
| JPH06274680A (en) | Method and system recognizing document | |
| JPH04195692A (en) | document reading device | |
| US5033098A (en) | Method of processing character blocks with optical character reader | |
| JPH01280887A (en) | Character recognition method | |
| JP2976445B2 (en) | Character recognition device | |
| JPS61190679A (en) | Character data processing device | |
| JPH0614373B2 (en) | Character reading method | |
| JP3197441B2 (en) | Character recognition device | |
| JP2728086B2 (en) | Character extraction method | |
| JP2978801B2 (en) | Character input method for handwritten character recognition | |
| JPH02230484A (en) | character recognition device | |
| JPH04130979A (en) | Character picture segmenting method | |
| JP2931485B2 (en) | Character extraction device and method | |
| JPH0281189A (en) | Character recognition method | |
| JP3377719B2 (en) | Character recognition device and computer-readable recording medium | |
| JP2728085B2 (en) | Character extraction method | |
| JPH0281283A (en) | Character recognition method | |
| JPH0576674B2 (en) | ||
| JPH03219384A (en) | Character recognizing device | |
| JPH0436885A (en) | Optical character reader | |
| JPH0351981A (en) | character recognition device | |
| JPH04585A (en) | Method for segmenting character | |
| JPH0368093A (en) | Character recognizing device | |
| JPH07220027A (en) | Method for determining character direction and line direction in character recognition processing device |