JPS58123170A - Character reading method - Google Patents
Character reading methodInfo
- Publication number
- JPS58123170A JPS58123170A JP57004612A JP461282A JPS58123170A JP S58123170 A JPS58123170 A JP S58123170A JP 57004612 A JP57004612 A JP 57004612A JP 461282 A JP461282 A JP 461282A JP S58123170 A JPS58123170 A JP S58123170A
- Authority
- JP
- Japan
- Prior art keywords
- character
- black
- pixels
- characters
- character pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
この発明は、文字線の一部がかすれたりつぶれたりした
低品質の文字を高い精度で読み取ることができる文字読
取方式に関するものである。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a character reading method that can read with high precision low-quality characters in which part of the character line is blurred or crushed.
文字読取方式における読取精度を左右する大きな要因の
一つは、入力される文字の印字品質である。印刷文字で
は活字面の汚損、印字圧不実、インクリボンの浸度むら
などを原因とし、手書文字では筆記用具の不具合、筆記
速度の変動、記入者のくせなどを原因として文字線の一
部がかすれたり、つぶれたりする。特に1ボールペン書
きの手書文字ではボールの回転むらのためにインクが滑
らかに流出せず、文字線のかすれが頻発する。数字の
ONと英字の CIの例を挙げるまでもなく。One of the major factors that influences the reading accuracy in character reading methods is the print quality of input characters. In printed characters, the causes include smearing of the typeface, incorrect printing pressure, and uneven immersion of the ink ribbon, and in handwritten characters, parts of the character lines may be damaged due to problems with the writing utensil, fluctuations in writing speed, and the habits of the person writing. The image becomes blurred or crushed. In particular, in handwritten letters written with a single ballpoint pen, the ink does not flow smoothly due to the uneven rotation of the ball, resulting in frequent blurring of the letter lines. of numbers
There is no need to give examples of CI with ON and English letters.
文字を読み取る際に最も重要となるのは文字線の分離と
結合状態であるため、前記の如く文字線がかすれたり、
つぶれたりした文字の読取精度は大巾に低下するのが普
通である。When reading characters, the most important thing is the separation and combination of the character lines, so as mentioned above, the character lines may become blurred or
It is normal for the reading accuracy of characters that are crushed or crushed to be greatly reduced.
従来、この種の低品質の文字を読み取る目的で、文字パ
ターンの平均濃度レベル、平均線幅及び文字走査方向K
Gつた一次元の局所コントラストなもとにして計算した
閾値な用いて入力文字パターンを黒画素と白画素の2値
に変換して文字を読み取る方式が提案された。これは基
本的で優れた方式であり、インクの飛沫で発生したノイ
ズを含む印刷文字とか、つぶれが発生しやすい印刷文字
の小文字にも効果を発揮する。しかし、これは主に印刷
文字の読職精度を向上させる目的で考え出された方式で
あるために同一文字パターン内の濃度レベルや線幅の変
動が大きい手書文字にはあまり効果がないという欠点を
有する。Conventionally, for the purpose of reading this type of low-quality characters, the average density level, average line width, and character scanning direction K of the character pattern are
A method has been proposed in which characters are read by converting input character patterns into binary values of black pixels and white pixels using a threshold value calculated based on one-dimensional local contrast. This is a basic and excellent method, and is effective for printed characters that contain noise caused by ink droplets, and for lowercase printed characters that are prone to smearing. However, because this method was devised primarily to improve the reading accuracy of printed characters, it is not very effective for handwritten characters that have large variations in density level and line width within the same character pattern. It has its drawbacks.
上記欠点を解決する目的で提案された他の方式は、2次
元の局所コントラストを利用するものである。つまり、
2次元の地理平面内の1画素の濃度レベルとその近傍の
画素の濃度レベルとの差が所定の閾値以上の場合には、
対象となる中心の画素を黒−素とし、それ以外の場合に
は白画素とする。コントラストを利用する9は自然な発
想であり、濃度レベルの低い文字線部とか比較的濃度レ
ベルの高いつぶれ部分に対し【も効果がある。しかし、
この方式では文字線の部分KII[むらがある場合には
文字線内部の一部を白画素と判定したり、5すい汚れが
強調されてはっきりとした黒画素と判定されたりする欠
点がある。Another method that has been proposed to overcome the above drawbacks is to utilize two-dimensional local contrast. In other words,
If the difference between the density level of one pixel in a two-dimensional geographic plane and the density level of its neighboring pixels is greater than or equal to a predetermined threshold,
The center pixel of interest is defined as a black pixel, and the other pixels are defined as white pixels. 9, which uses contrast, is a natural idea, and is also effective for text line areas with low density levels and crushed areas with relatively high density levels. but,
This method has the drawback that if there is unevenness in the character line part KII, a part of the inside of the character line may be determined to be a white pixel, or the pentagram stain may be emphasized and determined to be a clearly black pixel.
また、従来提案された他の方式では、111度レベルの
高い閾値と低い閾値という2種類の閾値な設け、高い閾
値で2値化して黒画素と判定された画素に連結し、かつ
低い閾値で黒画素と判定された画素を黒画素としている
。この方式では、文字から離れた孤立ノイズを除去しや
すく、文字線のかすれKも効果があるという特長を有す
るが、文字と結合したノイズの除去が困難である上、文
字纏りつぶれに弱いという欠点がある。4IIC,低い
閾値の設定が困難であり、これを高くするとかすれに弱
くなり、低くするとつぶれに弱くなる。特に低品質の文
字では、文字線のかすれ部分よりもつぶれ部分の方が濃
度レベルが高い場合も多々発生するために、この方式で
は両者を正しく白黒に2値化することは不可能である。In addition, in other conventionally proposed methods, two types of thresholds are provided, a high threshold and a low threshold at the 111 degree level, and the high threshold is used to binarize and connect to pixels determined to be black pixels, and the low threshold is used to connect to pixels determined to be black pixels. A pixel determined to be a black pixel is defined as a black pixel. This method has the advantage that it is easy to remove isolated noise that is far from characters, and is also effective against blurred character lines, but it is difficult to remove noise that is combined with characters, and it is vulnerable to characters being cluttered together. There are drawbacks. 4IIC, it is difficult to set a low threshold value; if it is set high, it becomes weak against blurring, and when it is set low, it becomes weak against blurring. Particularly in the case of low-quality characters, the density level of the blurred portions of the character lines is often higher than that of the faded portions, so it is impossible to correctly binarize both into black and white using this method.
以上述べた如(、従来提案された各種の文字読取方式に
は1つまたはそれ以上の欠点がある。これら各種の方式
に共通し【いるのは、文字は文字纏で構成されていると
いう事実を全くあるいは充分に反映させていないことで
ある。前述の如く、文字情報の本質は文字線の連結と分
離形態にあり、文字線の巾などは第2義的事項である以
上、かすれ部分は黒画素と判定し、つぶれ部分は白画素
と判定することkよつ【文字線の正しい連結関係を保証
できる文字読取方式であらねばならない。そのためには
、文字パターンは一般の図形とは異なり、文字線で構成
された特殊なパターンであるという情報を利用した方式
とすべきである。As mentioned above, the various character reading methods that have been proposed so far have one or more drawbacks. As mentioned above, the essence of character information lies in the connection and separation of character lines, and the width of character lines is a secondary matter, so blurred parts are [The character reading method must be able to guarantee the correct connection of character lines. To achieve this, character patterns, unlike ordinary figures, must be recognized as black pixels and as white pixels. The method should utilize the information that it is a special pattern composed of character lines.
この発明は、このような点に鑑みてなされたもので、そ
の目的は、低い閾値で求めた2値化パターンをある条件
のもとで細線化した後に局所処理によって黒画素が文字
線の一部であるか否かを調べることによって、文字線部
分のみを確実に検出し、低品質な文字を高い精度で読み
取る文字読取方式を提供することにある。This invention was made in view of these points, and its purpose is to thin a binarized pattern obtained using a low threshold under certain conditions, and then perform local processing to make black pixels line up with character lines. It is an object of the present invention to provide a character reading method that reliably detects only character line portions and reads low-quality characters with high accuracy by checking whether or not they are part of the text.
以下図面を用いてこの発明の一実施例を詳細に説明する
。An embodiment of the present invention will be described in detail below with reference to the drawings.
第1図は紙などの記録媒体(1) K手で書かれた数字
8〃の文字パターン(2)の−例であり、(2m)と
(2b)は記録媒体(1)上の汚れやゴミなどによって
発生したノイズである。ノイズ(2a)は文字線上に位
置し、ノイズ(2b)は文字線とは離れた位置に存在す
る。Figure 1 is an example of the character pattern (2) of the number 8 written on a recording medium (1) such as paper, and (2m) and (2b) are dirt and stains on the recording medium (1). This is noise generated by dust, etc. Noise (2a) is located on the character line, and noise (2b) is located away from the character line.
また、この文字パター/(2)は、字形、印字品質共に
極めて劣悪であり、右上部ではかすれており、下部のル
ープ部分はつぶれているため、従来より公知の方式では
、ノイズ(2a) e (2b)を除去す条と共に、か
すれ部分が切断されず、ループ部分がつぶれないように
することは非常に困難であるが、この発明の効果を明ら
かにするには最適な文字パターンの一例である。In addition, this character pattern/(2) has extremely poor character shape and printing quality, and the upper right corner is faded and the lower loop part is crushed. It is very difficult to prevent the faded parts from being cut and the loop parts from being crushed together with the strips for removing (2b), but this is an example of the optimal character pattern to demonstrate the effects of this invention. be.
第2図は、第1図の文字パターン(2)の濃度レベルを
16段階で表示した多値文字パターン(3)である。FIG. 2 shows a multivalued character pattern (3) in which the density levels of the character pattern (2) in FIG. 1 are displayed in 16 levels.
濃度レベルは、0〜99.A〜Fの16進数で表現して
おり、Fが最高員度レベルであり、0は最低濃度レベル
である。但し、図を見易くするためkOは空白で置き換
え【いる。Concentration levels range from 0 to 99. It is expressed in hexadecimal numbers from A to F, where F is the highest density level and 0 is the lowest density level. However, to make the figure easier to read, kO is replaced with a blank space.
第3図は、前記多値文字パターン(3)を低い闇値TH
tで2値化した2億文字パターン(4)である。この例
では、THL=2とし、THL以上の濃度レベルを有す
る画素を黒画素とし、それ以外を白画素としている。第
3図に示す如く、今後断わりのない限り黒画素はX印で
表現し、白画素は空白で表わす。2億文字パターン(4
)は、閾値を低い値にしたために、右上部のかすれ部分
はつながっているが、下部のループはつぶれ、ノイズ(
4a)j (4b)もはっきり現われている。FIG. 3 shows the multivalued character pattern (3) with a low darkness value TH.
This is a 200 million character pattern (4) binarized with t. In this example, THL=2, pixels having a density level equal to or higher than THL are defined as black pixels, and other pixels are defined as white pixels. As shown in FIG. 3, unless otherwise specified, black pixels are represented by X marks, and white pixels are represented by blank spaces. 200 million character patterns (4
), because the threshold was set to a low value, the blurred part at the top right is connected, but the loop at the bottom is collapsed and noise (
4a)j (4b) also appears clearly.
第4図は、前記多値文字パターン(3)を高い閾値TH
Hで2値化した2億文字パターン(5)である。この例
では’rHH=5とし、THH以上の濃度レベルを有す
る画素を黒画素とし、それ以外を白画素としている。2
億文字パターン(5)は、閾値を高い値にしたために、
ノイズは除去され下部のループもはっきり現われてはい
るが、上部のかすれ部分が切断されてしまっている。FIG. 4 shows the multivalued character pattern (3) at a high threshold TH.
This is a 200 million character pattern (5) binarized with H. In this example, 'rHH=5, pixels having a density level equal to or higher than THH are defined as black pixels, and the others are defined as white pixels. 2
Billion character pattern (5) has a high threshold value, so
Although the noise has been removed and the loop at the bottom is clearly visible, the faint part at the top has been cut off.
第5図は、この発明で提案する方式に従って、前記2値
文字パターン(4)にll1A線化処理を行った細線文
字パターン(6)である。細線化処理は、この種E、S
、Deutschの手法(Thinning algo
rithms on rec−1angular、he
xagonal、and triangular
arrays ’、 Com −munica
tions of the ACM 、 V(11,
15,fJn 9. pp、827−837(1972
)、)を用いることで実現できる。ただ、ここで目的と
するところは、線幅がlii素の繍纏パターンを求める
ことではなく、文字線の連結状態を保持しながらノイズ
などを除去することにあるので、上記細線化手法に以下
の変更を行っている。FIG. 5 shows a thin line character pattern (6) obtained by performing ll1A line processing on the binary character pattern (4) according to the method proposed by the present invention. The thinning process is performed using this kind of E, S
, Deutsch's method (Thinning algo
rithms on rec-1 angular, he
xagonal, and triangular
arrays', Com-munica
tions of the ACM, V(11,
15, fJn 9. pp. 827-837 (1972
), ) can be used. However, the purpose here is not to obtain a embroidery pattern with a line width of lii elements, but to remove noise while maintaining the connected state of character lines, so the above line thinning method is as follows. changes are being made.
(1)削り取る黒画素は、濃度レベルがTHH未溝の画
素のみとする。(1) The black pixels to be removed are only pixels whose density level is not THH grooved.
(2)端点保存条件は除去する。(2) Remove the endpoint preservation condition.
(3)孤立点保存条件も除去する。(3) Also remove the isolated point preservation condition.
(4)llt度レベルの低い画素から順次細線化する。(4) Lines are sequentially thinned starting from the pixels with the lowest degree level.
なお、上記の第4項は、文字線の濃度レベルの尾根部分
を黒画素として残すことkよって、字形の変形を防止す
るため□”め変更点である細線文字パターン(6)の0
印は、濃度レベルがTHH未満の黒画素であり、右上部
のかすれ部分の画素(6a)は文字線の連結性を保存す
るために削り取られず、下部のループ内の画素(6b)
は文字線内の画素であるために黒画素のままで保存され
る。2種のノイズに関しては、端点と孤立点の保存条件
をはずしたために1両者共に削除され【いる。従つ【、
この細線文字パターン(6)の下部のループ内の黒画素
(6b)を白画素に変換することができれば、この発明
の目的は達成されることになる。黒画素(6a) e
(6b)は、濃度勾配の尾根と谷の部分に位置するので
、これらの画素が白画素か黒画素かを判定するには、そ
の画素と近傍画素のコントラストを調べるのが最適であ
る。従来技術の説明で述べたよ5に、文字パターン全体
を単純にコントラストを用いて白黒に判定しようとする
と濃度むらなどによって種種の欠点が生じるが、この場
合のように濃度勾配の尾根と谷の部分に限定して使用す
れば前述した如き欠点は発生せず、大きな効果をもたら
す。Note that the above item 4 is to leave the ridge part of the density level of the character line as a black pixel, so that the 0 of the thin line character pattern (6), which is a change point, is □'' to prevent deformation of the character shape.
The mark is a black pixel with a density level below THH, the pixel in the upper right faded part (6a) is not scraped off to preserve the connectivity of the character line, and the pixel in the lower loop (6b)
Since it is a pixel within the character line, it is saved as a black pixel. Regarding the two types of noise, both of them were deleted because the preservation conditions for end points and isolated points were removed. follow [,
If the black pixels (6b) in the lower loop of this thin line character pattern (6) can be converted to white pixels, the object of the invention will be achieved. Black pixel (6a) e
Since the pixels (6b) are located at the ridges and valleys of the density gradient, the best way to determine whether these pixels are white or black pixels is to examine the contrast between the pixels and neighboring pixels. As mentioned in the explanation of the prior art, if you try to judge the entire character pattern as black and white simply by using contrast, various defects will occur due to density unevenness. If it is used only for a limited time, the above-mentioned drawbacks will not occur and great effects will be brought about.
第6図は、コントラストを調べるための局所処理用マス
クの一例である。中心画素をXOとし、X。FIG. 6 is an example of a local processing mask for examining contrast. Let the center pixel be XO.
からチェス盤距離で2離れた16個の画素をX1% x
tsで表現している。コントラス)!求める方法に関し
ても穫々の方法が提案されているが、ここでは、濃度む
らの影響を避けるために1一つの実施例として次の方法
を用いる。勿論、この発明が以下の方法y:、@定され
るものではない。16 pixels 2 chessboard distance apart from x1% x
It is expressed as ts. contrast)! Many methods have been proposed for the determination, but here, in order to avoid the influence of density unevenness, the following method is used as an example. Of course, the present invention is not limited to the following method.
コントラス)Cを代数的に下式で**する。Contrast) C is algebraically ** using the following formula.
C=*!s((!Z(1+β5r)−Σf(Zat4)
シー1
但し、χ0は画素Xoの濃度レベル、χ4(A=l〜1
6)は画素X1〜x16の濃度レベル、α、β、rは非
負の定数である。mis (αχ。+βsr)は、第7
図に示す関数値であり、Σf(χ0,4)は画素X1〜
X1・の白画素X。C=*! s((!Z(1+β5r)−Σf(Zat4)
C1 However, χ0 is the density level of pixel Xo, χ4 (A=l~1
6) is the density level of pixels X1 to x16, and α, β, and r are non-negative constants. mis (αχ.+βsr) is the seventh
It is the function value shown in the figure, and Σf(χ0,4) is the pixel X1~
White pixel X of X1.
−j
の濃度レベルより高い画素の数であるから、コントラス
トCは濃度勾配の谷では小さい値となり、尾根では大き
な値となる。従って、コントラストCが所定の値1以上
なら画素Xoは黒画素のまま残し、それ以外なら画素X
、を白画素に変換する。定数α、βer*aは実際の文
字パターンに当てはめ″C夷験的に最適値を選ぶ性質の
ものである。また、第6図に示したコントラストを求め
るための局所処理用マスクの大きさは、平均文字線幅を
参照にして決めるもので、例えば、マスクの一辺の大き
さが平均文字線幅+2となるように決める。Since the number of pixels is higher than the density level -j, the contrast C has a small value at the valley of the density gradient and a large value at the ridge. Therefore, if the contrast C is a predetermined value of 1 or more, the pixel Xo remains as a black pixel; otherwise, the pixel
, is converted into a white pixel. The constants α and βer*a have the property of selecting the optimum values empirically by applying them to the actual character pattern.Also, the size of the local processing mask for determining the contrast shown in Figure 6 is , and is determined by referring to the average character line width. For example, the size of one side of the mask is determined to be the average character line width + 2.
第8図は、前記定数なα=1.β冨6.γ=9゜δ=4
と設定し、細線文字パターン(6)の黒画素(6a)
*(6b)を再判定した結果得られた最終的な文字パタ
ーンである。黒画素(6a)は尾根部に位置するために
コントラストCは6以上となって黒画素のままで残るが
、黒画素(6b)は谷部に位置するためにコントラスト
Cは2以下となり白画素に変換される。FIG. 8 shows the constant α=1. β-Tomi6. γ=9°δ=4
and black pixel (6a) of thin line character pattern (6)
*This is the final character pattern obtained as a result of re-judging (6b). Since the black pixel (6a) is located in the ridge, the contrast C becomes 6 or more and remains a black pixel, but the black pixel (6b) is located in the valley, so the contrast C becomes 2 or less and it remains a white pixel. is converted to
以上の結果、最終的に得られる文字パターンは、ノイズ
がなく、かすれ部分は切断されず、つぶれ部分もはっき
り分離された良品質なものに改善される。As a result of the above, the final character pattern obtained is improved to be of high quality, with no noise, faded portions not being cut, and crushed portions clearly separated.
第9図は、以上の処理手順を理解しやすいよ5にプログ
ラミングの見地から!、キ流れ図で表わしたものである
。Figure 9 makes it easier to understand the above processing steps from a programming perspective! , is expressed as a flowchart.
すなわち、ステップ翰で文字を走査して光電変換して得
られた多値レベルの文字パターンを低い閾値THbで2
値化し、ステップC!υで2値化パターンの平均線幅が
設定値になるような高い閾値THHを決定し、ステップ
(2)で高い閾値781未満の黒画素を対象に細線化し
、ステップ(ハ)で濃度レベル〈THHを満足する黒画
素が存在するか否かを判断し、ノーであれば終了し、イ
エスであれば上記条件を満足する黒画素の正当性を局所
処理で再判定して終了する。In other words, the multilevel character pattern obtained by scanning the character with a stepper and photoelectrically converting it is
Value it, step C! In υ, a high threshold value THH is determined so that the average line width of the binarized pattern becomes the set value, in step (2), black pixels below the high threshold value 781 are thinned, and in step (c), the density level It is determined whether or not there is a black pixel that satisfies THH, and if no, the process ends; if yes, the validity of the black pixel that satisfies the above condition is re-determined by local processing, and the process ends.
読取る文字の大部分を占める良品質の文字パターンは、
細線化後に濃度レベルがTHH未満となる黒画素が存在
することは少な(、その場合にはコントラストなどを利
用した局所処理が不要となり処理時間が改善される。High-quality character patterns make up the majority of the characters read.
There are few black pixels whose density level is less than THH after line thinning (in that case, local processing using contrast or the like becomes unnecessary and the processing time is improved.
次k、2種の閾値THL、 THHの選択法に関して述
べる。この発明の特性から、前記閾値決定自由度は大き
く、文字品質にかかわらず比較的自由に閾値を決定でき
るが、低い閾値THLは、文字線のかすれ部の濃度レベ
ルより低く且つ汚れやゴミのない記録媒体自体の濃度レ
ベルより高い値とする。Next, we will discuss how to select the two threshold values THL and THH. Due to the characteristics of this invention, the degree of freedom in determining the threshold value is large, and the threshold value can be determined relatively freely regardless of character quality. However, the low threshold value THL is lower than the density level of the faded part of the character line and is free from dirt and dust. A value higher than the density level of the recording medium itself.
この値は、適当な数の文字パターンを調べることで簡単
に求め得る。This value can be easily determined by examining an appropriate number of character patterns.
高い閾値THHは、文字線のつぶれ部や2本の平行線の
接触部の濃度レベルより高(且つ文字線の消失が起らな
い程度の値にしなければならない。The high threshold value THH must be set higher than the density level of a collapsed portion of a character line or a contact portion of two parallel lines (and a value that does not cause the character line to disappear).
あまりに高い値にすると、細線化処理において端点保存
条件を削除しているので文字パターンが縮退し、文字線
が消失する可能性がある。THHを決定する優れた方法
は、第4図に示した2億文字パターン(5)の平均線幅
曽を測定し、この替が所定の平均線幅W、すなわち設定
値Wに最も近い値となるように’rHHを決定する方法
である。つまり、THHを変化させてWと讐の差d =
lW −wlが最小となる’rHiiを求める。第10
図は、これをプログラミングの見地から流れ図で表わし
たものである。すなわち、ステップ(至)でdを充分に
大きい値とする、ステップ6υで’rHt、をTHHと
し、このTHHを用いてステップ(2)で2値化する。If the value is set too high, the character pattern may degenerate and the character line may disappear because the end point preservation condition is deleted in the line thinning process. An excellent method for determining THH is to measure the average line width Z of the 200 million character pattern (5) shown in Figure 4, and then determine whether this value is the closest to the predetermined average line width W, i.e. the set value W. This is the method of determining 'rHH. In other words, by changing THH, the difference between W and d =
Find 'rHii that minimizes lW - wl. 10th
The figure represents this as a flowchart from a programming standpoint. That is, in step (to), d is set to a sufficiently large value, 'rHt is set to THH in step 6υ, and this THH is used to perform binarization in step (2).
ステップ(至)で平均線幅W全測定し、ステツ104)
でIW−wlくdを判断する。At step (to), measure the average line width W, step 104)
Then, determine IW-wlkud.
l W −w l < dがイエスならば、ステップ(
至)でIw−vlをdとし、ステップ(至)でTHHに
1を加えたものをTHHとしてステップ(至)に戻る。If l W −w l < d is yes, step (
In step (to), Iw−vl is set to d, and in step (to), the value obtained by adding 1 to THH is set as THH, and the process returns to step (to).
以下、ステップ關、ステップ(ロ)へ進む手順を繰り返
す。ステップ(ロ)でIW−mlくdがノーならばステ
ップ(ロ)でTHiiから1を引いたものをTHHとし
て終了する。平均線幅の求め方は、この種技術分野の技
術者にとっては周知の技術であり、例えば、M、R,B
artzの手法(”The I BM 1975 ?T
ptical Page Reader 、 Part
II :Video thre@holding S
ystem ’、 IBM Res、 Develop
。Hereafter, repeat the procedure of proceeding to Step 9 and Step (B). If IW-ml-d is NO in step (B), then in step (B) the result obtained by subtracting 1 from THii is set as THH and the process ends. The method for determining the average line width is a well-known technique for engineers in this type of technical field.
Artz's method ("The I BM 1975?T
ptical Page Reader, Part
II :Video thre@holding S
system', IBM Res, Develop
.
pp、 354−363 < 1968 )、)を用い
ることで実現できる。This can be achieved by using the following: pp. 354-363 < 1968).
また、高い閾値THHの決め方の別の例として次のよう
にしてもよい。すなわち、第2図に示した多値の文字パ
ターンの平均濃度■から次のようKして求める。Furthermore, another example of how to determine the high threshold value THH may be as follows. That is, it is determined by K as follows from the average density ■ of the multivalued character pattern shown in FIG.
THH=−1−V−b ここでa、bは定数で、■は次式で与えられる。THH=-1-V-b Here, a and b are constants, and ■ is given by the following formula.
−Σ■L
V=−
■は濃度レベルが0でない点の濃度レベルで、Nはその
個数である。第2図では、V−5,4となる。-Σ■L V=- (2) is the density level of a point whose density level is not 0, and N is the number thereof. In FIG. 2, it is V-5.4.
この例では、B = 1.5 、 b−3としたが、こ
れも前記α、β、γ、δと同様実験的に求めるべきであ
る。In this example, B = 1.5, b-3, but this should also be determined experimentally like the above-mentioned α, β, γ, and δ.
第11図はこの発明を実施するための装置の構成例であ
る。ここで、(7)は走査装置、(8)は多値文字パタ
ーンを格納する第1の記憶装置、(9)は2値化装置、
αqは高い閾値決定装置、α瑯は2値文字パターンを格
納する第2の記憶装置、(ロ)は細線化装置。FIG. 11 shows an example of the configuration of an apparatus for carrying out the present invention. Here, (7) is a scanning device, (8) is a first storage device that stores a multivalued character pattern, (9) is a binarization device,
αq is a high threshold value determining device, αq is a second storage device for storing binary character patterns, and (b) is a thinning device.
(至)は細線化された文字パターンを格納する第3の記
憶装置、α◆は局所処理装置、(ト)は文字名を決定す
る認識論理装置である。記録媒体(1)上の文字パター
ン(2)は、ランプ、レンズ、半導体光センサ(図示せ
ず)で構成された走査装置(7)Kよって濃度に比例し
た電気信号に変換された後、濃度レベルを表わす16段
階のディジタル信号に変えられ(第1の記憶装置(8)
に転送される。2値化装置(9)は、前記第1の記憶装
置(8)内の多値文字パターン(3)を低い閾値’l”
HLで白黒の2億忙変換し、第2の記憶装置αQK送る
。細線処理装置(ロ)は1、前記第2の記憶装置(ト)
内の2値文字パターン(4)と第1の記憶装fill(
8)の多値文字パターン(3)とを用い【高い閾値決定
装置(ト)で決定された高い閾値THi未満の黒画素す
る。次k、局所処理装置a◆が、前記第3の記憶装置α
場内の細線文字パターン(6)の閾値THH未満の黒画
素を対象に、第1の記憶装置(8)内の多値文字パター
ン(3)を参照にしてコントラスト情報などを求め、前
記黒画素の正当性を再判定する。以上の処理で得られた
最終的な文字パターンは認識論理装置(2)kよってそ
の文字名が決定される。(to) is a third storage device that stores thinned character patterns, α◆ is a local processing device, and (g) is a recognition logic device that determines character names. The character pattern (2) on the recording medium (1) is converted into an electric signal proportional to the density by a scanning device (7) K composed of a lamp, a lens, and a semiconductor optical sensor (not shown). It is converted into a 16-step digital signal representing the level (first storage device (8)
will be forwarded to. The binarization device (9) converts the multivalued character pattern (3) in the first storage device (8) to a low threshold 'l'.
Convert 200 million black and white images using HL and send to the second storage device αQK. The thin line processing device (b) is 1, and the second storage device (g) is
The binary character pattern (4) in the first memory device fill (
Using the multi-value character pattern (3) of 8), black pixels below the high threshold value THi determined by the high threshold value determination device (g) are determined. Next k, the local processing device a◆ is connected to the third storage device α
Contrast information, etc., is obtained by referring to the multi-valued character pattern (3) in the first storage device (8), targeting black pixels of less than the threshold THH of the thin line character pattern (6) in the field, and Re-evaluate validity. The character name of the final character pattern obtained through the above processing is determined by the recognition logic device (2)k.
なお、以上は2値化装置、細線化装置9局所処理装置な
ど、それぞれ個々に単独の処理を行う装置を組合せた場
合について説明したが、この発明はこれに限らずこれら
の一部あるいは全てを汎用の演算処理装置で処理しても
よい。In addition, although the case where the binarization device, the thinning device 9 local processing device, and other devices that individually perform independent processing are combined is described above, the present invention is not limited to this, and can be applied to some or all of these devices. It may be processed by a general-purpose arithmetic processing device.
また、以上では手書文字の場合について説明したが、印
刷文字あるいは文字と類似した記号の読み取りに使用し
てもよい。Moreover, although the case of handwritten characters has been described above, it may also be used to read printed characters or symbols similar to characters.
以上のように、この発明に係る文字読取方式では、低い
閾値で求めた2値文字パター7の黒画素 □の内、
元の多値文字パターンで高い閾値未満の一度を有する黒
画素を細線化し、しかる後にコントラスト情報などを用
いた局所処理によって高い閾値未満の黒画素の妥当性を
再判定するので、文字線の一部がかすれたり、不必要に
接触したり、つぶれたり、あるいはまたノイズが付加し
た低品質の文字も高い精度で読み取れるという大きな利
点がある。As described above, in the character reading method according to the present invention, among the black pixels □ of the binary character pattern 7 obtained using a low threshold value,
In the original multi-valued character pattern, black pixels that are less than a high threshold are thinned, and then the validity of black pixels that are less than a high threshold is re-determined by local processing using contrast information. It has the great advantage of being able to read with high precision even low-quality characters with blurred parts, unnecessary contact, crushing, or noise.
第1図は読み取るべき文字パターンの一例を示す図、第
2図は多値の濃度レベルで表わされた文字パターンを示
す図、第3図は低い閾値で2値化された文字パターンを
示す図、第4図は高い閾値で2値化された文字パターン
を示す図、第5図は細線化された文字パターンを示す図
、第6図は局所処理用マスクの一例を示す図、第7図は
コントラスト情報を求めるための関数例を示す図、菖8
図は最終的に得られた文字バター/を示す図、第9図は
処理手続きの流れ図、第10図は文字の平均線幅を求め
る処理の流れ図、第11図は装置の構成例を示すブロッ
ク図である。
図中、(1)は記録媒体、(2)は文字のパターン、(
3)は多値文字パターン、(4)はTHLで2値化した
文字パターン、(5)はTHHで2値化した文字パター
ン。
(6)は細線文字パターン、(7)は走査装置、(8)
は第1の記憶装置、(9)は2値化装置、(ト)は高い
閾値決定装置、α力は第2の記憶装置、(2)は細線化
装置、(2)は第3の記憶装置、α◆は局所処理装置、
(至)は認識論理装置である。
なお、図中、同一あるいは相当部分には同一符号を付し
て示しである。
代理人 葛野信−
第2図
322222 1
3C6224A!1
4D4 141
D33C5
32
第31!I
XXXX X×
第6図
第7図
第8図
xx×
第9図
第10図
433−Figure 1 shows an example of a character pattern to be read, Figure 2 shows a character pattern expressed in multilevel density levels, and Figure 3 shows a character pattern binarized with a low threshold. 4 is a diagram showing a character pattern binarized with a high threshold value, FIG. 5 is a diagram showing a thinned character pattern, FIG. 6 is a diagram showing an example of a local processing mask, and FIG. 7 is a diagram showing an example of a mask for local processing. The figure shows an example of a function for obtaining contrast information.
The figure shows the finally obtained character butter /, Figure 9 is a flowchart of the processing procedure, Figure 10 is a flowchart of the process for determining the average line width of characters, and Figure 11 is a block diagram showing an example of the configuration of the device. It is a diagram. In the figure, (1) is the recording medium, (2) is the character pattern, (
3) is a multivalued character pattern, (4) is a character pattern binarized using THL, and (5) is a character pattern binarized using THH. (6) is a thin line character pattern, (7) is a scanning device, (8)
is the first storage device, (9) is the binarization device, (g) is the high threshold value determination device, α force is the second storage device, (2) is the thinning device, (2) is the third storage device, α◆ is local processing device,
(to) is a recognition logic device. In the drawings, the same or corresponding parts are designated by the same reference numerals. Agent Makoto Kuzuno - Figure 2 322222 1 3C6224A! 1 4D4 141 D33C5 32 31st! I XXXX X× Figure 6 Figure 7 Figure 8 xx Figure 9 Figure 10 433-
Claims (1)
取方式において、文字を走査して光電変換する走査手段
と、前記走査手段で得られた多値レベルの文字パターン
を、低い閾値で白黒に2値化する2値化手段と、文字の
2億パターンの平均線輪が所定の値になるような高い閾
値を決定する閾値決定手段と、前記2値化手段で黒と判
定されたlI&li素に関して前記高い閾値未満の濃度
レベルを有する黒画素のみを白画素に変換する1111
111化手段と、細線化されたパターンのうち前記高い
閾値未満の濃度レベルを有する黒画素を対象とし、黒画
素及びその近傍画素の濃度レベルから前記黒画素を白と
すべきか黒とすべきかを再判定する局所処理手段とを具
備することを特徴とする文字読取方式。In a character reading method that reads characters recorded on a recording medium such as a form, a scanning means scans the characters and converts them photoelectrically, and a multilevel character pattern obtained by the scanning means is converted into black and white using a low threshold. A binarization means for digitizing, a threshold determining means for determining a high threshold such that the average line ring of 200 million patterns of characters becomes a predetermined value, and regarding the lI & li elements determined to be black by the binarization means. converting only black pixels having density levels below the high threshold into white pixels 1111;
111 conversion means, and targets black pixels having a density level below the high threshold value in the thinned pattern, and determines whether the black pixel should be made white or black based on the density levels of the black pixel and its neighboring pixels. A character reading method characterized by comprising a local processing means for redetermining.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57004612A JPS58123170A (en) | 1982-01-14 | 1982-01-14 | Character reading method |
| US06/447,828 US4520505A (en) | 1981-12-23 | 1982-12-08 | Character reading device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57004612A JPS58123170A (en) | 1982-01-14 | 1982-01-14 | Character reading method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS58123170A true JPS58123170A (en) | 1983-07-22 |
Family
ID=11588870
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57004612A Pending JPS58123170A (en) | 1981-12-23 | 1982-01-14 | Character reading method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58123170A (en) |
-
1982
- 1982-01-14 JP JP57004612A patent/JPS58123170A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7751648B2 (en) | Image processing apparatus, image processing method, and computer program | |
| JP3904840B2 (en) | Ruled line extraction device for extracting ruled lines from multi-valued images | |
| US9158986B2 (en) | Character segmentation device and character segmentation method | |
| CN102592126B (en) | For the method for binaryzation scanning document image | |
| US8306325B2 (en) | Text character identification system and method thereof | |
| US4520505A (en) | Character reading device | |
| US3688266A (en) | Preprocessing system for pattern recognition | |
| JP4049560B2 (en) | Halftone dot removal method and system | |
| US20140086473A1 (en) | Image processing device, an image processing method and a program to be used to implement the image processing | |
| US7221795B2 (en) | Document processing method, recording medium having recorded thereon document processing program, document processing program, document processing apparatus, and character-input document | |
| US7142733B1 (en) | Document processing method, recording medium recording document processing program and document processing device | |
| JPS58123170A (en) | Character reading method | |
| JPS58109979A (en) | Character reader | |
| JP2008205919A (en) | Image processor and image processing method | |
| JP3756660B2 (en) | Image recognition method, apparatus and recording medium | |
| JPH09238256A (en) | Image processing method and image processing apparatus | |
| JP2006092345A (en) | Equipment, method, and program for character recognition | |
| JPS58159185A (en) | Character reading method | |
| JPS6227887A (en) | Character type separation method | |
| JP4738645B2 (en) | SHADED AREA DETECTING DEVICE, SHATTERED AREA DETECTING METHOD, PROGRAM, AND STORAGE MEDIUM | |
| JPH0119193B2 (en) | ||
| JP2009272714A (en) | Image processing apparatus, image processing method, program, and recording medium with the program stored | |
| JPS58158775A (en) | Character reading device | |
| JP2936766B2 (en) | Image input device | |
| JPH0877292A (en) | Image processor |