[go: up one dir, main page]

JPH05128299A - Character recognition method and device therefor - Google Patents

Character recognition method and device therefor

Info

Publication number
JPH05128299A
JPH05128299A JP3288286A JP28828691A JPH05128299A JP H05128299 A JPH05128299 A JP H05128299A JP 3288286 A JP3288286 A JP 3288286A JP 28828691 A JP28828691 A JP 28828691A JP H05128299 A JPH05128299 A JP H05128299A
Authority
JP
Japan
Prior art keywords
character
recognition
cutout
image original
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3288286A
Other languages
Japanese (ja)
Inventor
Hiroaki Ikeda
裕章 池田
Shugoro Ueno
修五郎 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP3288286A priority Critical patent/JPH05128299A/en
Priority to EP92309572A priority patent/EP0539158A2/en
Priority to EP97203415A priority patent/EP0831418B1/en
Priority to DE69232493T priority patent/DE69232493T2/en
Publication of JPH05128299A publication Critical patent/JPH05128299A/en
Priority to US08/339,879 priority patent/US5684891A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字切り出しの仕方を変え、文字切り出しを
再試行することにより、文字切り出しに起因する誤認識
を減少させる。 【構成】 画像原稿を入力後、文字切り出し部109で
射影によって文字を切り出し文字画像ブロック601〜
606を得る。その後、類似度計算部110で類似度を
計算し所定の閾値(TH)より類似度が低いと判定され
た文字画像ブロックに対しては、文字画像ブロックの結
合の仕方を変えて、再度、文字切り出しを行い、最初と
は異なる文字画像ブロック607〜608などを得る。
この文字画像ブロックに対して、類似度演算を再度実行
し、その結果を再度評価する。このように文字画像ブロ
ックの結合の仕方を変え、類似度演算を行いその結果を
再度評価することによって、より精度高く切り出された
文字画像ブロックを得る。
(57) [Summary] [Purpose] By changing the method of character segmentation and retrying character segmentation, erroneous recognition due to character segmentation is reduced. [Structure] After inputting an image original, characters are cut out by projection in a character cutting unit 109, and character image blocks 601-
We get 606. After that, for the character image blocks whose similarity is calculated by the similarity calculator 110 and the similarity is lower than a predetermined threshold value (TH), the method of combining the character image blocks is changed and the By cutting out, character image blocks 607 to 608 different from the first one are obtained.
The similarity calculation is executed again for this character image block, and the result is evaluated again. In this way, the method of combining the character image blocks is changed, the similarity calculation is performed, and the result is evaluated again to obtain a character image block cut out with higher accuracy.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は文字認識方法及びその装
置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition method and apparatus.

【0002】[0002]

【従来の技術】従来の文字認識装置は図8に示すフロー
チャートの手順に従って、画像原稿を入力して(ステッ
プS201)、入力画像から1文字ずつ文字を切り出し
(ステップS202)、文字の特徴を抽出後(ステップ
S203)、予め求めてある各カテゴリ別の特徴との類
似度を計算し(ステップS204)、最も類似度が近い
カテゴリに属する文字を認識結果とする(ステップS2
05)ように構成されている。
2. Description of the Related Art A conventional character recognition device inputs an image original (step S201) and cuts out characters one by one from the input image (step S202) in accordance with the procedure of the flowchart shown in FIG. 8 to extract character features. After that (step S203), the degree of similarity with the previously-obtained characteristics of each category is calculated (step S204), and the characters belonging to the category with the closest degree of similarity are used as the recognition result (step S2).
05).

【0003】[0003]

【発明が解決しようとする課題】しかしながら上記従来
例では、誤った文字切り出しが行なわれた場合、類似度
演算から得られたカテゴリの類似度が最大の文字であっ
ても、類似度の値があまり大きくならず経験的にいって
認識結果が疑わしいことがあった。これは誤った文字切
り出しを修正せず、そのまま文字認識の処理を実行する
ために発生する誤認識であった。
However, in the above-mentioned conventional example, when the character is erroneously cut out, even if the character of the category obtained from the similarity calculation has the highest similarity, the value of the similarity is There was a case where the recognition result was suspicious because it was not so big and it was empirical. This was an erroneous recognition that occurs because the erroneous character segmentation is not corrected and the character recognition process is executed as it is.

【0004】本発明は上記従来例に鑑みてなされたもの
で、文字切り出しの誤りを修正可能な文字認識方法及び
その装置を提供することを目的としている。
The present invention has been made in view of the above-mentioned conventional example, and an object of the present invention is to provide a character recognition method and an apparatus therefor capable of correcting a character cutout error.

【0005】[0005]

【課題を解決するための手段】上記目的を達成するため
に本発明の文字認識方法は、以下のような工程からな
る。即ち、画像原稿を入力し前記画像原稿に描かれた文
字を認識する文字認識方法であって、前記画像原稿を入
力する入力工程と、前記入力工程によって入力された前
記画像原稿に描かれた文字を1文字ずつ分離して切り出
す切り出し工程と、前記切り出し工程によって切り出さ
れた文字の特徴を取り出し、所定の文字辞書に格納され
ている情報と比較して類似度を求め文字認識を行う認識
工程と、前記認識工程によって前記文字認識の結果を評
価し、前記評価に基づいて、文字の分離を前回とは異な
らせて前記切り出し工程に戻り再度文字切り出しを行う
制御する制御工程とを有することを特徴とする文字認識
方法を備える。
In order to achieve the above object, the character recognition method of the present invention comprises the following steps. That is, a character recognition method for recognizing a character drawn on an image manuscript by inputting an image manuscript, wherein an input step of inputting the image manuscript and a character drawn on the image manuscript input by the input step. And a character recognition step of extracting the features of the characters cut out by the cutting step, comparing the information with the information stored in a predetermined character dictionary to obtain the similarity, and performing character recognition. , A control step of evaluating the result of the character recognition by the recognition step, and based on the evaluation, controlling the character separation to be different from the previous one and returning to the cutout step to perform the character cutout again. It has a character recognition method.

【0006】また他の発明によれば、画像原稿を入力し
前記画像原稿に描かれた文字を認識する文字認識装置で
あって、前記画像原稿を入力する入力手段と、前記入力
手段によって入力された前記画像原稿に描かれた文字を
1文字ずつ分離して切り出す切り出し手段と、前記切り
出し手段によって切り出された文字の特徴を取り出し、
所定の文字辞書に格納されている情報と比較して類似度
を求め文字認識を行う認識手段と、前記認識手段によっ
て前記文字認識の結果を評価し、前記評価に基づいて、
文字の分離を前回とは異ならせ再度文字切り出しを前記
切り出し手段に行わせるよう制御する制御手段とを有す
ることを特徴とする文字認識装置を備える。
According to another aspect of the present invention, there is provided a character recognition device for inputting an image original and recognizing characters drawn on the image original, the input means inputting the image original, and the input means for inputting the image original. A cut-out means for separating and cutting out the characters drawn on the image original one by one, and a characteristic of the character cut out by the cut-out means,
A recognition unit that performs character recognition by obtaining similarity by comparing with information stored in a predetermined character dictionary, evaluates the result of the character recognition by the recognition unit, and based on the evaluation,
The character recognition device is characterized by further comprising control means for controlling character segmentation so that the character segmentation is performed differently from the previous time and the character segmentation is performed again.

【0007】[0007]

【作用】以上の構成により本発明は、入力画像から切り
出された文字の文字認識を行った後、その文字認識の結
果を評価し、再度、前回とは文字の分離を異ならせて文
字の切り出しを行うよう制御するよう動作する。
With the above configuration, the present invention performs character recognition of a character cut out from an input image, evaluates the result of the character recognition, and again cuts out the character by differentiating the character separation from the previous time. Operate to control to do.

【0008】[0008]

【実施例】以下添付図面を参照して本発明の好適な実施
例を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT A preferred embodiment of the present invention will be described in detail below with reference to the accompanying drawings.

【0009】[装置の概要説明(図1)]図1は本発明
の代表的な実施例である文字認識装置の構成を示すブロ
ック図である。図1において、101は装置全体を制御
し文字認識処理を実行制御するCPU、102は文字入
力及び文字修正等を行なうキーボード(KB)、103
はマウス等のポインティングデバイス(PD)、104
は画像を読み取るイメージスキャナ(SCAN)、10
5はイメージスキャナのインタフェース、106はCP
U101が実行する制御プログラム等を格納するRO
M、107は認識結果や文字切り情報等を格納するRA
M、108は認識結果等を表示するディスプレイであ
る。109は文字画像から1文字ずつ文字を切り出す文
字切り出し部、110は切り出された文字画像から特徴
を抽出し各カテゴリとの類似度を計算する類似度計算部
である。
[General Description of Apparatus (FIG. 1)] FIG. 1 is a block diagram showing the configuration of a character recognition apparatus which is a typical embodiment of the present invention. In FIG. 1, 101 is a CPU which controls the entire apparatus and controls execution of character recognition processing, 102 is a keyboard (KB) for inputting and correcting characters, and 103.
Is a pointing device (PD) such as a mouse, 104
Is an image scanner (SCAN) that reads images, 10
5 is an image scanner interface, 106 is a CP
RO for storing control programs executed by U101
RAs for storing recognition results, character cutting information, and the like.
M and 108 are displays for displaying recognition results and the like. Reference numeral 109 is a character cutout unit that cuts out characters one by one from the character image, and 110 is a similarity calculation unit that extracts features from the cutout character image and calculates the similarity to each category.

【0010】また、RAM107にはイメージスキャナ
104によって読み取られた文字画像を格納する文字画
像格納領域111、文字切り出し部109の出力を格納
する文字切り情報格納領域112、そして、類似度計算
部110の出力を格納する認識結果格納領域113が確
保される。
In the RAM 107, a character image storage area 111 for storing a character image read by the image scanner 104, a character cutting information storage area 112 for storing the output of the character cutting section 109, and a similarity calculation section 110. A recognition result storage area 113 for storing the output is secured.

【0011】[文字認識処理の説明(図2〜図4)]次
に上記構成の文字認識装置を用いて実行する文字認識処
理について、図2に示すフローチャートを参照して説明
する。
[Description of Character Recognition Processing (FIGS. 2 to 4)] Next, the character recognition processing executed by using the character recognition device having the above-described configuration will be described with reference to the flowchart shown in FIG.

【0012】まず、ステップS101ではイメージスキ
ャナ104から文字画像を入力し、文字画像格納領域1
11に格納する。ステップS102では文字切り出し部
109が格納された文字画像から1文字ずつ文字を切り
出す。切り出す方法は問わないが本実施例では文字画像
の射影を取る方法を用いるものとする。
First, in step S101, a character image is input from the image scanner 104, and the character image storage area 1
It is stored in 11. In step S102, the character cutout unit 109 cuts out characters one by one from the stored character image. The method of cutting out is not limited, but in the present embodiment, a method of projecting a character image is used.

【0013】図3は文字切り出しを文字画像の射影を取
る方法に従って実行する様子を示した図である。図3に
おいて、401は入力文書画像、402は射影面であ
る。この射影は入力する画像原稿が横書き原稿なら横方
向に、また、縦書き原稿なら縦方向に取られる。図3の
場合は横書き原稿なので、文字画像403に対して射影
404が取られ、行矩形405が得られる。図4は得ら
れた行矩形405に対して縦方向の射影を取る様子を示
した図である。横方向に対する射影が得られたなら、次
に、射影面を90度回転し、射影を取ると文字矩形50
1が得られ文字が一文字ずつ切り出される。この文字切
り出しによる結果は文字切り情報格納領域112に出力
される。
FIG. 3 is a diagram showing how character segmentation is performed according to a method for projecting a character image. In FIG. 3, 401 is an input document image and 402 is a projection plane. This projection is taken in the horizontal direction if the image original to be input is a horizontal original, and in the vertical direction if it is a vertical original. In the case of FIG. 3, since it is a horizontal document, a projection 404 is taken for the character image 403, and a line rectangle 405 is obtained. FIG. 4 is a diagram showing a state in which a vertical projection is taken on the obtained row rectangle 405. If a projection in the horizontal direction is obtained, then the projection plane is rotated 90 degrees and the projection is taken to form a character rectangle 50.
1 is obtained and the characters are cut out one by one. The result of this character segmentation is output to the character segmentation information storage area 112.

【0014】次にステップS103では、決定した文字
矩形501の文字画像から特徴を抽出し、続いてステッ
プS104では抽出した特徴を用いて類似度計算部11
0で類似度演算を行ない、その演算結果を認識結果格納
領域113に出力する。その出力情報には、例えば、類
似度の大きいカテゴリからn個の演算値と文字コードな
どが含まれる。
Next, in step S103, a feature is extracted from the character image of the determined character rectangle 501, and then in step S104, the similarity calculating unit 11 uses the extracted feature.
The similarity calculation is performed with 0, and the calculation result is output to the recognition result storage area 113. The output information includes, for example, n calculated values and character codes from a category having a high degree of similarity.

【0015】なお、ステップS101〜S104の処理
は公知の技術に従うものとする。
The processing of steps S101 to S104 is based on a known technique.

【0016】さてステップS105では、ステップS1
02〜S104の一連の処理が何回実行されたかを調べ
る。ここで、その一連の処理が始めて行なわれたと判断
されたなら処理はステップS106に進み、2回以上実
行されたと判断されたなら処理はステップS107に進
む。ステップS106では、再度文字切り出しを行う文
字画像ブロックを選択する。この選択は、最大類似度が
得られたカテゴリの演算値が所定の閾値(TH)よりも
小さい場合とする。ここで選択された文字画像ブロック
に対して、CPU101が管理する再文字切り出しステ
ータスフラグ(IFLG)に“1(オンの状態)”をセ
ットする。一方、ステップS107では、再度文字切り
出しを実行した文字の文字切り出しステータスフラグ
(IFLG)を調べ、類似度の値が所定の閾値(TH)
より十分に高く、文字切り出しを再度実行しなくても良
いとされた文字に対して文字切り出しステータスフラグ
(IFLG)に“0”をセットする。
Now, in step S105, step S1
It is checked how many times the series of processing from 02 to S104 is executed. Here, if it is determined that the series of processes has been performed for the first time, the process proceeds to step S106, and if it is determined that the process has been performed twice or more, the process proceeds to step S107. In step S106, the character image block for which character cutting is to be performed again is selected. This selection is performed when the calculated value of the category for which the maximum similarity is obtained is smaller than a predetermined threshold value (TH). For the character image block selected here, "1 (on state)" is set to the re-character cut-out status flag (IFLG) managed by the CPU 101. On the other hand, in step S107, the character cutout status flag (IFLG) of the character for which the character cutout has been executed again is checked, and the value of the similarity is a predetermined threshold value (TH).
The character cutout status flag (IFLG) is set to "0" for a character that is sufficiently higher and does not need to be recut out.

【0017】この文字切り出しステータスフラグ(IF
LG)は、切り出された文字各々に設定されるフラグで
あり、RAM107の文字切り情報格納領域112に格
納される。
This character cutout status flag (IF
LG) is a flag that is set for each of the cut characters and is stored in the character cutting information storage area 112 of the RAM 107.

【0018】次にステップS108では文字切り出しス
テータスフラグ(IFLG)がオンの状態にある文字が
あるかどうかを調べる。ここで、オンの状態にある文字
が存在すれば、処理はステップS102に戻ってその文
字に対して文字切り出しを再度実行する。これに対し
て、オンの状態にある文字が存在しなければ、処理はス
テップS109に進み、ディスプレイ108に結果を表
示し処理を終了する。
Next, in step S108, it is checked whether or not there is a character whose character cutout status flag (IFLG) is on. Here, if there is a character in the ON state, the process returns to step S102 and the character cutting is performed again for the character. On the other hand, if there is no character in the ON state, the process proceeds to step S109, the result is displayed on the display 108, and the process ends.

【0019】[文字認識処理の具体例(図5)]以上の
処理について、図5に示す文字画像が入力された場合を
想定して具体的に説明する。ここでは、図5(a)に示
す文字を入力画像文字とする。
[Specific Example of Character Recognition Processing (FIG. 5)] The above processing will be specifically described on the assumption that the character image shown in FIG. 5 is input. Here, the characters shown in FIG. 5A are input image characters.

【0020】最初の文字切り出しでは、入力画像文字か
らステップS102で説明したように、まず射影を取る
ことで図5(b)に示すように6個の画像ブロック60
1〜606が得られる。次に、後述の標準文字幅等を基
準にして幅の狭い画像ブロック(ここでは、601〜6
03)を結合し、図5(c)に示すように4つの文字画
像ブロック605〜607になったとする。ここで、標
準文字幅は行矩形405の高さに近い幅を持つ文字矩形
の幅の平均値とする。
In the first character segmentation, as described in step S102, first, projection is performed to extract six image blocks 60 from the input image character as shown in FIG. 5B.
1 to 606 are obtained. Next, a narrow image block (here, 601-6
03) are combined to form four character image blocks 605 to 607 as shown in FIG. Here, the standard character width is an average value of the widths of character rectangles having a width close to the height of the line rectangle 405.

【0021】その後、ステップS103〜S105の処
理の後、ステップS106で再度文字切り出しを行う文
字画像ブロックを選択する。ここでは図5(c)に示す
文字画像ブロック607〜608の文字切り出しステー
タスフラグ(IFLG)がオンであるとする。2回目以
降のステップS202における文字切り出しは文字切り
出しステータスフラグ(IFLG)がオンの文字画像ブ
ロックだけが処理の対象となる。
After that, after the processing of steps S103 to S105, a character image block to be subjected to character segmentation is selected again in step S106. Here, it is assumed that the character cutout status flag (IFLG) of the character image blocks 607 to 608 shown in FIG. 5C is on. In the character extraction in step S202 from the second time onward, only the character image block for which the character extraction status flag (IFLG) is ON is the processing target.

【0022】さて2回目の文字切り出しでは、まず、連
続した再文字切り画像ブロックの先頭とそれ以降のブロ
ックの結合を調べる。図5(b)の場合、文字画像ブロ
ック601〜604が連続しており、先頭の601が6
02〜604と結合するかどうかを確かめる。ただし、
結合した文字画像ブロックの幅は、標準文字幅の定数倍
以内となるように定めておき、組合せの数を制限する。
その結果、仮に、結合の組合せは601だけ、601と
602との結合、601〜603を結合の3パターンに
なったとする。これらの結合文字画像ブロックについ
て、ステップS103〜S105の処理を実行し、最後
にステップS107で最も類似度が大きくかつ、所定の
閾値(TH)より十分に高くなった結合を切り出し結果
として採用する。ここでは、文字画像ブロック601だ
けの場合が、その条件を満たすとし、文字画像ブロック
601の文字切り出しステータスフラグ(IFLG)を
オフにする。この時点で文字切り出しは図5(d)に示
す状態となっている。
In the second character segmentation, first, the combination of the head of consecutive re-character segmented image blocks and the blocks after it is examined. In the case of FIG. 5B, the character image blocks 601 to 604 are continuous, and the first 601 is 6
Check if it binds to 02-604. However,
The width of the combined character image block is set to be within a constant multiple of the standard character width, and the number of combinations is limited.
As a result, it is assumed that there are three patterns of combination, that is, only 601, a combination of 601 and 602, and 601 to 603. The processes of steps S103 to S105 are executed for these combined character image blocks, and finally, the combination having the highest similarity and sufficiently higher than the predetermined threshold value (TH) in step S107 is adopted as the cutout result. Here, in the case of only the character image block 601, if the condition is satisfied, the character cutout status flag (IFLG) of the character image block 601 is turned off. At this point, the character segmentation is in the state shown in FIG.

【0023】次の3回目の文字切り出しでは、文字画像
ブロック602と他のブロック(ここでは603と60
4)との結合を調べる。3回目の試行で、文字画像ブロ
ック602と603を結合した時、類似度が最大にな
り、かつ、所定の閾値(TH)より十分に高くなったと
判断されたとすると、この2つを結合し1つの文字画像
ブロック609とし、このブロックに対する文字切り出
しステータスフラグ(IFLG)をオフにする。
In the next third character segmentation, the character image block 602 and other blocks (here, 603 and 60) are extracted.
4) Check the binding with. If it is determined in the third trial that the similarity between the character image blocks 602 and 603 is maximized and that the similarity is sufficiently higher than a predetermined threshold value (TH), the two are combined into 1 One character image block 609 is set, and the character cutout status flag (IFLG) for this block is turned off.

【0024】最後の4回目の文字切り出しでは文字画像
ブロック604が残っており、このブロックに対するス
テップS102〜S105の処理を実行し、ステップS
107において、文字切り出しステータスフラグ(IF
LG)がオフにされる。以上の処理によって、図5
(e)に示すような分割された文字画像ブロック60
1、609、604〜606が得られる。
The character image block 604 remains in the final fourth character cut-out, and the processes of steps S102 to S105 are executed for this block, and step S
In 107, a character cutout status flag (IF
LG) is turned off. By the above processing, FIG.
A divided character image block 60 as shown in (e)
1, 609 and 604-606 are obtained.

【0025】ここで、もしステップS106で文字切り
出しステータスフラグ(IFLG)がオンになった文字
が、次の文字切り出し処理で複数の文字画像ブロックに
分割されることがなく、しかも隣接した部分に他の画像
ブロックが存在しない場合には、続くループのステップ
S106において文字切り出し処理には誤りがないと判
断し、再度文字切り出しは行わないように文字切り出し
ステータスフラグ(IFLG)をオフにする。
Here, if the character cut-out status flag (IFLG) is turned on in step S106, the character will not be divided into a plurality of character image blocks in the next character cut-out process, and the adjacent characters will not be divided. If the image block of No. does not exist, it is determined in step S106 of the subsequent loop that there is no error in the character cutting processing, and the character cutting status flag (IFLG) is turned off so that the character cutting is not performed again.

【0026】従って本実施例に従うなら、まず入力画像
において全体の文字切り出し、特徴抽出・類似度演算を
行ない、類似度演算の演算結果に基づいて文字切り出し
を再度行なう必要性のある部分を判定し、その後、文字
切り出し、特徴抽出、類似度演算を繰り返すことによっ
て、一連の認識処理が終了した場合でも、文字切り出し
起因する誤認識を修正することができる。
Therefore, according to the present embodiment, first, the entire character is cut out from the input image, the feature extraction / similarity calculation is performed, and the portion that needs to be extracted again is determined based on the calculation result of the similarity calculation. After that, by repeating the character segmentation, the feature extraction, and the similarity calculation, it is possible to correct the erroneous recognition caused by the character segmentation even when the series of recognition processes is completed.

【0027】[0027]

【他の実施例】ここでは、前述の文字認識装置を共通の
装置として実行する文字を1文字ずつ切り出しながら逐
次文字認識を行う処理について、図6に示すフローチャ
ートと図7に示す具体例を用いて説明する。なお、装置
は前述の実施例と共通なので、共通の装置参照番号を用
い説明を省略し、また、本実施例の処理で前述の実施例
との共通部分については共通のステップ参照番号を付し
て説明を省略する。
[Other Embodiments] Here, with respect to the process of successively performing character recognition while cutting out characters one by one, which is executed by the above-described character recognition device as a common device, the flowchart shown in FIG. 6 and the specific example shown in FIG. Explain. Since the apparatus is the same as that of the above-described embodiment, a description thereof will be omitted by using a common apparatus reference number, and in the processing of the present embodiment, common steps with the above-described embodiment will be denoted by common step reference numbers. And the description is omitted.

【0028】本実施例は一文字ずつ逐次的な文字認識処
理の実行状況を把握するために、論理的なマーカを用い
る。このマーカは常に文字の切り出しを行う文字画像ブ
ロックに位置し、マーカ位置を基点として文字の切り出
しが行われる。そして、文字の切り出しが満足なものと
判定された時点で、マーカを次の文字画像ブロックに移
動させ、次の文字画像ブロックを切り出す。
In the present embodiment, a logical marker is used in order to grasp the execution status of the character recognition processing for each character. This marker is always located in the character image block where the character is cut out, and the character is cut out based on the marker position. Then, when it is determined that the character cutout is satisfactory, the marker is moved to the next character image block, and the next character image block is cut out.

【0029】ステップS101での画像原稿入力後、ス
テップS102では、図7(a)に示すように入力画像
の内、先頭の1文字分の文字画像だけを切り出す。これ
によって、入力画像から文字画像ブロック801が切り
出される。この時点ではマーカ70は文字画像ブロック
801の左側に位置している。ここでは、前述の実施例
と同様、射影による文字切り出しの方法に従って、行矩
形405を最初に求め、先頭行の先頭部分から行方向と
垂直方向に射影を取って1文字分の文字画像を切り出
す。
After the input of the image original in step S101, in step S102, only the first character image of the input image is cut out from the input image as shown in FIG. 7A. As a result, the character image block 801 is cut out from the input image. At this point, the marker 70 is located on the left side of the character image block 801. Here, similarly to the above-described embodiment, the line rectangle 405 is first obtained in accordance with the method of character segmentation by projection, and the character image for one character is segmented by projecting from the head portion of the head line in the row direction and the vertical direction. ..

【0030】次に、ステップS701で切り出された文
字があるかどうかを調べる。ここで、切り出された文字
画像ブロックがあると判断されたなら処理はステップS
103〜S104へと進み、特徴抽出及び類似度演算を
実行する。これに対して、切り出される文字画像ブロッ
クがないと判断されたなら処理はステップS109に進
んで、処理結果を表示して処理を終了する。
Next, it is checked whether or not there are characters cut out in step S701. If it is determined that there is a clipped character image block, the process proceeds to step S
Going to 103 to S104, the feature extraction and the similarity calculation are executed. On the other hand, if it is determined that there is no character image block to be cut out, the process proceeds to step S109, the process result is displayed, and the process ends.

【0031】ステップS103〜S104の処理後、ス
テップS702では類似度演算から得られる演算値に基
づいて、文字切り出し処理を再度実行するかどうかを判
定する。ここで、前述の実施例と同様に類似度が得られ
たカテゴリの演算値が所定の閾値(TH)よりも小さい
なら、処理はステップS703に進み、再度文字切り出
し処理を実行するものとみなす。このためにマーカ70
は移動しない。これに対して、その演算値が所定の閾値
(TH)よりも大きいなら、処理はステップS704に
進み、次の文字の切り出しに進むと決定する。このため
マーカ70は次の文字画像ブロックの左側或は決定され
た文字画像ブロックの右側に移動する。ステップS70
3、S704各々の処理後、処理はステップS102に
戻り、文字切り出しを続行する。
After the processing in steps S103 to S104, it is determined in step S702 whether or not to execute the character cutting processing again based on the calculated value obtained from the similarity calculation. Here, if the calculated value of the category for which the degree of similarity is obtained is smaller than the predetermined threshold value (TH) as in the above-described embodiment, the process proceeds to step S703, and it is considered that the character cutout process is executed again. For this purpose, the marker 70
Does not move. On the other hand, if the calculated value is larger than the predetermined threshold value (TH), the process proceeds to step S704, where it is determined to proceed to the cutting out of the next character. Therefore, the marker 70 moves to the left side of the next character image block or the right side of the determined character image block. Step S70
3 and S704, the process returns to step S102 to continue the character segmentation.

【0032】さて、ステップS702では、ステップS
102〜ステップS703或はステップS704のルー
プ処理の間に位置しているため、何度も文字切り出し処
理を再度実行するかどうかを判定することになる。従っ
て、前回と今回の類似度計算の演算値とを比較し、前回
の文字切り出しの方が今回の文字切り出しの結果より相
対的に良い結果を示すような場合、前回の判断で再度文
字切り出しを実行すると判断されたものの、今回の判断
でこれ以上の文字切り出しを行なわないと判断し、か
つ、前回の文字切り出し結果を採用するという判定を行
う場合がある。
Now, in step S702, step S
Since it is positioned between the loop processing of 102 to step S703 or step S704, it is determined whether or not the character cutting processing is to be executed again and again. Therefore, if the calculated value of the similarity calculation of the previous time is compared with the calculated value of the similarity between this time and the previous character cutout shows a relatively better result than the result of the current character cutout, the character cutout is performed again by the previous judgment. There is a case in which it is determined that the character is to be executed, but it is determined in this determination that no more character cutout will be performed, and that the previous character cutout result is adopted.

【0033】このことを具体的に考慮するため、画像原
稿『(いろんな』が入力されたと仮定して図7を参照し
て説明する。
In order to specifically take this into consideration, description will be given with reference to FIG. 7, assuming that the image original "(various)" is input.

【0034】最初の文字切り出しで、図7(a)に示す
ように文字画像ブロック801が取り出され、ステップ
S702でステップS703に進むように判断された場
合、2回目の文字切り出しで、図7(b)に示すように
次の文字画像ブロックと結合された文字画像ブロック8
02が取り出されたとする。この時点で文字切り出しの
基点を示すマーカ70は、図7(a)〜(b)に示され
るように、文字画像ブロック801或は802の左端に
ある。
When the character image block 801 is taken out as shown in FIG. 7A in the first character cutout and it is judged in step S702 to proceed to step S703, the second character cutout is performed as shown in FIG. The character image block 8 combined with the next character image block as shown in b).
It is assumed that 02 is taken out. At this time, the marker 70 indicating the base point of the character cutout is at the left end of the character image block 801 or 802, as shown in FIGS.

【0035】しかし、次のステップS702の判定処理
で文字画像ブロック801と切り出した方が良いと判断
されると、処理はステップS704に進みマーカ70を
文字画像ブロック801の右側に進め、3回目の文字切
り出しでは、図7(c)に示すように文字画像ブロック
803が取り出される。この時点で文字切り出しの基点
を示すマーカ70は、図7(c)に示されるように、文
字画像ブロック803の左端に移動する。3回目のステ
ップS702の判断によって処理がステップS703に
進むとマーカ70の位置は移動せず、4回目の文字切り
出しでは、図7(d)に示すように、次の文字画像ブロ
ックと結合された文字画像ブロック804が取り出され
る。4回目のステップS702の判断によって文字切り
出しが文字画像ブロック804でよいと判断されると、
処理はステップS704に進みマーカ70を文字画像ブ
ロック804の右側に進め、5回目の文字切り出しで、
図7(e)に示すように次の文字画像ブロックが切り出
される。
However, if it is determined in the next step S702 that the character image block 801 should be cut out, the process proceeds to step S704, where the marker 70 is moved to the right side of the character image block 801, and the third time. In the character cutout, a character image block 803 is taken out as shown in FIG. At this time, the marker 70 indicating the base point of the character cutout moves to the left end of the character image block 803, as shown in FIG. 7C. When the process proceeds to step S703 by the determination in step S702 for the third time, the position of the marker 70 does not move, and in the fourth character cutout, the marker image is combined with the next character image block as shown in FIG. 7D. The character image block 804 is fetched. When it is determined that the character image block 804 is sufficient for the character segmentation in the fourth determination in step S702,
The process proceeds to step S704, the marker 70 is advanced to the right of the character image block 804, and the fifth character segmentation is performed.
The next character image block is cut out as shown in FIG.

【0036】以下同様にして、逐次文字画像ブロックを
切り出し、文字画像がすべて切り出された時点で処理は
ステップS109に進み、結果を表示する。
Similarly, the character image blocks are sequentially cut out, and when all the character images are cut out, the process proceeds to step S109 to display the result.

【0037】従って本実施例に従えば、文字切り出しと
特徴抽出・類似度演算を一文字ずつ逐次、文字認識処理
を進めていくことによって、文字切り出しに起因する誤
認識を防止しながら認識処理を進行させることが可能で
ある。
Therefore, according to this embodiment, the character recognition process is performed while preventing the erroneous recognition due to the character cut-out by sequentially advancing the character recognition process of the character cut-out and the feature extraction / similarity calculation for each character. It is possible to

【0038】なお、以上の実施例では文字切り出し部と
類似度計算部の処理を専用の処理プロセッサで実行する
構成の装置を用いて説明したが、本発明はこれに限定さ
れるものではない。例えば、CPUがこれらの処理を実
行する構成の装置とすることを可能である。
Although the above embodiment has been described by using the device having the configuration in which the processing of the character cutout unit and the similarity calculation unit is executed by the dedicated processing processor, the present invention is not limited to this. For example, the CPU may be a device configured to execute these processes.

【0039】また文字切り出し方法についても上記実施
例では射影を取る方法を採用して説明したが、本発明は
これに限定されるものではなく、例えば、境界線追跡法
など他の方法を用いることもできる。
Further, the character cutting method has been described by adopting the projection method in the above embodiment, but the present invention is not limited to this. For example, another method such as a boundary line tracing method may be used. You can also

【0040】さらに、以上の実施例では入力画像として
比較的短い文字『(いろんな』を用いて、文字切り出し
を入力画像全てに対して実行するようなものとして説明
したが、本発明はこれに限定されるものではない。例え
ば、長い文章のような入力画像に対しては、指定された
範囲内、あるいは1行ごとに文字切り出しを実行するこ
とも可能である。
Furthermore, in the above-mentioned embodiments, the relatively short character "(various characters) is used as the input image and the character segmentation is executed for all the input images. However, the present invention is not limited to this. For example, with respect to an input image such as a long sentence, it is possible to execute character cutting out within a specified range or line by line.

【0041】尚、本発明は、複数の機器から構成される
システムに適用しても良いし、1つの機器から成る装置
に適用しても良い。また、本発明はシステム或は装置に
プログラムを供給することによって達成される場合にも
適用できることは言うまでもない。
The present invention may be applied to a system composed of a plurality of devices or an apparatus composed of one device. Further, it goes without saying that the present invention can be applied to the case where it is achieved by supplying a program to a system or an apparatus.

【0042】[0042]

【発明の効果】以上説明したように本発明によれば、文
字切り出しによって切り出された文字に対する文字認識
後に、その文字認識結果を評価して、再び文字の切り出
しを試行することができるので、文字切り出しに起因す
る誤認識を減らすことができる効果がある。これにより
誤認識が減少するので、誤認識修正作業が削減され文書
の入力時間が短くなる利点もある。
As described above, according to the present invention, after character recognition is performed on a character cut out by character cutting, the result of character recognition can be evaluated and the character cutting can be tried again. This has the effect of reducing erroneous recognition due to clipping. As a result, erroneous recognition is reduced, and there is also an advantage that erroneous recognition correction work is reduced and document input time is shortened.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明を代表的な実施例である文字認識装置の
構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a character recognition device that is a typical embodiment of the present invention.

【図2】図1に示す文字認識装置が実行する文字切り出
しの再実行が可能な文字認識処理を示すフローチャート
である。
FIG. 2 is a flowchart showing a character recognition process capable of re-execution of a character segmentation executed by the character recognition device shown in FIG.

【図3】横書き文字の横方向への射影を取る様子を示す
図である。
FIG. 3 is a diagram showing a state in which a horizontally projected character is projected in a horizontal direction.

【図4】横書き文字の縦方向への射影を取る様子を示す
図である。
FIG. 4 is a diagram illustrating a state in which a horizontally projected character is projected in a vertical direction.

【図5】文字切り出しを説明するための図である。FIG. 5 is a diagram for explaining character cutout.

【図6】他の実施例に従う文字認識処理を示すフローチ
ャートである。
FIG. 6 is a flowchart showing a character recognition process according to another embodiment.

【図7】他の実施例に従う文字切り出しの修正の様子を
示す図である。
FIG. 7 is a diagram showing how character cutout is corrected according to another embodiment.

【図8】従来例に従う文字認識処理を示すフローチャー
トである。
FIG. 8 is a flowchart showing a character recognition process according to a conventional example.

【符号の説明】[Explanation of symbols]

101 CPU 102 キーボード 103 ポインティングデバイス 104 スキャナ 105 インタフェース 106 ROM 107 RAM 108 ディスプレイ 109 文字切り出し部 110 類似度計算部 101 CPU 102 Keyboard 103 Pointing Device 104 Scanner 105 Interface 106 ROM 107 RAM 108 Display 109 Character Extraction Unit 110 Similarity Calculation Unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 画像原稿を入力し前記画像原稿に描かれ
た文字を認識する文字認識方法であって、 前記画像原稿を入力する入力工程と、 前記入力工程によって入力された前記画像原稿に描かれ
た文字を1文字ずつ分離して切り出す切り出し工程と、 前記切り出し工程によって切り出された文字の特徴を取
り出し、所定の文字辞書に格納されている情報と比較し
て類似度を求め文字認識を行う認識工程と、 前記認識工程によって前記文字認識の結果を評価し、前
記評価に基づいて、文字の分離を前回とは異ならせて前
記切り出し工程に戻り再度文字切り出しを行う制御する
制御工程とを有することを特徴とする文字認識方法。
1. A character recognition method for recognizing a character drawn on an image original by inputting the image original, comprising an input step of inputting the image original, and a drawing on the image original input by the input step. A character cutting process is performed to separate the extracted characters one by one, and the characteristics of the characters cut out by the cutting process are extracted and compared with the information stored in a predetermined character dictionary to obtain the similarity and perform character recognition. A recognition step; and a control step of evaluating the result of the character recognition by the recognition step, and controlling the character separation to be different from the previous time and return to the cutout step to perform the character cutout again based on the evaluation. Character recognition method characterized by the following.
【請求項2】 画像原稿を入力し前記画像原稿に描かれ
た文字を認識する文字認識装置であって、 前記画像原稿を入力する入力手段と、 前記入力手段によって入力された前記画像原稿に描かれ
た文字を1文字ずつ分離して切り出す切り出し手段と、 前記切り出し手段によって切り出された文字の特徴を取
り出し、所定の文字辞書に格納されている情報と比較し
て類似度を求め文字認識を行う認識手段と、 前記認識手段によって前記文字認識の結果を評価し、前
記評価に基づいて、文字の分離を前回とは異ならせ再度
文字切り出しを前記切り出し手段に行わせるよう制御す
る制御手段とを有することを特徴とする文字認識装置。
2. A character recognition device for inputting an image original and recognizing characters drawn on the image original, comprising: input means for inputting the image original; and drawing on the image original input by the input means. Cutout means for separating the extracted characters one by one and the characteristics of the characters cut out by the cutout means are extracted and compared with the information stored in a predetermined character dictionary to obtain similarity and perform character recognition. A recognition unit; and a control unit that evaluates the result of the character recognition by the recognition unit and controls the character separation to be different from the previous one so that the character cutout is performed again based on the evaluation. A character recognition device characterized by the above.
【請求項3】前記画像原稿に描かれた文字を所定の長さ
だけ1文字ずつ分離して切り出す度ごとに、前記認識手
段及び前記制御手段の処理を行うことを特徴とする請求
項第2項に記載の文字認識装置。
3. The processing of the recognizing means and the control means is performed each time the characters drawn on the image original are separated and cut out one by one by a predetermined length. The character recognition device according to item.
【請求項4】前記画像原稿に描かれた文字を1文字ずつ
分離して切り出す度ごとに、前記認識手段及び前記制御
手段の処理を行うことを特徴とする請求項第2項に記載
の文字認識装置。
4. The character according to claim 2, wherein the processing of the recognition means and the control means is performed every time the character drawn on the image original is separated and cut out one by one. Recognition device.
JP3288286A 1991-10-21 1991-11-05 Character recognition method and device therefor Withdrawn JPH05128299A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP3288286A JPH05128299A (en) 1991-11-05 1991-11-05 Character recognition method and device therefor
EP92309572A EP0539158A2 (en) 1991-10-21 1992-10-20 Method and apparatus for character recognition
EP97203415A EP0831418B1 (en) 1991-10-21 1992-10-20 Method and apparatus for character recognition
DE69232493T DE69232493T2 (en) 1991-10-21 1992-10-20 Method and device for character recognition
US08/339,879 US5684891A (en) 1991-10-21 1994-11-14 Method and apparatus for character recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3288286A JPH05128299A (en) 1991-11-05 1991-11-05 Character recognition method and device therefor

Publications (1)

Publication Number Publication Date
JPH05128299A true JPH05128299A (en) 1993-05-25

Family

ID=17728196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3288286A Withdrawn JPH05128299A (en) 1991-10-21 1991-11-05 Character recognition method and device therefor

Country Status (1)

Country Link
JP (1) JPH05128299A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013121648A1 (en) * 2012-02-17 2013-08-22 オムロン株式会社 Character-recognition method and character-recognition device and program using said method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013121648A1 (en) * 2012-02-17 2013-08-22 オムロン株式会社 Character-recognition method and character-recognition device and program using said method
JP2013171310A (en) * 2012-02-17 2013-09-02 Omron Corp Character recognition method, character recognition device using the same and program
CN104094288A (en) * 2012-02-17 2014-10-08 欧姆龙株式会社 Character recognition method, character recognition device and program using the method
US9224065B2 (en) 2012-02-17 2015-12-29 Omron Corporation Character-recognition method and character-recognition device and program using said method
CN104094288B (en) * 2012-02-17 2017-07-28 欧姆龙株式会社 Character recognition method, character recognition device using the method

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
JPH05242292A (en) Separating method
EP2816506A1 (en) Character-recognition method and character-recognition device and program using said method
JPH0789363B2 (en) Character recognition device
JP5906788B2 (en) Character cutout method, and character recognition apparatus and program using this method
KR930002349B1 (en) String Separation Method of Compressed Video
JPH05128299A (en) Character recognition method and device therefor
JPH06208625A (en) Image processing method and apparatus
JP2002063548A (en) Handwritten character recognizing method
JPH09274645A (en) Character recognition method and device
JPH0728935A (en) Document image processor
JP3133797B2 (en) Character recognition method and apparatus
JP2813601B2 (en) Tabular document recognition device
JPH06215183A (en) Character recognizing device
JPH0850631A (en) Character recognition device
JP2895115B2 (en) Character extraction method
JPH04335487A (en) Character recognition device character extraction method
JP2001266070A (en) Character recognition device, character recognition method, and storage medium
JP3717971B2 (en) Corresponding display method of recognized character and image data and character recognition device
JPH04264687A (en) Character recognition processing method
KR930000034B1 (en) Korean characters font dividing method using run length code
JPH0535916A (en) Character cutting method
JPH09237321A (en) Device for recognizing handwritten character
JPH02125389A (en) Space detecting method
JPH06150062A (en) Character recognition device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990204