JP4805485B2 - Word recognition method and word recognition device - Google Patents
Word recognition method and word recognition device Download PDFInfo
- Publication number
- JP4805485B2 JP4805485B2 JP2001210982A JP2001210982A JP4805485B2 JP 4805485 B2 JP4805485 B2 JP 4805485B2 JP 2001210982 A JP2001210982 A JP 2001210982A JP 2001210982 A JP2001210982 A JP 2001210982A JP 4805485 B2 JP4805485 B2 JP 4805485B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- word
- word recognition
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
- 
        - G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
 
- 
        - G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
 
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Description
       【0001】
【発明の属する技術分野】
  本発明は、たとえば、文書画像処理装置などにおいて、入力文字画像からの文字認識結果を基に単語認識を行なう単語認識方法および単語認識装置に関する。
【0002】
【従来の技術】
文字認識では、書かれた文字がどのカテゴリに属するのかを判断するために、文字辞書を用意して、辞書パターンとのマッチング処理を施すのが一般的な手法である。同様に、単語認識を行なう場合には、あらかじめ候補となり得る単語のデータベースを用意しておいて、単語を構成する各文字の文字認識結果と照合しながら、どの単語に最も近いのかと、近さの度合いを測ることが一般的な手法である。この手法としてよく知られているものには、いわゆるDP−マッチング法などがあげられる。
【0003】
ところで、各文字の認識結果が一様に信頼できるものであれば、単語認識はそれほど困難な問題とはならないが、読もうとする単語中での文字切り出しの結果が不定となる場合、また、続け字などのように、隣り合う文字の影響を受けて文字変動が生じる場合、さらに、類似文字が数多く存在する場合においては、類似度の値により順位づけされた文字認識の結果が不安定となり、正解文字候補が正しく得られにくくなるため、上述したDP−マッチング法などの手法が効果的でないという問題がある。
【0004】
【発明が解決しようとする課題】
正解文字候補が正しく得られないという場合での顕著な例としては、類似文字が多数存在する場合である(この際、文字切り出しの結果がある程度、信頼できているものとする)。たとえば、2バイト文字に代表される漢字を例にとってみる。アルファベット文字と比較すると、認識すべきカテゴリ数が数千となり、類似文字は多数存在する。たとえば、「萩」と「荻」という文字の関係にみられるように、類似度の尺度で測ると非常に近い関係であるにもかかわらず、従来の単語認識方法はこれら文字の構造情報を必ずしも反映していないことが問題である。
【0005】
ここで、たとえば、名簿中に記載されている名前を認識する場合では、読取り結果から「萩田」や「荻田」という単語を厳密に区別しなくてはならないときには、「萩」と「荻」の類似度値を比較する必要があり、この場合は従来の単語認識方法と等しくなる。しかし、これが「萩田」と「秋田」との区別、さらには「萩田」と「木田」を区別する場面においては、文字認識結果の候補列から、文字構造の大局的な情報を取り出して、前者は「くさかんむり」の有無を確かめる処理、後者においては、もっと簡略に文字を構成する部品文字の数を調べる処理などを組み込むことにより、より文字構造を反映した認識を実現できるので、単語の認識性能が向上する。
【0006】
  そこで、本発明は、より柔軟で汎用性に富み、単語認識の性能向上が図れる単語認識方法および単語認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の単語認識方法は、文字認識結果を基に単語認識を行なう単語認識方法において、前記文字認識結果に基づき、単語候補内に出現する各文字について、文字を構成する分離可能な部品文字の空間的なレイアウト位置とその構成部品文字数からなる文字型を判定し、文字型情報を取得する第1のステップと、この第1のステップにより取得された文字型情報を用いて単語認識処理を行なう第2のステップとを具備している。
【0008】
また、本発明の単語認識方法は、文字認識結果を基に単語認識を行なう単語認識方法において、前記文字認識結果に基づき文字構造認識を行なうか否かを判定する第1のステップと、この第1のステップにより文字構造認識を行なうと判定された場合、前記文字認識結果に基づき、単語候補内に出現する各文字について、文字を構成する分離可能な部品文字の空間的なレイアウト位置とその構成部品文字数からなる文字型を判定し、文字型情報を取得する第2のステップと、この第2のステップにより取得された文字型情報を用いて単語認識処理を行なう第3のステップと、前記第1のステップにより文字構造認識を行なわないと判定された場合、前記文字認識結果をそのまま単語認識結果として出力する第4のステップとを具備している。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
【0011】
図1は、本発明の実施の形態に係る単語認識方法が適用される単語認識装置の構成を概略的に示したものである。この単語認識装置は、大別して、認識すべき単語を含む入力文字画像に対し文字認識を行なう文字認識部1、文字構造認識を行なうかを判定する文字構造認識判定部2、文字構造認識を行なう文字構造認識部3、詳細文字認識を行なう詳細文字認識部4、文字構造データベース5、単語データベース6、および、単語内文字解析部7によって構成されている。
【0012】
文字構造認識部3は、単語候補内に出現する各文字について文字型を判定する文字型判定部31、および、詳細文字認識を行なうか否かなどの判定を行なう認識判定部32によって構成されている。
【0013】
詳細文字認識部4は、部品文字位置検出部41、部品文字画像切出部42、および、部品文字認識部43によって構成されている。
【0014】
文字構造データベース5は、文字型記憶部51、類似部品文字記憶部52、類似部品文字数記憶部53、類似部品文字位置記憶部54、および、部品文字記憶部55によって構成されている。
【0015】
単語内文字解析部7は、単語候補抽出部71、文字型抽出部72、詳細文字認識位置判定部73、および、類似部品文字位置判定部74によって構成されている。
【0016】
次に、このような構成において、本実施の形態に係る単語認識方法について図2に示すフローチャートを参照しつつ詳細に説明する。
【0017】
まず、たとえば、図示しないスキャナなどにより取得された文書画像中の文字画像が与えられると、文字認識部1において、入力された文字画像に対して文字認識を行ない、その認識結果リストが文字コードと類似度とのペアで与えられる(ステップS1)。文字候補列(文字認識結果である単語候補)では、このペアが複数組与えられる。
【0018】
文字構造認識判定部2は、文字候補列で与えられた複数の文字候補リストから、類似度値の大小などにより文字構造認識を行なうか否かを判定する(ステップS2)。この判定の結果、文字構造認識を行なわない場合は、そのまま類似度出力(文字認識結果)を単語認識結果として出力する(ステップS3)。この場合は、従来の単語照合アルゴリズムと同等である。
【0019】
ステップS2の判定の結果、類似度値の大小などにより類似文字候補と見做し、文字構造認識を行なう場合は、文字構造認識部3の処理に移行する。文字構造認識部3では、まず、文字型判定部31において単語候補内に出現する各文字について文字型を判定し、文字型情報を取得する(ステップS4、S5)。
【0020】
すなわち、文字型判定部31においては、与えられた複数の文字候補リストの上位の文字候補の文字型を調べるために、文字構造データベース5へリクエストする。文字構造データベース5では、あらかじめ文字コードごとに部品文字のレイアウト情報が記憶されており、たとえば、「萩」という文字について問い合わせがきた場合には、(「上」「左下」「右下」)といった文字の大局的な構造についての情報を得ることができるようになっている。これを文字型と呼ぶ。
【0021】
図3は、これら文字型の分類を示したもので、前述した「萩」や「荻」の文字はタイプ1、(「左」「右」)の構造を持つ「秋」や「畑」の文字はタイプ2というように、部品文字のレイアウトごとに文字型が定義されていることを示している。文字候補リストには、同一の文字型が並ぶことが予想されるが、異なる文字型が混入している場合には、上位文字候補リストを考慮しつつ、代表の文字型を選択する。
【0022】
文字型は大局的な情報であるから、照合すべき単語候補を削減することを目的として使用される。文字構造認識部3の文字型判定部31において、単語候補の文字型を単語データベース6へリクエストすると、単語内文字解析部7において、該当する単語の文字型情報を文字構造データベース5から得ることができるようになっている。
【0023】
文字構造認識部3の認識判定部32では、上記のようにして得られた文字型情報と入力された単語候補の文字型とを比較することにより、文字型情報で単語認識が行なえるか否かを判定する(ステップS6)。この判定の決結果、文字型情報で単語認識が行なえる場合、得られた文字型情報を用いて当該単語の認識処理を行ない(ステップS7)、その認識結果を出力する(ステップS3)。
【0024】
なお、文字型が著しく異なり、詳細文字認識の必要がないと判断された場合には、リジェクト出力を認識結果として選択する。
【0025】
ステップS6の判定の決結果、文字型情報で単語認識が行なえない場合、詳細文字認識部4の処理に移行する(ステップS8)。詳細文字認識部4では、単語データベース6にリクエストして、該当文字の詳細文字認識に関する情報を入手する。単語データベース6では、文字型のチェックで棄却されなかった複数の類似単語候補がリストに残っている。文字型が等しい場合は、どの部分の部品文字が異なるのかという情報について、文字構造データベース5へリクエストする。文字構造データベース5内に蓄えられた文字型とその構成部品文字との対応関係についての情報を得ることにより、文字の認識を行なう上で、まずどの部分を着目するかを判定する。
【0026】
図4は、図3のタイプ1での例を取り上げている。図3でいうタイプ1に属する文字は多数考えられる。ところが、類似単語候補にあがっているリストから「萩田」か「荻田」の判別のみを行なう場合には、文字型でいう(「上」「右下」)の部品文字は共通しており、この区別には(「左下」)に位置する部品文字に着目すべきだ、という情報は、文字構造データベース5からの文字型と部品文字とその位置情報の対応関係から演算で求められる。
【0027】
また、部品文字についても、その形状が類似しているものをあらかじめクラスタリングしているので、図4のように類似部品カテゴリに含まれる「禾」と「木」を厳密に区別する必要がない場合、両者は同一部品文字として扱われる。文字構造データベース5で保持している、この同一類似部品カテゴリに含まれる要素の数については、曖昧さの度合いを示す尺度であり、要素数が大きければ、その形状は不定となるから、文字を構成する部品文字について、それぞれ上記の要素数を調べれば、文字を確定する際にどの位置の部品文字を調べればよいかという選択の基準を示している。
【0028】
詳細文字認識部4では、区別すべき部品文字位置の情報が認識判定部32の出力から得られているので、入力文字画像を正規化した後で、該当する領域付近の画像から部品文字画像を抽出する。一般に、印刷文字では、部品文字が明瞭に分かれているので、ラベリング処理で部品文字画像を得ることは容易である。また、部品文字が分離していない場合には、射影やペリフェラル特徴を用いて適当な位置において切断を行ない、部品文字画像を得る。このようにして得た部品文字画像について認識処理を行なうことにより、その部品文字画像が所望する部品文字カテゴリに属しているかどうかを判別できる。
【0029】
図5は、文字とその構造情報との対応関係を示している。文字構造データベース5は、各文字コードに対し、その大域的情報を表わす文字型aと、その部品文字がそれぞれどのような形状かという情報bと、各部品文字の属する類似部品文字カテゴリに関する情報(形状と数)cとを有しており、リクエストに応じてそれらの情報を提供できる仕組みになっている。
【0030】
図6は、入力文字画像から文字型判定や詳細文字認識を経て単語候補内に出現する文字の認識が行なわれる様子を模式的に示している。
【0031】
図7、図8は、いずれも類似した単語(名前)の認識を行なった具体例を示している。まず、図7では、3つの文字からなる名前候補があげられており、それぞれの文字型(タイプ)がブロック図で示されている。例では、最初の2つの文字の文字型を比較すれば判別できることを示している。
【0032】
同様に、図8では、いずれも等しい文字型を持つ類似単語候補があげられており、単語データベース6にその問い合わせをすれば、どの位置を認識すべきなのかについての情報を得ることができることを示している。例では、同一世帯における名前の認識をあげている。
【0033】
このように、上記実施の形態によれば、文字の構造、文字の型を定義し、あらかじめ照合すべき単語候補中に含まれる文字を分類しておくことを特徴とし、単語照合時の文字認識において、特に漢字などのように類似カテゴリが多い場合には、文字の大域的な情報や部品文字の形状についての情報を、照合させようとする単語候補に応じて適宜活用させることにより、類似度だけでなく文字構造の分類による識別が有効となり、より柔軟で汎用性に富み、単語認識時の性能が著しく向上する。
【0034】
また、この単語認識方法は、手書き文字にみられる続け文字、崩れ文字などにも有効であり、JISコードに収録されていない文字などが将来拡張・追加されても、同様の方法で対応できる。
【0035】
【発明の効果】
  以上詳述したように本発明によれば、より柔軟で汎用性に富み、単語認識の性能向上が図れる単語認識方法および単語認識装置を提供できる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る単語認識方法が適用される単語認識装置の構成を概略的に示すブロック図。
【図2】本発明の実施の形態に係る単語認識方法の流れを説明するためのフローチャート。
【図3】文字型の分類を説明する図。
【図4】文字構成部品のグループ化を説明する図。
【図5】文字とその構造情報との対応関係を説明する図。
【図6】入力文字画像から文字型判定や詳細文字認識を経て単語候補内に出現する文字の認識が行なわれる様子を模式的に示す図。
【図7】文字型で認識できる場合の類似単語認識の具体例を示す図。
【図8】詳細文字認識が必要となる場合の類似単語認識の具体例を示す図。
【符号の説明】
1…文字認識部、2…文字構造認識判定部、3…文字構造認識部、4…詳細文字認識部、5…文字構造データベース、6…単語データベース、7…単語内文字解析部、31…文字型判定部、32…認識判定部、41…部品文字位置検出部、42…部品文字画像切出部、43…部品文字認識部。[0001] 
 BACKGROUND OF THE INVENTION 
 The present invention relates to a word recognition method and a word recognition device that perform word recognition based on a character recognition result from an input character image, for example, in a document image processing device. 
 [0002] 
 [Prior art] 
 In character recognition, a general method is to prepare a character dictionary and perform matching processing with a dictionary pattern in order to determine which category a written character belongs to. Similarly, when word recognition is performed, a database of words that can be candidates is prepared in advance, and the word that is closest to the character is compared with the character recognition result of each character constituting the word. It is a common technique to measure the degree of. A well-known method is a so-called DP-matching method. 
 [0003] 
 By the way, if the recognition result of each character is uniformly reliable, word recognition is not so difficult, but if the result of character extraction in the word to be read is indeterminate, When characters change due to the influence of adjacent characters such as continuation characters, and when there are many similar characters, the result of character recognition ranked by the similarity value becomes unstable. Since correct character candidates are difficult to obtain correctly, there is a problem that a technique such as the DP-matching method described above is not effective. 
 [0004] 
 [Problems to be solved by the invention] 
 A prominent example in the case where correct character candidates cannot be obtained correctly is a case where there are many similar characters (assuming that the result of character segmentation is reliable to some extent). For example, take a Chinese character typified by a 2-byte character as an example. Compared with alphabetic characters, the number of categories to be recognized is thousands, and there are many similar characters. For example, as seen in the relationship between the characters “萩” and “荻”, the conventional word recognition method does not necessarily store the structural information of these characters, even though they are very close when measured by a similarity scale. The problem is not reflecting. 
 [0005] 
 Here, for example, in the case of recognizing a name described in a name list, when the words “Iwata” or “Iwata” must be strictly distinguished from the reading result, “萩” and “荻” It is necessary to compare the similarity values, which is equivalent to the conventional word recognition method. However, when this is a distinction between “Iwata” and “Akita”, and also “Iwata” and “Kida”, the general information of the character structure is extracted from the candidate sequence of character recognition results, and the former Can be recognized by reflecting the character structure by incorporating a process to check for the presence of "Kusakumuri", and in the latter, a process to more simply check the number of component characters that make up the character. Will improve. 
 [0006] 
 Therefore, an object of the present invention is to provide a word recognition method and a word recognition device that are more flexible and versatile and can improve the performance of word recognition. 
 [0007] 
 [Means for Solving the Problems] 
 The word recognition method of the present invention is a word recognition method for performing word recognition based on a character recognition result. Based on the character recognition result, for each character appearing in a word candidate, the separable component characters constituting the character A first step of determining a character type consisting of a spatial layout position and the number of characters of its component parts and acquiring character type information, and word recognition processing is performed using the character type information acquired in the first step. And a second step. 
 [0008] 
 According to another aspect of the present invention, there is provided a word recognition method for performing word recognition based on a character recognition result, a first step for determining whether or not to perform character structure recognition based on the character recognition result; If it is determined that character structure recognition is to be performed in one step, the spatial layout position and the configuration of separable component characters constituting the character for each character appearing in the word candidate based on the character recognition result A second step of determining a character type consisting of the number of component characters and acquiring character type information; a third step of performing word recognition processing using the character type information acquired in the second step; A fourth step of outputting the character recognition result as it is as a word recognition result when it is determined in step 1 that character structure recognition is not performed. 
 [0010] 
 DETAILED DESCRIPTION OF THE INVENTION 
 Hereinafter, embodiments of the present invention will be described with reference to the drawings. 
 [0011] 
 FIG. 1 schematically shows a configuration of a word recognition apparatus to which a word recognition method according to an embodiment of the present invention is applied. This word recognition device is roughly divided into a character recognition unit 1 that performs character recognition on an input character image including a word to be recognized, a character structure 
 [0012] 
 The character 
 [0013] 
 The detailed character recognition unit 4 includes a component character 
 [0014] 
 The 
 [0015] 
 The in-word 
 [0016] 
 Next, the word recognition method according to this embodiment in such a configuration will be described in detail with reference to the flowchart shown in FIG. 
 [0017] 
 First, for example, when a character image in a document image acquired by a scanner (not shown) is given, the character recognition unit 1 performs character recognition on the input character image, and the recognition result list is a character code. It is given as a pair with similarity (step S1). In a character candidate string (word candidates that are character recognition results), a plurality of pairs are given. 
 [0018] 
 The character structure 
 [0019] 
 As a result of the determination in step S2, when the character structure is recognized as a similar character candidate based on the similarity value, the process proceeds to the process of the character 
 [0020] 
 That is, the character 
 [0021] 
 FIG. 3 shows the classification of these character types. The characters “萩” and “荻” described above are of type 1, “autumn” and “field” having the structure of “(left” “right”). This indicates that a character type is defined for each component character layout, such as 
 [0022] 
 Since the character type is global information, it is used for the purpose of reducing word candidates to be collated. When the character 
 [0023] 
 The 
 [0024] 
 If the character type is significantly different and it is determined that detailed character recognition is not necessary, reject output is selected as the recognition result. 
 [0025] 
 If the result of determination in step S6 is that word recognition cannot be performed using the character type information, the process proceeds to the detailed character recognition unit 4 (step S8). The detailed character recognition unit 4 makes a request to the 
 [0026] 
 FIG. 4 takes up an example of type 1 in FIG. Many characters belonging to type 1 in FIG. However, when only “Iwata” or “Iwata” is discriminated from the list of similar word candidates, the part characters (“upper” and “lower right”) in the character type are common. The information that the component character located at (“lower left”) should be noted for distinction is obtained by calculation from the correspondence between the character type from the 
 [0027] 
 In addition, since component characters that have similar shapes are clustered in advance, there is no need to strictly distinguish between “禾” and “tree” included in similar component categories as shown in FIG. Both are treated as the same part character. The number of elements included in the same similar component category held in the 
 [0028] 
 In the detailed character recognizing unit 4, since the information of the component character position to be distinguished is obtained from the output of the 
 [0029] 
 FIG. 5 shows the correspondence between characters and their structure information. The 
 [0030] 
 FIG. 6 schematically shows how characters appearing in word candidates are recognized from the input character image through character type determination and detailed character recognition. 
 [0031] 
 7 and 8 show specific examples in which similar words (names) are recognized. First, in FIG. 7, name candidates consisting of three characters are listed, and each character type is shown in a block diagram. The example shows that it can be determined by comparing the character types of the first two characters. 
 [0032] 
 Similarly, in FIG. 8, similar word candidates having the same character type are listed, and it is possible to obtain information about which position should be recognized by making an inquiry to the 
 [0033] 
 As described above, according to the above-described embodiment, character structure and character type are defined, and characters included in word candidates to be collated are classified in advance. In particular, when there are many similar categories such as kanji, the similarity is obtained by appropriately utilizing the global information of characters and the information on the shape of component characters according to the word candidates to be matched. In addition, the classification based on the classification of the character structure becomes effective, and it is more flexible and versatile, and the performance at the time of word recognition is remarkably improved. 
 [0034] 
 This word recognition method is also effective for continuous characters, broken characters, and the like found in handwritten characters. Even if characters that are not recorded in the JIS code are expanded or added in the future, the same method can be used. 
 [0035] 
 【The invention's effect】 
 As described above in detail, according to the present invention, it is possible to provide a word recognition method and a word recognition device that are more flexible and versatile and can improve the performance of word recognition . 
 [Brief description of the drawings] 
 FIG. 1 is a block diagram schematically showing a configuration of a word recognition device to which a word recognition method according to an embodiment of the present invention is applied. 
 FIG. 2 is a flowchart for explaining the flow of a word recognition method according to the embodiment of the present invention. 
 FIG. 3 is a diagram for explaining character type classification; 
 FIG. 4 is a diagram illustrating grouping of character components. 
 FIG. 5 is a diagram for explaining the correspondence between characters and their structure information. 
 FIG. 6 is a diagram schematically illustrating a state in which characters appearing in word candidates are recognized from an input character image through character type determination and detailed character recognition. 
 FIG. 7 is a diagram showing a specific example of similar word recognition when it can be recognized in a character type. 
 FIG. 8 is a diagram showing a specific example of similar word recognition when detailed character recognition is required. 
 [Explanation of symbols] 
 DESCRIPTION OF SYMBOLS 1 ... Character recognition part, 2 ... Character structure recognition determination part, 3 ... Character structure recognition part, 4 ... Detailed character recognition part, 5 ... Character structure database, 6 ... Word database, 7 ... In-word character analysis part, 31 ... Character Type determination unit, 32 ... recognition determination unit, 41 ... component character position detection unit, 42 ... component character image cutout unit, 43 ... component character recognition unit.
    
Claims (6)
前記文字認識結果に基づき、単語候補内に出現する各文字について、文字を構成する分離可能な部品文字の空間的なレイアウト位置とその構成部品文字数からなる文字型を判定し、文字型情報を取得する第1のステップと、
この第1のステップにより取得された文字型情報を用いて単語認識処理を行なう第2のステップと、
を具備したことを特徴とする単語認識方法。In a word recognition method for performing word recognition based on a character recognition result,
Based on the character recognition result, for each character appearing in the word candidate, the character type information is obtained by determining the character type consisting of the spatial layout position of the separable component characters constituting the character and the number of the component characters. A first step to:
A second step of performing a word recognition process using the character type information acquired in the first step;
A word recognition method comprising:
前記文字認識結果に基づき文字構造認識を行なうか否かを判定する第1のステップと、
この第1のステップにより文字構造認識を行なうと判定された場合、前記文字認識結果に基づき、単語候補内に出現する各文字について、文字を構成する分離可能な部品文字の空間的なレイアウト位置とその構成部品文字数からなる文字型を判定し、文字型情報を取得する第2のステップと、
この第2のステップにより取得された文字型情報を用いて単語認識処理を行なう第3のステップと、
前記第1のステップにより文字構造認識を行なわないと判定された場合、前記文字認識結果をそのまま単語認識結果として出力する第4のステップと、
を具備したことを特徴とする単語認識方法。In a word recognition method for performing word recognition based on a character recognition result,
A first step of determining whether to perform character structure recognition based on the character recognition result;
When it is determined that the character structure recognition is performed in the first step, based on the character recognition result, for each character appearing in the word candidate, a spatial layout position of separable component characters constituting the character and A second step of determining a character type consisting of the number of characters of the component parts and acquiring character type information;
A third step of performing word recognition processing using the character type information acquired in the second step;
A fourth step of outputting the character recognition result as it is as a word recognition result when it is determined not to perform character structure recognition in the first step;
A word recognition method comprising:
前記文字認識結果に基づき、単語候補内に出現する各文字について、文字を構成する分離可能な部品文字の空間的なレイアウト位置とその構成部品文字数からなる文字型を判定し、文字型情報を取得する第1の手段と、 Based on the character recognition result, for each character appearing in the word candidate, the character type information is obtained by determining the character type consisting of the spatial layout position of the separable component characters constituting the character and the number of the component characters. First means to:
この第1の手段により取得された文字型情報を用いて単語認識処理を行なう第2の手段と、 Second means for performing word recognition processing using the character type information acquired by the first means;
を具備したことを特徴とする単語認識装置。 A word recognition device characterized by comprising:
前記文字認識結果に基づき文字構造認識を行なうか否かを判定する第1の手段と、 First means for determining whether to perform character structure recognition based on the character recognition result;
この第1の手段により文字構造認識を行なうと判定された場合、前記文字認識結果に基づき、単語候補内に出現する各文字について、文字を構成する分離可能な部品文字の空間的なレイアウト位置とその構成部品文字数からなる文字型を判定し、文字型情報を取得する第2の手段と、 When it is determined that the character structure recognition is performed by the first means, based on the character recognition result, for each character appearing in the word candidate, a spatial layout position of separable component characters constituting the character and A second means for determining a character type consisting of the number of characters of the component parts and obtaining character type information;
この第2の手段により取得された文字型情報を用いて単語認識処理を行なう第3の手段と、 Third means for performing word recognition processing using the character type information acquired by the second means;
前記第1の手段により文字構造認識を行なわないと判定された場合、前記文字認識結果をそのまま単語認識結果として出力する第4の手段と、 Fourth means for outputting the character recognition result as it is as a word recognition result when it is determined by the first means that character structure recognition is not performed;
を具備したことを特徴とする単語認識装置。 A word recognition device characterized by comprising:
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2001210982A JP4805485B2 (en) | 2001-07-11 | 2001-07-11 | Word recognition method and word recognition device | 
| KR10-2002-0038220A KR100473660B1 (en) | 2001-07-11 | 2002-07-03 | Word recognition method | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2001210982A JP4805485B2 (en) | 2001-07-11 | 2001-07-11 | Word recognition method and word recognition device | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JP2003030588A JP2003030588A (en) | 2003-01-31 | 
| JP4805485B2 true JP4805485B2 (en) | 2011-11-02 | 
Family
ID=19046376
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2001210982A Expired - Fee Related JP4805485B2 (en) | 2001-07-11 | 2001-07-11 | Word recognition method and word recognition device | 
Country Status (2)
| Country | Link | 
|---|---|
| JP (1) | JP4805485B2 (en) | 
| KR (1) | KR100473660B1 (en) | 
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| KR20200010777A (en) * | 2018-07-23 | 2020-01-31 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | Character recognition using previous recognition result of similar character | 
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPS57209574A (en) * | 1981-06-19 | 1982-12-22 | Fujitsu Ltd | Kanji (chinese characters) recognizing device | 
| JPS6075981A (en) * | 1983-10-03 | 1985-04-30 | Oki Electric Ind Co Ltd | Recognizing method of assembly pattern of hangul character | 
| JPH0436885A (en) * | 1990-05-31 | 1992-02-06 | Sharp Corp | Optical character reader | 
| JPH06111079A (en) * | 1992-09-30 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | Word reader | 
| JPH07121660A (en) * | 1993-10-25 | 1995-05-12 | Hitachi Ltd | Handwriting recognition device | 
| JPH0896081A (en) * | 1994-09-29 | 1996-04-12 | Toshiba Corp | Character recognition device and character recognition method | 
| JPH0916723A (en) * | 1995-06-28 | 1997-01-17 | Canon Inc | Character recognition device and control method thereof | 
| JP2825072B2 (en) * | 1995-08-09 | 1998-11-18 | 日本電気株式会社 | String recognition device | 
| KR19980058361A (en) * | 1996-12-30 | 1998-09-25 | 구자홍 | Korean Character Recognition Method and System | 
| JPH11134439A (en) * | 1997-10-30 | 1999-05-21 | Oki Electric Ind Co Ltd | Method for recognizing word | 
| KR100285765B1 (en) * | 1997-12-13 | 2001-01-05 | Lg Electronics Inc | Method for recognizing hangul font | 
| JPH11191138A (en) * | 1997-12-25 | 1999-07-13 | Toshiba Corp | Kanji input method and character input device using handwritten character recognition function | 
- 
        2001
        - 2001-07-11 JP JP2001210982A patent/JP4805485B2/en not_active Expired - Fee Related
 
- 
        2002
        - 2002-07-03 KR KR10-2002-0038220A patent/KR100473660B1/en not_active Expired - Fee Related
 
Also Published As
| Publication number | Publication date | 
|---|---|
| KR100473660B1 (en) | 2005-03-10 | 
| JP2003030588A (en) | 2003-01-31 | 
| KR20030007019A (en) | 2003-01-23 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| US6996295B2 (en) | Automatic document reading system for technical drawings | |
| US8340429B2 (en) | Searching document images | |
| TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
| JP3445394B2 (en) | How to compare at least two image sections | |
| US8300942B2 (en) | Area extraction program, character recognition program, and character recognition device | |
| Khurshid et al. | Word spotting in historical printed documents using shape and sequence comparisons | |
| KR100412317B1 (en) | Character recognizing/correcting system | |
| JPH0830732A (en) | Character recognition method | |
| KR19980018029A (en) | Character recognition device | |
| Casey et al. | Optical recognition of chemical graphics | |
| JPH11203415A (en) | Device and method for preparing similar pattern category discrimination dictionary | |
| JP4805485B2 (en) | Word recognition method and word recognition device | |
| US9015573B2 (en) | Object recognition and describing structure of graphical objects | |
| JP2020047031A (en) | Document retrieval device, document retrieval system and program | |
| US9224040B2 (en) | Method for object recognition and describing structure of graphical objects | |
| JP2002183667A (en) | Character recognition device and recording medium | |
| JPH08255223A (en) | Similar character discrimination method in character recognition device | |
| JP2000137728A (en) | Document analysis device and program recording medium | |
| JP3790736B2 (en) | Dictionary creation device for character recognition and character recognition device | |
| JPH0638276B2 (en) | Pattern identification device | |
| Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
| JP3620299B2 (en) | Document filing device and document filing method | |
| JP3487400B2 (en) | Character recognition device, character recognition method, and storage medium | |
| JP2006092226A (en) | Document attribute acquisition method and device and recording medium with program recorded thereon | |
| JP2734387B2 (en) | Character recognition device | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080627 | |
| A977 | Report on retrieval | Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110113 | |
| A131 | Notification of reasons for refusal | Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110125 | |
| A521 | Request for written amendment filed | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110323 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110719 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110811 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 | |
| LAPS | Cancellation because of no payment of annual fees |