JP5353325B2 - Document data generation apparatus and document data generation method - Google Patents
Document data generation apparatus and document data generation method Download PDFInfo
- Publication number
- JP5353325B2 JP5353325B2 JP2009056380A JP2009056380A JP5353325B2 JP 5353325 B2 JP5353325 B2 JP 5353325B2 JP 2009056380 A JP2009056380 A JP 2009056380A JP 2009056380 A JP2009056380 A JP 2009056380A JP 5353325 B2 JP5353325 B2 JP 5353325B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- character
- document data
- data generation
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、文書データ生成装置と文書データ生成方法に関する。 The present invention relates to a document data generation apparatus and a document data generation method.
         
  近年、紙文書などに印刷された状態で管理されていた文字情報は、光学的読み取り装置などにより電子データとして画像データに変換し、その画像データに対して光学文字認識(Optical  Character  Recognition:OCR)処理を施すことにより、画像データ中の各文字を文字データに変換して電子ファイル化することが行われている。
  しかしながら、OCRによる文字認識処理には誤認識があるため、スキャンした画像データを捨てて代わりにOCRで認識された文字データのみから成る文書データに変換すると、誤認識された文字に関しては元の正しい情報が失われてしまう。
  そのため、スキャンした画像データをそのまま残し、その画像データにOCRによって得られた文字データを加え、透明なテキストデータとすることで、画像データによる視認性と、文字データによる検索性を兼ね備えた電子データに変換することが行われている。
In recent years, character information that has been managed in a printed state on a paper document or the like is converted into image data as electronic data by an optical reader or the like, and optical character recognition (OCR) is performed on the image data. By performing processing, each character in the image data is converted into character data and converted into an electronic file. 
 However, since the character recognition processing by OCR has misrecognition, if the scanned image data is discarded and converted to document data consisting only of character data recognized by OCR instead, the original correct character will be correct. Information is lost. 
 Therefore, the scanned image data is left as it is, and the character data obtained by OCR is added to the image data to form transparent text data, thereby providing electronic data that has both visibility by image data and searchability by character data. The conversion is done.
      
         
  従来、文書イメージに含まれるテキストイメージ部分を文字認識して生成したテキストデータと、文書イメージにおける対応位置を示す座標情報とを関連付けるテーブルを生成し、文書イメージにおける対応位置に基づいて検索結果を表示する文書データ生成装置(例えば、特許文献1参照)があった。
  また、イメージ文書を対象とした文字認識処理を実行した結果出力されるテキストによる文書データについて、検索文字列を所定数の文字単位の部分に分割し、その各部分ごとに誤認識される可能性の高い文字形状の類似した類似文字列を格納し、その類似文字列を組み合わせて検索結果の展開語を生成する文書データ生成装置(例えば、特許文献2参照)があった。
Conventionally, a table that associates text data generated by character recognition of a text image part included in a document image and coordinate information indicating a corresponding position in the document image is generated, and a search result is displayed based on the corresponding position in the document image. There is a document data generation device (see, for example, Patent Document 1). 
 In addition, for text document data output as a result of executing character recognition processing for image documents, the search character string may be divided into a predetermined number of character units, and each part may be erroneously recognized. There is a document data generation device (see, for example, Patent Document 2) that stores similar character strings having a high character shape and generates similar words as search results by combining the similar character strings.
      
           
  しかしながら、上述した従来の文書データ生成装置では、前者の文書データ生成装置では、OCRが誤認識した場合は、誤った文字データを生成してしまうので、当然のことながら正しいキーワードでは検索することが出来ない文書データを生成してしまうという問題があった。
  また、後者の文書データ生成装置では、検索時に検索タームを拡張するため、特別な検索システムが必要となってしまう点や、文書ファイルと別に検索用の類似文字列を格納しておかなくてはならないため、管理が容易でないという問題があった。
  この発明は上記の点に鑑みてなされたものであり、文字認識確度の低いテキストの検索精度を高めた文書データを作成できるようにすることを目的とする。
However, in the above-described conventional document data generation apparatus, if the former document data generation apparatus erroneously recognizes the OCR, erroneous character data is generated. There was a problem of generating unusable document data. 
 In the latter document data generation device, the search term is expanded at the time of search, so that a special search system is required, and a similar character string for search must be stored separately from the document file. Therefore, there is a problem that management is not easy. 
 The present invention has been made in view of the above points, and an object of the present invention is to make it possible to create document data with improved text search accuracy with low character recognition accuracy.
        
           
  この発明は上記の目的を達成するため、画像データと上記画像データから文字認識した文字データとを含む文書データを生成する文書データ生成装置であって、上記文字認識において、上記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、その複数の認識候補の文字データを非可視データにして、上記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成手段を備えた文書データ生成装置を提供する。
  また、上記複数の認識候補の文字データに、最も確度の高い文字データが含まれるようにするとよい。
  さらに、上記複数の認識候補の文字データから予め登録された辞書に登録されていない文字データを除外する手段を設けるとよい。
In order to achieve the above object, the present invention provides a document data generation apparatus that generates document data including image data and character data recognized from the image data. when character data for the plurality of recognition candidate obtained in units, and character data for the plurality of recognition candidate invisible data, at or near the corresponding predetermined separator unit of the image data, adds at different layers Thus, a document data generation apparatus provided with document data generation means for generating document data is provided. 
 The character data with the highest accuracy may be included in the character data of the plurality of recognition candidates. 
 Furthermore, it is preferable to provide means for excluding character data not registered in a dictionary registered in advance from the plurality of recognition candidate character data.
        
           
  また、上記所定区切り単位を、単語、空白によって区切られた単語、属性の異なる文字を区切りとする文字列、行、段落、連続するn(nは正の整数)文字を重複的に区切る単位のいずれかにするとよい。 
  さらに、画像データと上記画像データから文字認識した文字データとを含む文書データを生成する文書データ生成方法であって、上記文字認識において、上記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、その複数の認識候補の文字データを非可視データにして、上記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成工程を備えた文書データ生成方法も提供する。
In addition, the predetermined delimiter unit is a unit that delimits a word, a word delimited by a space, a character string, a line, a paragraph, and a continuous n (n is a positive integer) character delimited by different characters. Either one is good. 
 Further, a document data generation method for generating document data including image data and character data recognized from the image data, wherein, in the character recognition, a plurality of recognition candidate character data in a predetermined delimiter unit of the image data. If is obtained, by the character data of the plurality of recognition candidate invisible data, at or near the corresponding predetermined separator unit of the image data, document data to generate the document data by adding at different layers A document data generation method including a generation process is also provided.
        
この発明による文書データ生成装置と文書データ生成方法は、文字認識確度の低いテキストの検索精度を高めた文書データを作成することができる。 The document data generation apparatus and the document data generation method according to the present invention can create document data with improved text search accuracy with low character recognition accuracy.
        
        
         
  以下、この発明を実施するための形態を図面に基づいて具体的に説明する。
〔実施例〕
  図1は、この発明の文書データ生成装置における主要部分の機能構成を示すブロック図である。
  図2は、この文書データ生成装置における文書データ生成処理を示すフローチャート図である。
  図3は、文字領域抽出の説明図である。
  図4は、単語単位の区切り単位の一例を示す図である。
  図5は、透明テキストデータの付加の説明図である。
  図6は、透明テキストデータの他の付加例の説明図である。
  図7は、透明テキストデータのまた他の付加例の説明図である。
Hereinafter, embodiments for carrying out the present invention will be specifically described with reference to the drawings. 
 〔Example〕 
 FIG. 1 is a block diagram showing a functional configuration of main parts in the document data generating apparatus of the present invention. 
 FIG. 2 is a flowchart showing document data generation processing in this document data generation apparatus. 
 FIG. 3 is an explanatory diagram of character area extraction. 
 FIG. 4 is a diagram illustrating an example of a delimiter unit in units of words. 
 FIG. 5 is an explanatory diagram of addition of transparent text data. 
 FIG. 6 is an explanatory diagram of another example of addition of transparent text data. 
 FIG. 7 is an explanatory diagram of still another example of addition of transparent text data.
      
         
  この文書データ生成装置は、ファクシミリ装置,プリンタ,複写機,複合機,コンピュータを含む文書データを扱う装置であり、CPU,ROM及びRAMからなるマイクロコンピュータを備えており、CPUがROMに格納されたプログラムの手順を実行することによって文書作成方法の工程を実施し、図1に示すように、1〜6の各機能部の機能を実現する。
  まず、図2のステップ(図中「S」と記載する)1で、図示を省略したスキャナなどの画像読取部で読み取られた画像データを画像入力部1に入力する。
  その画像データは、文字情報などを持たない、いわゆるラスタ画像、ビットマップ画像と呼ばれる形式のデータである。
  図2のステップ2では、画像入力部1は入力された画像データに対して最初に前処理を施す。
  その前処理とは、文字認識処理の精度を向上させるための画像処理であり、エッジ強調や、画像の二値化、向き補正などの処理である。
This document data generating apparatus is a device that handles document data including a facsimile machine, a printer, a copier, a multifunction machine, and a computer. The document data generating apparatus includes a microcomputer including a CPU, a ROM, and a RAM, and the CPU is stored in the ROM. By executing the procedure of the program, the steps of the document creation method are implemented, and the functions of the respective 
 First, in step (denoted as “S” in the drawing) 1 in FIG. 2, image data read by an image reading unit such as a scanner (not shown) is input to the 
 The image data is data in a format called a so-called raster image or bitmap image that does not have character information or the like. 
 In 
 The preprocessing is image processing for improving the accuracy of character recognition processing, and includes processing such as edge enhancement, image binarization, and orientation correction.
      
         
  次に、図2のステップ3で、文字領域抽出部2によって画像データから文字領域を抽出する。
  その文字領域の抽出方法は、例えば、二値化を施した画像データに収縮処理を行い、輪郭線を追跡することによって求まる画素の固まりの外接矩形の大きさから文字領域か否かを判別する技術(例えば、特開2004−64664号公報に記載された技術参照)がある。
  例えば、図3に示す画像データの場合、図中矩形枠10で示す文字領域の画像データを抽出する。
Next, in 
 The character region extraction method is, for example, performing a contraction process on the binarized image data, and determining whether or not the character region is based on the size of the circumscribed rectangle of the cluster of pixels obtained by tracing the outline. There is a technique (for example, refer to the technique described in Japanese Patent Application Laid-Open No. 2004-64664). 
 For example, in the case of the image data shown in FIG. 3, the image data of the character region indicated by the 
         
  次に、図2のステップ4で、文字認識部3によって抽出された文字領域データから文字列部分を切り出し、文字認識対象となる言語の文字辞書の画像パターンとパターンマッチングを行うことで文字認識を行う。
  その時、文字認識において複数の文字データが認識候補として挙がった場合、それらの文字データを後述のテキストデータ生成に用いる。
  例えば、実際には“l”という文字を表す画像であるが、マッチングの結果、類似度が大きい順に“t”“l”“i”“j”…と認識されたとする。
  そのうち、ある閾値以上の類似度のものが“t”と“l”であったとすると、認識結果の候補は“t”と“l”である。
Next, in 
 At that time, when a plurality of character data are listed as recognition candidates in character recognition, these character data are used for generating text data to be described later. 
 For example, it is actually an image representing the character “l”, but as a result of matching, “t” “l” “i” “j”... Are recognized in descending order of similarity. 
 Of these, if the similarity of a certain threshold value or higher is “t” and “l”, the recognition result candidates are “t” and “l”.
      
         
  次に、図2のステップ5で、文字認識部3によって文字領域データに含まれる文字を単語単位で分割する。
  その場合、文字認識処理の対象を英語として処理することを要求された場合、空白を検出することで、空白によって区切られた単語単位に分割する。
  空白は、文字領域とされた矩形内で、文字連続方向に垂直に走査した場合に画素のないラインがある長さだけ連続した箇所を空白とすることで容易に検出できる。
  この処理は、文字領域検出の処理段階で分割を行うようにしてもよい。
  例えば、図4に示すように、英文を空白によって区切られた単語単位で分割した場合、図中それぞれ矩形枠11〜18で示すように、“He”“lied”“when”“he”“said”“he”“loved”“me.”の各英単語毎に分割される。
Next, in 
 In that case, when it is requested to process the target of character recognition processing as English, a blank is detected to divide into word units delimited by the blank. 
 A blank can be easily detected by setting a portion where a line having no pixels continues for a certain length as a blank in a rectangle defined as a character area when scanned vertically in the character continuous direction. 
 In this process, the division may be performed in the character area detection process. 
 For example, as shown in FIG. 4, when an English sentence is divided in units of words separated by spaces, as shown by 
         
  次に、図2のステップ6で、テキストデータ生成部4によって文字認識候補からテキストデータを生成する。
  テキストデータ生成部4は、画像データから認識された複数の認識候補の文字データを全て一つのテキストデータオブジェクトに入れるとすると、生成されたテキストデータ中の、連続する文字列全てを検索の対象とすることが可能だが(例えば“Heli”のような検索に対してもヒットさせることができる)、複数の文字認識候補が存在した場合、その候補を用いて対象となる画像全域のテキストデータを生成しなくてはならない。
  例えば“l”を“l”と認識した場合のテキストデータを全域で生成し、かつ“l”を“t”と認識した場合のテキストデータを全域で生成しなくてはならない。
Next, in 
 When the text 
 For example, text data when “l” is recognized as “l” must be generated in the entire area, and text data when “l” is recognized as “t” must be generated in the entire area.
      
         
  さらに、文字認識候補が複数存在する文字がいくつもあると、その候補の組み合わせが、文字の数に応じて膨大になってしまう。
  逆に、文字の認識結果の複数の候補を、そのまま文字単位でテキストデータとして埋め込むと、例えば、図6では、単語“lied”の各文字“l”“i”“e”“d”について、“l”という文字に対して“t”と“l”の候補があったため両方埋め込むことが出来るが、このように生成されたテキストデータは、“lie”というキーワード検索に対してヒットしない。また、“d”の文字についても“d”と“q”の候補があったため上述と同じ理由でヒットしないキーワードができてしまう。図6の各文字には矩形枠30〜35を付して示す。
Further, if there are a large number of characters having a plurality of character recognition candidates, the combinations of the candidates become enormous according to the number of characters. 
 Conversely, when a plurality of candidates for character recognition results are embedded as text data in units of characters, for example, in FIG. 6, for each character “l” “i” “e” “d” of the word “lied”, Since there are “t” and “l” candidates for the character “l”, both can be embedded, but the text data generated in this way does not hit the keyword search “lie”. In addition, since there are candidates for “d” and “q” for the character “d”, a keyword that does not hit is created for the same reason as described above. Each character in FIG. 6 is shown with a rectangular frame 30-35.
      
         
  そこで、検索の容易性とデータ容量抑制を両立させるために、前述した区切りの単位である単語単位でテキストデータ生成を行う。
  空白によって区切られた単位である“lied”領域のテキストデータとして、“lied”領域から文字と認識された候補を組み合わせてテキストデータを生成する。
  例えば“l”の文字の認識候補が“t”と“l”であり、“d”の文字の認識候補が“d”と“q”であり、“i”と“e”はそれぞれ正しく認識した文字のみが候補であったとすると、図7に示すように、各候補を網羅的に組み合わせて“tied”“lied”“tieq”“lieq”の4つのテキストデータを生成する。図7の各テキストデータを矩形枠36〜39で示す。
Therefore, in order to achieve both ease of search and data volume reduction, text data is generated in units of words, which are the delimiter units described above. 
 Text data is generated by combining candidates recognized as characters from the “lied” area as text data of the “lied” area, which is a unit delimited by white space. 
 For example, “l” character recognition candidates are “t” and “l”, “d” character recognition candidates are “d” and “q”, and “i” and “e” are recognized correctly. Assuming that only the selected character is a candidate, as shown in FIG. 7, four candidates of “tied”, “lied”, “tieq”, and “lieq” are generated by comprehensively combining the candidates. Each text data in FIG. 7 is indicated by rectangular frames 36-39.
      
         
  次に、図2のステップ7で、透明テキストデータ生成部5によって透明テキストデータを生成する。
  この透明テキストデータは、画像データから認識された文字から成るテキストデータを、文字領域抽出処理もしくは単語への分割処理の際に検出した画像データ中の対応する部分の座標データに対応させて付加(付与)するデータであり、後に、文書ファイルをビューアで表示させた際には、画像データとテキストデータは、表示上ではおなじ場所に異なるレイヤとして存在することになり、画像データの閲覧を妨げないために、テキストデータに透明色の色情報を付与して、透明(非可視データ)にしている。
  透明テキストデータ生成部5では、前段で生成されたテキストデータのそれぞれに、文字領域抽出部2から受け取った対応する画像データ中の座標データと、テキストの描画色のデータ、さらに必要に応じてフォントデータなどを加えて透明テキストデータを生成する。上記描画色は通常は透過色にするが、異なる色を割り当てても構わない。また、かすかに見える程度の色にしても同様の効果を有する。
Next, in step 7 in FIG. 2, transparent text data is generated by the transparent text 
 This transparent text data is added in correspondence with the coordinate data of the corresponding part in the image data detected during the character region extraction process or the word segmentation process. If the document file is later displayed in the viewer, the image data and text data will exist as different layers at the same location on the display, and will not hinder the browsing of the image data. Therefore, transparent color information is added to the text data to make it transparent (invisible data). 
 In the transparent text 
         
  次に、図2のステップ8で、文書ファイル生成部6は文書ファイルを生成し、図示を省略した記憶部に記憶する。
  文書ファイル生成部6は、画像入力部1から受け取った最後にラスタ画像である入力の画像データと、透明テキストデータ生成部5から受け取った透明テキストデータを用いて、文書データ中の該当する位置又は近傍に透明テキストデータ(文字コードとしてのベクトルデータ)を埋め込むことによって付加し、文書ファイル(文書データ)を生成する。
  例えば、図5に示すように、図中それぞれ矢印11〜18で示すように、“He”“lied”“when”“he”“said”“he”“loved”“me.”の各画像部分の位置又は近傍には、図中それぞれ矩形枠21〜28で示すように、それぞれの認識候補の透明テキストデータが付与(付加)される。
  このような構造を持つ文書フォーマットとしてPDFが良く知られている。
  このようにして、文字認識確度の低いテキストでも複数の認識候補が付加されているので、文字認識確度の低いテキストの検索精度を高めることができる。
Next, in step 8 of FIG. 2, the document 
 The document 
 For example, as shown in FIG. 5, as indicated by 
 PDF is well known as a document format having such a structure. 
 In this way, since a plurality of recognition candidates are added even for text with low character recognition accuracy, the search accuracy of text with low character recognition accuracy can be increased.
      
         
  次に、日本語などの文章中を空白で区切らない言語の場合には、ユーザが検索時に独立して検索する可能性の高い区切りをもって、テキストデータを埋め込むと良い。
  例えば、上述の処理において、所定の区切り単位として、漢字、数字、英字、カタカナ、ひらがなといった文字の属性が変化する箇所を区切り単位にする。
  図8は、ひらがなから漢字に文字属性が変化する箇所を区切り単位にした例を示す図であり、図中に矢印40〜42で示すように“寒さ”“忘れる”“詩的空間”の各画像の対応する位置に、図中矩形枠43〜48で示すように、それぞれ透明テキストデータが付加される。
Next, in the case of a language that does not separate a sentence such as Japanese with a space, it is preferable to embed text data with a break that is highly likely to be searched independently by the user during the search. 
 For example, in the above-described processing, as a predetermined delimiter unit, a place where a character attribute such as a Chinese character, a number, an English letter, a katakana, or a hiragana character changes is used as the delimiter unit. 
 FIG. 8 is a diagram showing an example in which a part where the character attribute changes from hiragana to kanji is used as a delimiter unit. As shown by 
         
  同図では、見易くするために、画像部分に対して付加された各透明テキストデータの位置をずらして示しているが、同一レイヤあるいは異なるレイヤで画像部分に完全に重なるように付加してよい。
  また、漢字からひらがなに変化する箇所も区切りとするのであれば、さらに寒、さ、忘、れる、詩的空間と分割するとよい。
  さらに、“る”を“3”と認識する候補が存在した場合には、“れる”というテキストデータに加えて、“れ”+“3”という、異なる区切りによるテキストデータを生成するとよい。
In the figure, for the sake of clarity, the position of each transparent text data added to the image portion is shifted, but it may be added so as to completely overlap the image portion in the same layer or different layers. 
 In addition, if the place where the hiragana characters change from kanji is also used as a break, it is better to divide it into a poetic space that is cold, cold, forgetful. 
 In addition, when there is a candidate for recognizing “ru” as “3”, in addition to the text data “re”, text data with different delimiters “re” + “3” may be generated.
      
         
  次に、図9は“的”という文字だけ“的”と“助”の二つの候補が存在した場合の例である。
  まず、文字認識結果から最も確度が高い認識文字のみを用いて検出された文字領域全体でのテキストデータを生成する。
  つまり、図中矢印50で示す画像データ“寒さ忘れる詩的空間”から、図中矩形枠51で示す“寒さ忘れる詩的空間”というテキストデータを生成する。
  続いて、複数の認識候補が存在する文字を含むn(nは正の整数)文字単位で、その候補を用いて重複してテキストデータを生成する。
Next, FIG. 9 shows an example in which two candidates “target” and “help” exist only for the character “target”. 
 First, text data is generated for the entire character region detected using only the recognized character with the highest accuracy from the character recognition result. 
 In other words, text data “poetic space forgetting cold” shown by a rectangular frame 51 in the figure is generated from image data “poetic space forgetting cold” in the figure. 
 Subsequently, text data is generated by duplication using n (n is a positive integer) character unit including a character having a plurality of recognition candidates.
      
         
  例えば、n=2の場合、最も確度の高い候補を除いた候補を用いて前後2文字の認識文字と組み合わせてテキストデータを生成するので、図中矩形枠52,53で示すように、“詩助”と“助空”の二つが追加のテキストデータとして生成される。
  そして、それぞれ画像データ中の座標に対応して透明テキストデータを埋め込む。
  さらに、上述の処理は、所定の区切り単位として単語,空白で区切られた単語,属性の異なる文字列,連続するn文字を重複的に区切る単位の他に、行単位,段落単位でも同様にして実施することができる。
For example, in the case of n = 2, text data is generated using a candidate excluding a candidate with the highest degree of accuracy and combined with two recognized characters before and after, so that “poetry” is indicated by 
 Then, transparent text data is embedded corresponding to the coordinates in the image data. 
 Further, the above processing is performed in the same manner in units of lines and paragraphs as well as units of words, words separated by spaces, character strings having different attributes, units of overlapping n consecutive characters as predetermined delimiters. Can be implemented.
      
         
  次に、文字認識処理には、単語辞書などの知識を用いて文字列単位で認識する方法がある。
  これは、辞書に存在しない文字列、例えば“lied”を“lieq”と誤認識するケースを減らせるため、それだけでも認識率を向上させる効果があるが、“lied”を“tied”,“lied”の順に類似度が大きいと誤認識する可能性もある。すなわち、文字認識処理において、予め登録された辞書に登録されていない文字データを除外するのである。
  このような辞書をベースに文字列で認識を行う場合は、認識した文字列の候補が複数存在した場合は、それぞれを辞書中でマッチングされた単位で、それぞれテキストデータを生成し、透明テキストデータとして埋め込む。
Next, in the character recognition process, there is a method of recognizing in units of character strings using knowledge such as a word dictionary. 
 This can reduce the number of cases where a character string that does not exist in the dictionary, for example, “lied” is erroneously recognized as “lieq”, so that it alone has the effect of improving the recognition rate, but “lied” is changed to “tied”, “lied”. There is a possibility of misrecognizing that the degree of similarity is large in the order of " That is, in the character recognition process, character data not registered in a previously registered dictionary is excluded. 
 When recognizing a character string based on such a dictionary, if there are multiple recognized character string candidates, text data is generated in units that are matched in the dictionary, and transparent text data is generated. Embed as
      
         
  この実施例の文書生成装置は、OCRの認識結果によって文字認識候補が複数存在した場合に、候補を複数同時にテキストデータとして埋め込むことが出来るため、特別な検索システムを用いずとも、通常の完全一致の検索システムを用いて、正しい認識のテキストデータが生成される可能性が高くなる。
  また、それぞれ画像データの対応する位置に埋め込むため、ユーザがテキスト検索を行う際に、検索結果のハイライト表示を文書中の望ましい位置に行える。
  さらに、文字認識候補が複数存在する場合には、テキストデータを重複して埋め込むことになるが、文字認識候補を含む単語や行などの単位でテキストデータを複数生成するため、付与すべきテキストデータをいたずらに増加させないまま、単語や行などの単位での検索をより効率的に行うことができる。
The document generation apparatus according to this embodiment can embed a plurality of candidates as text data at the same time when there are a plurality of character recognition candidates based on the recognition result of the OCR. There is a high possibility that text data with correct recognition will be generated using the above search system. 
 In addition, since each is embedded at a corresponding position in the image data, when the user performs a text search, the search result can be highlighted at a desired position in the document. 
 Furthermore, if there are multiple character recognition candidates, the text data will be embedded in duplicate. However, since multiple text data are generated in units such as words and lines that contain the character recognition candidates, the text data to be given It is possible to search more efficiently in units of words, lines, etc. without unnecessarily increasing.
      
この発明による文書データ生成装置と文書データ生成方法は、ファクシミリ装置,プリンタ,複写機,複合機,コンピュータを含む文書データを扱う装置全般において適用することができる。 The document data generating apparatus and the document data generating method according to the present invention can be applied to all apparatuses that handle document data, including facsimile machines, printers, copiers, multifunction machines, and computers.
1:画像入力部 2:文字領域抽出部 3:文字認識部 4:テキストデータ生成部 5:透明テキストデータ生成部 6:文書ファイル生成部 1: Image input unit 2: Character region extraction unit 3: Character recognition unit 4: Text data generation unit 5: Transparent text data generation unit 6: Document file generation unit
          
Claims (10)
前記文字認識において、前記画像データの所定区切り単位で複数の認識候補の文字データが得られた場合、該複数の認識候補の文字データを非可視データにして、前記画像データの対応する所定区切り単位の位置又は近傍に、それぞれ異なるレイヤで付加して文書データを生成する文書データ生成手段を備えたことを特徴とする文書データ生成装置。 A document data generation device that generates document data including image data and character data recognized from the image data,
In the character recognition, the case where character data of a plurality of recognition candidates at a predetermined separator unit of image data is obtained, and the character data of the recognition candidates of the plurality of invisible data, the corresponding predetermined separator unit of the image data A document data generation apparatus comprising: document data generation means for generating document data by adding different layers at or in the vicinity of each other .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2009056380A JP5353325B2 (en) | 2009-03-10 | 2009-03-10 | Document data generation apparatus and document data generation method | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2009056380A JP5353325B2 (en) | 2009-03-10 | 2009-03-10 | Document data generation apparatus and document data generation method | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JP2010211470A JP2010211470A (en) | 2010-09-24 | 
| JP5353325B2 true JP5353325B2 (en) | 2013-11-27 | 
Family
ID=42971563
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2009056380A Expired - Fee Related JP5353325B2 (en) | 2009-03-10 | 2009-03-10 | Document data generation apparatus and document data generation method | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP5353325B2 (en) | 
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP5672953B2 (en) * | 2010-10-26 | 2015-02-18 | 株式会社リコー | Image processing apparatus, image processing method, and image processing program | 
| JP6201686B2 (en) * | 2013-11-26 | 2017-09-27 | コニカミノルタ株式会社 | Text data embedding apparatus, image processing apparatus including the apparatus, text data embedding method, and embedding program | 
| JP6070809B1 (en) * | 2015-12-03 | 2017-02-01 | 国立大学法人静岡大学 | Natural language processing apparatus and natural language processing method | 
| JP7379876B2 (en) | 2019-06-17 | 2023-11-15 | 株式会社リコー | Character recognition device, document file generation method, document file generation program | 
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH0535801A (en) * | 1991-07-30 | 1993-02-12 | Toshiba Corp | Image storing and retrieving device | 
| JP4421134B2 (en) * | 2001-04-18 | 2010-02-24 | 富士通株式会社 | Document image search device | 
| JP2004078672A (en) * | 2002-08-20 | 2004-03-11 | Canon Inc | Scanning device in searchable document format | 
| JP2009009307A (en) * | 2007-06-27 | 2009-01-15 | Canon Inc | Document image processing apparatus and method | 
| JP2009020567A (en) * | 2007-07-10 | 2009-01-29 | Mitsubishi Electric Corp | Document search device | 
| JP5090983B2 (en) * | 2008-03-25 | 2012-12-05 | シャープ株式会社 | Information processing apparatus, information processing method, information processing program, and computer-readable recording medium recording the program | 
- 
        2009
        - 2009-03-10 JP JP2009056380A patent/JP5353325B2/en not_active Expired - Fee Related
 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP2010211470A (en) | 2010-09-24 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| EP3712812B1 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
| JP5274305B2 (en) | Image processing apparatus, image processing method, and computer program | |
| US8588528B2 (en) | Systems and methods for displaying scanned images with overlaid text | |
| JP5528121B2 (en) | Image processing apparatus, image processing method, and program | |
| JP4251629B2 (en) | Image processing system, information processing apparatus, control method, computer program, and computer-readable storage medium | |
| JP5511450B2 (en) | Image processing apparatus, image processing method, and program | |
| JP4854491B2 (en) | Image processing apparatus and control method thereof | |
| US8412705B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
| JP4785655B2 (en) | Document processing apparatus and document processing method | |
| US8571359B2 (en) | Image processing device, method and storage medium for storing and displaying an electronic document | |
| JPH0798765A (en) | Direction detection method and image analysis device | |
| US20150138220A1 (en) | Systems and methods for displaying scanned images with overlaid text | |
| JP2011221701A (en) | Image processing apparatus, image processing method and computer program | |
| CN111401099A (en) | Text recognition method, device and storage medium | |
| JP2019016350A (en) | Identification of emphasized text in electronic documents | |
| JP5353325B2 (en) | Document data generation apparatus and document data generation method | |
| US20060285748A1 (en) | Document processing device | |
| JP2010061471A (en) | Character recognition device and program | |
| JP4983526B2 (en) | Data processing apparatus and data processing program | |
| US11170253B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
| US10049107B2 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
| JP2008028716A (en) | Image processing method and apparatus | |
| JP7172343B2 (en) | Document retrieval program | |
| JP2013152564A (en) | Document processor and document processing method | |
| US9483694B2 (en) | Image text search and retrieval system | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120130 | |
| A521 | Written amendment | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120621 | |
| A977 | Report on retrieval | Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130411 | |
| A131 | Notification of reasons for refusal | Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 | |
| A521 | Written amendment | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130620 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130812 | |
| R151 | Written notification of patent or utility model registration | Ref document number: 5353325 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 | |
| LAPS | Cancellation because of no payment of annual fees |