[go: up one dir, main page]

WO1997038394A1 - Method of automatically evaluating an address indicated on a document after the conversion of this address into digital data - Google Patents

Method of automatically evaluating an address indicated on a document after the conversion of this address into digital data Download PDF

Info

Publication number
WO1997038394A1
WO1997038394A1 PCT/DE1997/000554 DE9700554W WO9738394A1 WO 1997038394 A1 WO1997038394 A1 WO 1997038394A1 DE 9700554 W DE9700554 W DE 9700554W WO 9738394 A1 WO9738394 A1 WO 9738394A1
Authority
WO
WIPO (PCT)
Prior art keywords
address
pattern
character string
determined
document
Prior art date
Application number
PCT/DE1997/000554
Other languages
German (de)
French (fr)
Inventor
Hans-Ulrich Block
Thomas BRÜCKNER
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to JP9535727A priority Critical patent/JP2000508100A/en
Priority to EP97916350A priority patent/EP0891599A1/en
Publication of WO1997038394A1 publication Critical patent/WO1997038394A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • a system is known with which, for. B. Business letter documents can be categorized and then forwarded in electronic or paper form, or can be stored in a targeted manner.
  • the system contains a unit for layout segmentation of the document, a unit for optical text recognition, a unit for address recognition and a unit for content analysis and categorization.
  • a mixed bot-up and top-down approach is used, which as the individual steps
  • the address recognition is carried out with a unification-based parameter that works with an attributed context-free grammar for addresses. Parts of the text that are correctly parsed in the sense of the address grammar are accordingly addresses. The contents of the addresses are determined using equations of the grammar. The procedure is described in [2]. Information retrieval techniques for automatic indexing of texts are used for content analysis and categorization. The details are as follows:
  • a new business letter is then categorized by comparing the index terms of this letter with the lists of significant words for all categories. Depending on the significance, the weights of the index terms contained in the letter are multiplied by a constant and summed up. By dividing this sum by the number of index terms in the letter, there is a probability for each class. The exact calculations result from [3].
  • the result of the content analysis is then a list of hypotheses sorted according to probabilities.
  • the runtime of the content analysis is specified between half a second and two seconds of CPU time with a maximum number of 75 index terms per letter.
  • the object on which the invention is based is to specify a method by which the address recognition and address evaluation is improved. It is assumed that the address of the document already exists as digital data, which are then processed further. This object is achieved in accordance with the features of patent claim 1.
  • the method according to the invention is based on the technique of approximate string matching.
  • the method described by Bertossi et al in [4] is used, which compares a word with a pattern and calculates the number of confusions, omissions and insertions of letters in the word.
  • the pattern is selected which most closely corresponds to the word w to be examined.
  • a similarity or distance measure d is required for the two words, the pattern m and the word w to be examined.
  • the absolute number of errors is not suitable for this, since the patterns can be of different lengths. This problem can be shown using examples:
  • the reconstruction information of a letter is not a calculable measure. Therefore, according to the invention, the Markov entropy H-y- (N) is used as a model for this.
  • ew is the number of errors in the word to be examined w.
  • 1 shows a system with which the address is recognized and evaluated on a paper document
  • 2 shows a more precise representation of the system for evaluating the address.
  • a paper document Dok is scanned by a scanner SC and an image file BD is generated.
  • an image file BD is generated.
  • the part of the image which contains the address is segmented.
  • the layout segmentation is designated SG in FIG. 1.
  • the result is an image file that only contains the address part A-SG of the document.
  • This image data of the address is converted into ASCII data using OCR.
  • the address in ASCII data is named in Fig. 1 ADR.
  • the ASCII address file ADR still contains errors, so that by comparing this address file with stored patterns it is often not possible to identify the addressee uniquely.
  • the address recognition is designated ADR-E, a
  • the file can contain the addressees assigned to these patterns, both of which can be contained in a memory.
  • the address recognition ADR-E emits an address hypothesis for each pattern, which is called ADR-H and which represents the measure of the similarity.
  • the technique of "approximate string matching" is used in the exemplary embodiment.
  • the method described by Bertossi 14] is used, which compares a word with a pattern and the number of mix-ups, omissions and insertions of letters is calculated in accordance with Fig. 2 in the unit MA to which the address ADR in ASCII code and the pattern m are supplied one for every possible addressee Set of unique addressee names.
  • the patterns m to m n are thus compared with the address ADR, that is, they are determined and a hypothesis ADR-H is formed for each pattern, that is, the most similar word (hypothesis) is determined in the address for each pattern.
  • the distance measure ° -inf is used for each pair of pattern-hypotheses according to the above formula for the similarity of two
  • Patterns and the corresponding addressees are stored in one unit (memory).
  • the hypotheses for the individual patterns are contained in ADR-H, in the unit DIST the distance measurement is carried out for each
  • the distance dimensions d ⁇ n fi are fed to a unit MIN for miniature calculation, which determines the minimum dinf ⁇ r- j and subjects it to a threshold value check SW.
  • the threshold value check SW rejects an address as unassignable if d is above the threshold value, this is shown with rw, otherwise the addressee ADR-A corresponding to the pattern is issued.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

In order to recognize and evaluate the character string in an address and allocate the address to an addressee, the character string of the address is compared with stored patterns which contain a distinct address identification for each addressee. The pattern which is most similar to the address character string is selected. This is effected in that a displacement measure is formed which defines the similarity between the address and the pattern and this displacement measure is examined to see whether it is above or below a predetermined threshold. If the displacement measure is below the predetermined threshold, the addressee associated with this pattern is fetched out.

Description

Beschreibungdescription
Verfahren zur automatischen Auswertung einer auf einem Doku¬ ment aufgebrachten Adresse nach deren Transformation in digi- tale DatenMethod for the automatic evaluation of an address applied to a document after its transformation into digital data
Aus [1] ist ein System bekannt, mit dem z . B. Geschäftsbrief- dokumente kategorisiert werden können und dann in elektroni¬ scher oder Papierform weitergeleitet werden können, bzw. ge- zielt abgelegt werden können. Dazu enthält das System eine Einheit zur LayoutSegmentierung des Dokumentes, eine Einheit zur optischen Texterkennung, eine Einheit zur Adressenerken¬ nung und eine Einheit zur Inhaltsanalyse und Kategorisierung. Für die Segmentierung des Dokumentes wird ein gemischter bot- tom-up- und top-down-Ansatz benutzt, der als Einzelschritte dieFrom [1] a system is known with which, for. B. Business letter documents can be categorized and then forwarded in electronic or paper form, or can be stored in a targeted manner. For this purpose, the system contains a unit for layout segmentation of the document, a unit for optical text recognition, a unit for address recognition and a unit for content analysis and categorization. For the segmentation of the document, a mixed bot-up and top-down approach is used, which as the individual steps
• Erkennung der zusammenhängenden Komponenten,Detection of the related components,
• Erkennung der Textlinien,• recognition of text lines,
• Erkennung der Buchstabensegmente, • Erkennung der Wortsegmente und• recognition of the letter segments, • recognition of the word segments and
• Erkennung der Absatzsegmente umfaßt.• Detection of paragraph segments included.
Die optische Texterkennung ist in drei Teile gegliedert:Optical text recognition is divided into three parts:
• Buchstabenerkennung in Kombination mit lexikonbasierter Wortverifikation,• letter recognition in combination with lexicon-based word verification,
• Worterkennung, mit der Klassifizierung aus Buchstaben und wortbasierter Erkennung.• Predictive text, with letter classification and word-based recognition.
Die Adresserkennung wird mit einem unifikationsbasierten Par¬ ser durchgeführt, der mit einer attributierten kontextfreien Grammatik für Adressen arbeitet. Im Sinne der Adreßgrammatik korrekt geparste Textteile sind dementsprechend Adressen. Die Inhalte der Adressen werden über Merkmalsgleichungen der Grammatik bestimmt. Das Verfahren wird in [2] beschrieben. Für die Inhaltsanalyse und Kategorisierung werden Informati- on-Retrieval Techniken zur automatischen Indexierung von Tex¬ ten benutzt. Im einzelnen sieht dies wie folgt aus:The address recognition is carried out with a unification-based parameter that works with an attributed context-free grammar for addresses. Parts of the text that are correctly parsed in the sense of the address grammar are accordingly addresses. The contents of the addresses are determined using equations of the grammar. The procedure is described in [2]. Information retrieval techniques for automatic indexing of texts are used for content analysis and categorization. The details are as follows:
• Morphologische Analyse der Wörter• Morphological analysis of the words
• Eliminierung von Stoppwörtern• Elimination of stop words
• Erstellung einer Wortstatistik• Creation of word statistics
• Berechnung des Indextermgewichts mit aus dem Informationε- Retrieval bekannten Formeln, wie z. B. der inversen Doku- menthäufigkeit.• Calculation of the index term weight using formulas known from Information Retrieval, such as B. the inverse document frequency.
Mittels der so berechneten Indextermgewichte wird nun für al¬ le Kategorien eine dreistufige Liste signifikanter Wörter er¬ mittelt, welche die jeweilige Kategorie charakterisiert. Wie in [1] beschrieben, werden diese Listen nach der Trainings¬ phase noch manuell überarbeitet.Using the index term weights thus calculated, a three-level list of significant words is now determined for all categories, which characterizes the respective category. As described in [1], these lists are still manually revised after the training phase.
Die Kategorisierung eines neuen Geschäftsbriefes erfolgt dann durch den Vergleich der Indexterme dieses Briefes mit den Li- sten der signifikanten Wörter für alle Kategorien. Die Ge¬ wichte der im Brief enthaltenen Indexterme werden je nach Si¬ gnifikanz mit einer Konstanten multipliziert und aufsummiert. Durch Teilen dieser Summe durch die Anzahl der Indexterme im Brief ergibt sich somit für jede Klasse eine Wahrscheinlich- keit. Die genauen Berechnungen ergeben sich aus [3] .A new business letter is then categorized by comparing the index terms of this letter with the lists of significant words for all categories. Depending on the significance, the weights of the index terms contained in the letter are multiplied by a constant and summed up. By dividing this sum by the number of index terms in the letter, there is a probability for each class. The exact calculations result from [3].
Ergebnis der Inhaltsanalyse ist dann eine nach Wahrschein¬ lichkeiten sortierte Hypothesenliste. Die Laufzeit der In¬ haltsanalyse wird zwischen einer halben und zwei Sekunden CPU-Zeit angegeben mit einer maximalen Anzahl von 75 Index- termen pro Brief.The result of the content analysis is then a list of hypotheses sorted according to probabilities. The runtime of the content analysis is specified between half a second and two seconds of CPU time with a maximum number of 75 index terms per letter.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren anzugeben, nach dem die Adresserkennung und Adressauswertung verbessert wird. Dabei wird davon ausgegan¬ gen, daß die Adresse des Dokumentes bereits als digitale Da¬ ten vorliegen, die dann weiterverarbeitet werden. Dieεe Aufgabe wird gemäß den Merkmalen des Patentanspruches 1 gelöst.The object on which the invention is based is to specify a method by which the address recognition and address evaluation is improved. It is assumed that the address of the document already exists as digital data, which are then processed further. This object is achieved in accordance with the features of patent claim 1.
Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.Further developments of the invention result from the dependent claims.
Das erfindungsgemäße Verfahren beruht auf der Technik der un¬ gefähren Wortgleichheit (approximate string matching) . Dazu wird das von Bertossi et al in [4] beschriebene Verfahren benutzt, welches ein Wort mit einem Muster vergleicht und die Anzahl von Verwechselungen, Auslassungen und Einfügungen von Buchstaben beim Wort berechnet.The method according to the invention is based on the technique of approximate string matching. For this purpose, the method described by Bertossi et al in [4] is used, which compares a word with a pattern and calculates the number of confusions, omissions and insertions of letters in the word.
Aus der Menge von Mustern m wird das Muster ausgewählt, das am ehesten dem zu untersuchenden Wort w entspricht. Dazu wird ein Ähnlichkeits- bzw. Distanzmaß d für die zwei Wörter, das Muster m und das zu untersuchende Wort w, benötigt. Die abso¬ lute Anzahl von Fehlern ist hierfür nicht geeignet, da die Muster von unterschiedlicher Länge sein können. Diese Proble¬ matik kann anhand von Beispielen gezeigt werden:From the set of patterns m, the pattern is selected which most closely corresponds to the word w to be examined. A similarity or distance measure d is required for the two words, the pattern m and the word w to be examined. The absolute number of errors is not suitable for this, since the patterns can be of different lengths. This problem can be shown using examples:
1. Beispiel1st example
Das Muster sei ml=,AUT'/ das zu untersuchende Wort sei wl='ABT' .The pattern is ml = , AUT ' / the word to be examined is wl =' ABT '.
2. Beispiel2nd example
Das Muster sei m2='Med. Technik' und das zu untersuchende Wort w2='MCD, Tecfnik', wobei 'Med. Technik' z. B. die Ab¬ kürzung für Medizinische Technik sein soll.Let the pattern be m2 = 'Med. Technik 'and the word to be examined w2 =' MCD, Tecfnik ', whereby' Med. Technology 'e.g. B. should be the abbreviation for medical technology.
Für beide Beispiele ist die durchschnittliche FehlerrateFor both examples, the average error rate is
AnzahlFehler Länge(m)Number of errors length (m)
gleich. Sie beträgt nämlich beim ersten Beispiel 1/3 und beim zweiten Beispiel 4/12, also jeweils 1/3, somit zur Gleichheit der Distanzen. Offensichtlich ist aber w2 zu m2 ähnlicher als wl zu ml. Die Erklärung hierfür wird deutlich, wenn die Be¬ rechnung der Distanz zwischen einem Muster und einem zu ver¬ gleichenden Wort als Rekonstruktionsproblem aufgefaßt wird. Dann ist die Distanz zwischen m und w umso kleiner, je leich- ter das gesuchte Muster aus dem Wort w rekonstruiert werden kann, bzw. wiedererkannt werden kann. Dies ist aber im Allge¬ meinen für längere Wörter selbst mit vielen Fehlern leichter, weil aus längeren fehlerbehafteten Wörtern weniger korrekte Wörter gebildet werden können. Daraus folgt, daß die durch- schnittliche Rekonstruktionsinformation eines Buchstabens mit der Länge eines Wortes abnimmt.equal. It is namely 1/3 in the first example and 4/12 in the second example, that is to say 1/3 each, so that the distances are equal. Obviously, w2 is more similar to m2 than wl to ml. The explanation for this becomes clear if the calculation of the distance between a pattern and a word to be compared is interpreted as a reconstruction problem. Then the distance between m and w is smaller, the easier the pattern you are looking for can be reconstructed from the word w or can be recognized. However, this is generally easier for longer words, even with many errors, because less correct words can be formed from longer, error-prone words. It follows that the average reconstruction information of a letter decreases with the length of a word.
Die Rekonstruktionsinformation eines Buchstabens ist aller¬ dings kein berechenbares Maß. Deswegen wird erfindungsgemäß als Modell dafür die Markovsche Entropie H-y-(N) verwendet.However, the reconstruction information of a letter is not a calculable measure. Therefore, according to the invention, the Markov entropy H-y- (N) is used as a model for this.
Die Markovsche Entropie ist definiert als die durchschnittli¬ che Information eines Buchstabens in einem Wort, in Abhängig¬ keit von der Länge N des Wortes. Zwar ist diese Entropie nicht für alle N zu berechnen (z. B gibt es für N=10 bereits K---0 mögliche Kombinationen K Buchstaben auf ein Wort der Län¬ ge N zu verteilen) , aber für einige N gibt es Werte in [4] , die den Funktionsverlauf der Markovschen Entropie klar wie- derspiegeln. Durch Interpolation mit diesen Werten erhält man eine Schätzung φ(Hjy-(N)) für die Markovsche Entropie, die für die Definition des Distanzmaßes d-j_nf verwendbar ist, nämlich:Markov's entropy is defined as the average information of a letter in a word, depending on the length N of the word. Although this entropy cannot be calculated for all N (for example, for N = 10 there are already K --- 0 possible combinations of K letters to be distributed over a word of length N), but for some N there are values in [4], which clearly reflect the course of the function of Markov's entropy. Interpolation with these values gives an estimate φ (Hjy- (N)) for Markov's entropy, which can be used to define the distance measure d-j_ n f, namely:
ew • Φ(HM(N)) dinf(m,n):= ,ew • Φ (H M (N)) d inf (m, n): =,
NN
wobei ew die Anzahl der Fehler im zu untersuchenden Wort w ist.where ew is the number of errors in the word to be examined w.
Anhand eines Ausführungsbeispieles, das ein erfindungεgemäßes System zur Auswertung einer auf einem Dokument aufgebrachten Adresse zeigt, wird die Erfindung weiter erläutert. Es zeigenThe invention is further explained on the basis of an exemplary embodiment which shows a system according to the invention for evaluating an address applied to a document. Show it
Fig. 1 ein System, mit dem die Adresse auf einem Papier¬ dokument erkannt und ausgewertet wird, Fig. 2 eine genauere Darstellung des Systems zur Aus¬ wertung der Adresse.1 shows a system with which the address is recognized and evaluated on a paper document, 2 shows a more precise representation of the system for evaluating the address.
In den Figuren sind Einheiten des Systems mit Rechtecken und Ergebnisse von Aktivitäten der Einheiten mit Kreisen darge¬ stellt.In the figures, units of the system with rectangles and results of activities of the units with circles are shown.
Ein Papierdokument Dok wird durch einen Scanner SC einge¬ scannt und eine Bilddatei BD erzeugt. Mit Hilfe eines aus der europäischen Patentanmeldung 0 515 714 AI bekannten Verfah¬ rens wird der Teil des Bildes segmentiert, der die Adresse enthält. Die LayoutSegmentierung ist in Fig. 1 mit SG be¬ zeichnet. Als Ergebnis erhält man eine Bilddatei, die nur noch den Adreßteil A-SG des Dokumentes enthält. Diese Bildda- ten der Adresse werden mit OCR in ASCII-Daten umgewandelt.A paper document Dok is scanned by a scanner SC and an image file BD is generated. With the help of a method known from European patent application 0 515 714 A1, the part of the image which contains the address is segmented. The layout segmentation is designated SG in FIG. 1. The result is an image file that only contains the address part A-SG of the document. This image data of the address is converted into ASCII data using OCR.
Die Adresse in ASCII-Daten wird in Fig. 1 ADR benannt. In der Regel enthält die ASCII-Adreßdatei ADR noch Fehler, so daß durch Vergleich dieser Adreßdatei mit gespeicherten Mustern eine eindeutige Adressatsbezeichnung oft nicht möglich ist. In Figur 1 ist die Adreßerkennung mit ADR-E bezeichnet, eineThe address in ASCII data is named in Fig. 1 ADR. As a rule, the ASCII address file ADR still contains errors, so that by comparing this address file with stored patterns it is often not possible to identify the addressee uniquely. In Figure 1, the address recognition is designated ADR-E, a
Datei mit Mustern m mit MU. Die Datei kann neben den Mustern m die diesen Mustern zugeordneten Adressaten enthalten, beide können in einem Speicher enthalten sein. Die Adreßerkennung ADR-E gibt als Ergebnis des Vergleichs mit den Mustern m eine für jedes Muster eine Adreßhypothese ab, die mit ADR-H be¬ nannt ist und die Maß für die Ähnlichkeit darstellt.File with patterns m with MU. In addition to the patterns m, the file can contain the addressees assigned to these patterns, both of which can be contained in a memory. As a result of the comparison with the patterns m, the address recognition ADR-E emits an address hypothesis for each pattern, which is called ADR-H and which represents the measure of the similarity.
Um eine robuste und fehlertolerante Analyse von Adressen zu erreichen, wird im Ausführungsbeispiel die Technik der „ungefähren Wortgleichheit" (approximate-string-matching) herangezogen. Dazu wird das von Bertossi 14] beschriebene Verfahren verwendet, welches ein Wort mit einem Muster ver¬ gleicht und die Anzahl von Verwechslungen, Auslassungen und Einfügungen von Buchstaben berechnet. Nach Fig. 2 erfolgt dies in der Einheit MA, der die Adresse ADR im ASCII-Code und die Muster m zugeführt werden. In einem Speicher sind die Mu¬ ster m enthalten und zwar für jeden möglichen Adressaten eine Menge von eindeutigen Adressatsbezeichnungen. In der Einheit MA werden somit die Muster m- bis mn mit der Adresse ADR er¬ glichen, also ew bestimmt und für jedes Muster eine Hypothese ADR-H gebildet, also für jedes Muster das ähnlichste Wort (Hypothese) in der Adresse ermittelt. Um jetzt daε Muster auswählen zu können, das am ehesten in der Adresse enthalten ist, wird für jedes Muster-Hypothesen-Paar das Distanzmaß °-inf entsprechend obiger Formel für die Ähnlichkeit zweierIn order to achieve a robust and fault-tolerant analysis of addresses, the technique of "approximate string matching" is used in the exemplary embodiment. For this purpose, the method described by Bertossi 14] is used, which compares a word with a pattern and the number of mix-ups, omissions and insertions of letters is calculated in accordance with Fig. 2 in the unit MA to which the address ADR in ASCII code and the pattern m are supplied one for every possible addressee Set of unique addressee names. In the unit MA, the patterns m to m n are thus compared with the address ADR, that is, they are determined and a hypothesis ADR-H is formed for each pattern, that is, the most similar word (hypothesis) is determined in the address for each pattern. In order to be able to select the pattern that is most likely to be contained in the address, the distance measure ° -inf is used for each pair of pattern-hypotheses according to the above formula for the similarity of two
Zeichenketten berechnet. Dies erfolgt in der Einheit Distanz- berechnung DIST. Für jedes der Muster wird eine solche Di¬ stanzberechnung durchgeführt und aus dem Ergebnis dieser Be¬ rechnung, den Distanzmaßen dinfi bis dinfn/ das Minimum er¬ mittelt und als dinfm-[n weiterverarbeitet. Wenn dinfmin klei¬ ner ist alε ein vorzugebender Schwellwert SW, dann ergibt sich als Ergebnis der Adreßerkennung die zu diesem Muster ge¬ hörende Adresse aus der Datenbasis MU. Sonst wird keine Aus¬ sage über den Adressaten gemacht.Strings calculated. This is done in the unit distance calculation DIST. Such a distance calculation is carried out for each of the patterns and determined from the result of this calculation, the distance dimensions di n fi to di n f n / the minimum and further processed as di n f m - [ n . If a threshold value SW that is to be predefined is smaller than five, then the result of the address recognition is the address belonging to this pattern from the database MU. Otherwise no statement is made about the addressee.
Dieser Ablauf ergibt sich aus Fig. 2, in der die einzelnen Schritte dargestellt sind. In einer Einheit (Speicher) sind Muster und die entsprechenden Adressaten gespeichert. Die Hy¬ pothesen für die einzelnen Muster sind in ADR-H enthalten, in der Einheit DIST erfolgt die Distanzmaßberechnung für jedesThis sequence results from FIG. 2, in which the individual steps are shown. Patterns and the corresponding addressees are stored in one unit (memory). The hypotheses for the individual patterns are contained in ADR-H, in the unit DIST the distance measurement is carried out for each
Muster im Vergleich zur Adresse, um die einzelnen Diεtanzmaße ό-infi bis dinfn zu ermitteln, die unter DIST gespeichert wer¬ den. Die Distanzmaße d^nfi werden einer Einheit MIN zur Mini¬ mumberechnung zugeführt, die das Minimum dinf^r-j ermittelt und einer Schwellwertprüfung SW unterzieht. Die Schwellwert¬ prüfung SW weist eine Adresse als nicht zuordenbar zurück, wenn d über dem Schwellwert liegt, dies ist mit rw darge¬ stellt, sonst wird der dem Muster entsprechende Adressat ADR- A abgegeben. LiteraturverzeichnisTo identify patterns in comparison to the address to the individual Diεtanzmaße ό-i n fi to dinfn that wer¬ stored in the DIST. The distance dimensions d ^ n fi are fed to a unit MIN for miniature calculation, which determines the minimum dinf ^ r- j and subjects it to a threshold value check SW. The threshold value check SW rejects an address as unassignable if d is above the threshold value, this is shown with rw, otherwise the addressee ADR-A corresponding to the pattern is issued. bibliography
[1] A. Dengel et al. , Office Maid- A System for Office Mail Analysis, Interpretation and Delivery', Int. Workshop on Document Analysiε Systems (DAS)$), Kaiserslautern (1994), S 253-275.[1] A. Dengel et al. 'Office Maid- A System for Office Mail Analysis, Interpretation and Delivery', Int. Workshop on Document Analysis Systems (DAS) $), Kaiserslautern (1994), p 253-275.
[2] M. Malburg und A. Dengel, ' Address Verification in[2] M. Malburg and A. Dengel, 'Address Verification in
Structered Documents for Automatic Mail Delivery', Proc. JetPoste 93, First Europaen Conference on Postal Techno- logies, Vol. 1, Nantes, Frankreich (1993), S. 447-454.Structered Documents for Automatic Mail Delivery ', Proc. JetPoste 93, First Europaen Conference on Postal Technologies, Vol. 1, Nantes, France (1993), pp. 447-454.
[3] R. Hoch, ' Using IR Techniques for Text Classification in Document Analysis', Proc. of 17th International Confe¬ rence on Research and Development in Information Retrie- val (SIGIR94), Dublin, Irland, (1994). [4] A. A. Bertosεi, F. Luccio, E. Lodi und L. Pagli, 'String Matching with Weighted Errorε' , Theoretical Computer Science 73, (1990), S. 319-328. [3] R. Hoch, 'Using IR Techniques for Text Classification in Document Analysis', Proc. of 17th International Conference on Research and Development in Information Retrieval (SIGIR94), Dublin, Ireland, (1994). [4] A. A. Bertosεi, F. Luccio, E. Lodi and L. Pagli, 'String Matching with Weighted Errorε', Theoretical Computer Science 73, (1990), pp. 319-328.

Claims

Patentansprüche claims
1. Verfahren zur automatischen Auswertung einer auf einem Do¬ kument aufgebrachten Adresse nach deren Transformation in di- gitale Daten,1. Method for the automatic evaluation of an address applied to a document after its transformation into digital data,
• bei dem in einem Speicher für jeden Adressaten eindeutige Adressenbezeichnungen als Muster (m) gespeichert werden,In which unique address designations are stored in a memory for each addressee as a pattern (m),
• bei dem die Muster mit der Zeichenfolge der Adresse vergli¬ chen werden und die zwischen Mustern und der Adresse beste- henden Unterschiede als Distanzmaß errechnet werden,In which the pattern is compared with the character string of the address and the differences between patterns and the address are calculated as a distance measure,
• bei dem dasjenige Muster ausgewählt wird, das mit der Zei¬ chenfolge der Adresse am ähnlichsten ist,In which the pattern is selected which is most similar to the address string,
• bei dem nur ein dem ausgewählten Muster zugeordneter Adres¬ sat ausgewählt wird, wenn das Distanzmaß eine vorgegebene Schwelle unterschreitet.• in which only one address assigned to the selected pattern is selected if the distance measure falls below a predetermined threshold.
2. Verfahren nach Anspruch 1, bei dem zur Bestimmung des Di¬ stanzmaßes die Unterschiede zwischen der Adresse und den Mu¬ stern festgestellt wird und aufgrund der Länge der Zeichen- folge und den Unterschieden über die Markovsche Entropie daε Distanzmaß ermittelt wird.2. The method as claimed in claim 1, in which the differences between the address and the pattern are determined to determine the distance measure and the distance measure is determined on the basis of the length of the character string and the differences via the Markovian entropy.
3. Verfahren nach Anspruch 2, bei dem die Ermittlung des Di¬ stanzmaßes nach der Formel3. The method according to claim 2, wherein the determination of the distance measure according to the formula
ew • Φ(HM(N)) dinf(m, n): =ew • Φ (H M (N)) di n f (m, n): =
NN
erfolgt, wobei ew die Anzahl der Fehler in der Zeichenkette w ist, N die Länge der Zeichenfolge und φ eine durch Interpola- tion ermittelte Schätzung darstellt.takes place, where ew is the number of errors in the character string w, N is the length of the character string and φ is an estimate determined by interpolation.
4. Verfahren nach Anspruch 3,4. The method according to claim 3,
• bei dem die Adresse mit den gespeicherten Mustern nach dem Verfahren der ungefähren Wortgleichheit verglichen werden, • bei dem auf diese Weise für jedes Muster eine Hypothese ge¬ bildet wird, die die Anzahl der Unterschiede zwischen Adresse und Muster enthält, • bei dem aus den Hypothesen die Distanzmaße für jedes Muster ermittelt werden,In which the address is compared with the stored patterns using the approximate word equality method, in which a hypothesis is formed for each pattern that contains the number of differences between the address and the pattern, The distance measurements for each pattern are determined from the hypotheses,
• bei dem aus den Distanzmaßen das Minimum bestimmt wird,• where the minimum is determined from the distance measurements,
• bei dem das Minimum der Diεtanzmaße mit einem Schwellwert verglichen wird und die Adresse zurückgewiesen wird, wenn der Schwellwert überschritten wird, sonst aus einer Daten¬ basis der dem Muster zugeordneten Adressat abgegeben wird. • in which the minimum of the distance measurements is compared with a threshold value and the address is rejected if the threshold value is exceeded, otherwise the addressee assigned to the pattern is given from a database.
PCT/DE1997/000554 1996-04-03 1997-03-18 Method of automatically evaluating an address indicated on a document after the conversion of this address into digital data WO1997038394A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9535727A JP2000508100A (en) 1996-04-03 1997-03-18 A method for automatically evaluating a documented destination after converting it to digital data
EP97916350A EP0891599A1 (en) 1996-04-03 1997-03-18 Method of automatically evaluating an address indicated on a document after the conversion of this address into digital data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19613401 1996-04-03
DE19613401.3 1996-04-03

Publications (1)

Publication Number Publication Date
WO1997038394A1 true WO1997038394A1 (en) 1997-10-16

Family

ID=7790414

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1997/000554 WO1997038394A1 (en) 1996-04-03 1997-03-18 Method of automatically evaluating an address indicated on a document after the conversion of this address into digital data

Country Status (3)

Country Link
EP (1) EP0891599A1 (en)
JP (1) JP2000508100A (en)
WO (1) WO1997038394A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1843276A1 (en) * 2006-04-03 2007-10-10 Océ-Technologies B.V. Method for automated processing of hard copy text documents
US7436979B2 (en) 2001-03-30 2008-10-14 Siemens Energy & Automation Method and system for image processing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DOSTER W: "Contextual postprocessing system for cooperation with a multiple-choice character-recognition system", IEEE TRANSACTIONS ON COMPUTERS, NOV. 1977, USA, vol. C-26, no. 11, ISSN 0018-9340, pages 1090 - 1101, XP002035206 *
IMPEDOVO S ET AL: "Hand-written numeral recognition 'the organization degree measurement'", PROCEEDINGS OF THE 6TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, MUNICH, WEST GERMANY, 19-22 OCT. 1982, 1982, NEW YORK, NY, USA, IEEE, USA, pages 40 - 43, vol.1, XP002035209 *
JUMARIE G: "New results in the information theory of patterns and forms", SYSTEMS ANALYSIS - MODELLING - SIMULATION, 1987, EAST GERMANY, vol. 4, no. 6, ISSN 0232-9298, pages 483 - 520, XP002035208 *
ROSENBAUM W S ET AL: "Multifont OCR postprocessing system", IBM JOURNAL OF RESEARCH AND DEVELOPMENT, JULY 1975, USA, vol. 19, no. 4, ISSN 0018-8646, pages 398 - 421, XP002035207 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7436979B2 (en) 2001-03-30 2008-10-14 Siemens Energy & Automation Method and system for image processing
EP1843276A1 (en) * 2006-04-03 2007-10-10 Océ-Technologies B.V. Method for automated processing of hard copy text documents

Also Published As

Publication number Publication date
EP0891599A1 (en) 1999-01-20
JP2000508100A (en) 2000-06-27

Similar Documents

Publication Publication Date Title
DE3889092T2 (en) Optical character reading device.
DE69428590T2 (en) COMBINED LEXICON AND LIST OF CHARACTERS OF HANDWRITING
DE69636057T2 (en) Speaker verification system
DE69814104T2 (en) DISTRIBUTION OF TEXTS AND IDENTIFICATION OF TOPICS
DE10342594B4 (en) Method and system for collecting data from a plurality of machine readable documents
DE60204005T2 (en) METHOD AND DEVICE FOR RECOGNIZING A HANDWRITTEN PATTERN
DE69423692T2 (en) Speech coding device and method using classification rules
DE2541204A1 (en) PROCEDURES FOR DETECTING FAULTS AND SETTING UP THE PROCEDURES
EP0040796A2 (en) Method for the automatic differentiation between image and text or graphic regions on printed originals
DE19511470C1 (en) Reference character evaluation on basis of identical patterns
US5970171A (en) Apparatus and method of fusing the outputs of multiple intelligent character recognition (ICR) systems to reduce error rate
DE19511472C1 (en) Dynamic verification of handwritten character by weighting of strokes
DE2513566A1 (en) BINARY REFERENCE MATRIX
DE3246631C2 (en) Character recognition device
DE19933984C2 (en) Method for forming and / or updating dictionaries for automatic address reading
WO1997038394A1 (en) Method of automatically evaluating an address indicated on a document after the conversion of this address into digital data
EP1812930B1 (en) Method for voice recognition from distributed vocabulary
EP1076896B1 (en) Method and device enabling a computer to recognise at least one keyword in speech
WO2007022880A1 (en) Method for identifying mailings that are to be sorted
DE69625649T2 (en) Procedures for verifying signatures
EP2259210A2 (en) Method and device for analysing a database
EP1917626A1 (en) Method for retrieving text blocks in documents
EP0731955B1 (en) Process and device for automatically detecting and recognising recorded information
EP1758688A1 (en) Method for automatic detection of operational performance data of reading systems
DE19820353C2 (en) Method and device for recognizing a pattern on a template

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1997916350

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1997916350

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1997916350

Country of ref document: EP