DE19539052A1

DE19539052A1 - Information extraction for target digital text data field e.g. for E-mail, facsimile or letter

Info

Publication number: DE19539052A1
Application number: DE19539052A
Authority: DE
Inventors: Ingrid Dr Phil Renz
Original assignee: Daimler Benz AG
Current assignee: Mercedes Benz Group AG
Priority date: 1995-03-06
Filing date: 1995-10-20
Publication date: 1996-09-12

Abstract

For automatic extraction of information from digital text data A data processing unit is equipped with a storage for predefined text structures. A first group of text structures is presented as initiating or release structures and a second group as description structures is checked or verified. With detection of the common occurrence of each structure from both groups within a sentence, the presence or availability of further processable information is detected.

Description

Die Erfindung betrifft ein Verfahren zur Extraktion von Information aus digitalen Textdaten nach dem Oberbegriff des Patentanspruchs 1.The invention relates to a method for extracting Information from digital text data according to the generic term of claim 1.

Die zunehmende Bedeutung des Informationsflusses im Ta gesablauf stellt besondere Anforderungen an eine effizi ente Bewältigung dieses Informationsflusses, insbesondere hinsichtlich Speicherung, Zugriff, Auswertung und Vertei lung, wobei nach Möglichkeit ein hoher Anteil von Informa tion automatisch bearbeitbar sein soll. Besondere Bedeu tung kommt dabei der Verarbeitung natürlichsprachlicher Textinformation an der Schnittstelle menschlicher Aus drucksform und maschineller Handhabung von Information zu. The increasing importance of the flow of information in Ta The workflow places special demands on efficiency Dealing with this flow of information, in particular with regard to storage, access, evaluation and distribution lung, where possible a high proportion of informa tion should be editable automatically. Special meaning processing comes naturally Text information at the interface of human out printing form and mechanical handling of information.

Hierfür können beispielsweise einfache Verfahren zur Er kennung vorgegebener Schlüsselwörter oder komplexe textverstehende Verfahren eingesetzt werden. Während er stere für Dialogsysteme mit Rückfragemöglichkeit geeignet, ohne Rückfragemöglichkeit aber sehr fehleranfällig sind, sind letztere mit sehr hohem Erstellungs- und Ver arbeitungsaufwand verbunden.For this, for example, simple methods for Er identification of given keywords or complex text-understanding procedures are used. While he stere suitable for dialogue systems with the possibility of inquiry, are very susceptible to errors without the possibility of inquiries, are the latter with very high creation and ver labor associated.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur automatischen Extraktion von Information aus digitalen Textdaten anzugeben, das mit geringem Aufwand eine in einem natürlichsprachlichen Text enthaltene Infor mation aus einem begrenzten Umfang vordefinierter zu er kennender Informationen.The present invention is based on the object Process for automatic extraction of information from specify digital text data with little effort an information contained in a natural language text mation from a limited range of predefined ones knowing information.

Die Erfindung ist im Patentanspruch 1 enthalten. Die Un teransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.The invention is contained in claim 1. The Un Claims contain advantageous refinements and Developments of the invention.

Die Erfindung macht sich zunutze, daß in natürlichsprach lichem Text die für einen Anwendungsfall relevante Nach richten-Information häufig auf einen sehr geringen Teil des Textes beschränkt ist und der übrige Text für die ge suchte Information keinen Beitrag darstellt. Durch die Vergabe von zwei oder mehr Gruppen mit unterschiedlichen vordefinierten Textstrukturen und der Überprüfung auf das gemeinsame Auftreten je einer Textstruktur aus jeder Gruppe in einem syntaktisch geschlossenen Textabschnitt, insbesondere einem abgeschlossenen Satz, kann trotz gerin gen Verarbeitungsaufwands eine hohe Flexibilität hinsicht lich erkennbarer Formulierungsvarianten bei gleichzeitig geringer Fehlerrate erzielt werden. Bevorzugterweise wird der Umfang der erkennbaren Information begrenzt durch Ein schränkung des Anwendungsbereichs oder durch Unterteilung eines größeren Einsatzfeldes in kleinere Anwendungsklassen mit vorausgehender Dokumentklassifikation und Zuordnung des Texts zu einer Anwendungsklasse. Durch die Beschrän kung auf einen engen Anwendungsbereich kann die linguisti sche Wissensbasis für die Textstrukturen klein gehalten werden, was eine effiziente und zuverlässige Erkennung der Textstrukturen ermöglicht. Textstrukturen in diesem Sinne können sowohl Einzelwörter (einschließlich Zahlen) oder bedeutungstragende Wortteile als auch Folgen solcher Ein zelwörter oder Wortteile sein. Wortfolgen als Textstruktu ren können vorteilhafterweise durch Sprachmodelle defi niert sein.The invention takes advantage of that in natural language the relevant text for an application direct information often to a very small part of the text is limited and the rest of the text for ge sought information is not a contribution. Through the Allocation of two or more groups with different predefined text structures and checking for that common occurrence of a text structure from each Group in a syntactically closed text section, especially a completed sentence, can be despite high processing flexibility recognizable formulation variants at the same time low error rate can be achieved. It is preferred the scope of the recognizable information is limited by one restriction of the scope or by subdivision a larger field of application in smaller application classes with previous document classification and assignment the text for an application class. By the restriction The linguisti can focus on a narrow area of application knowledge base for text structures kept small be what an efficient and reliable detection of the Text structures enabled. Text structures in this sense can use single words (including numbers) or meaningful parts of the word as well as consequences of such a individual words or parts of words. Word sequences as a text structure Ren can advantageously defi by language models be kidneyed.

Soweit die Textdaten nicht bereits in digitaler Form vor gegeben sind, beispielsweise als E-mail, können sie anhand bekannter Texterkennungsverfahren, die hier nicht weiter behandelt sind, aus geschriebenem oder gesprochenem Text gewonnen werden.As far as the text data is not already available in digital form given, for example as e-mail, you can use well-known text recognition methods, which are not further here are treated, from written or spoken text be won.

Die Erfindung ist nachfolgend anhand eines Anwendungsbei spiels und unter Bezugnahme auf die Abbildungen noch ein gehend veranschaulicht. Dabei zeigtThe invention is based on an application game and with reference to the pictures illustrated. It shows

Fig. 1 den Bearbeitungsablauf für ein schriftliches Doku ment; Fig. 1 ment the processing sequence for a written document;

Fig. 2 das Schema der Informationsextraktion. Fig. 2 shows the scheme of information extraction.

Als Beispiel ist die Anwendung der automatischen Auswer tung von Geschäftsbriefen, in denen Geschäftsberichte von Unternehmen angefordert werden, gewählt. As an example is the application of automatic evaluators processing business letters in which business reports from Companies requested to be chosen.

In an sich bekannter Weise wird durch optische Abtastung des Briefes eine digitale Bilddarstellung gewonnen, aus welcher durch eine Bildanalyse einzelne Bildbereiche iso liert und einer Bereichskategorie, beispielsweise Adres senfeld und Textblock, zugeordnet werden können. Eine Tex terkennung mit Umsetzung der Bilddarstellung in eine Zei chendarstellung, insbesondere ASCII-Zeichen, kann in der Bildanalyse eingeschlossen sein oder sich an diese an schließen. Eine ausgiebige Darstellung von geeigneten Bildanalyseverfahren findet sich beispielsweise in [8] und [3]. Die weitere Verarbeitung des Adressenfelds zur Gewin nung der Anschrift des Absenders des Briefes beschränkt sich im wesentlichen auf eine Strukturanalyse. In [2] ist ein Beispiel zur Extraktion solcher strukturierter Infor mation beschrieben.In a manner known per se, optical scanning obtained a digital image representation of the letter from which iso individual image areas through image analysis and a category, for example addresses field and text block can be assigned. A tex t recognition with implementation of the image representation in a time Representation, especially ASCII characters, can be in the Image analysis may be included or adhere to it shut down. An extensive presentation of suitable ones Image analysis methods can be found, for example, in [8] and [3]. The further processing of the address field to win limited to the address of the sender of the letter essentially on a structural analysis. In [2] is an example for the extraction of such structured information mation described.

Die Aufgabe der Informationsextraktion aus dem Textblock soll im wesentlichen darauf beschränkt sein, zu erkennen, ob der Text eine auf einen bestimmten eingeschränkten An wendungsbereich bezogene relevante Information aufweist, und gegebenenfalls die Information in Form weniger Merk male zu extrahieren. Für den beispielhaft gewählten Anwen dungsfall bedeutet dies, daß erkannt werden soll, ob der Text eine Anforderung eines Geschäftsberichts enthält, und gegebenenfalls Einzelheiten über den geäußerten Wunsch wie z. B. Berichtsart, betroffene Gesellschaft, Berichtsjahr, Anzahl der Exemplare, Sprache des Berichts, soweit dabei jeweils eine Wahlmöglichkeit besteht. Diese beschreibenden Merkmale können als Komponenten eines Merkmalsvektors oder als Feldeinträge eines Formulars betrachtet werden. The task of extracting information from the text block should essentially be limited to recognizing whether the text is restricted to a certain type has relevant information related to the application area, and possibly the information in the form of a few notes male extract. For the chosen example If this is the case, this means that it should be recognized whether the Text contains a request for a business report, and if applicable, details of the expressed wish such as e.g. B. Type of report, company concerned, reporting year, Number of copies, language of the report, if included there is always a choice. This descriptive Features can be used as components of a feature vector or are considered as field entries of a form.

Für eine effiziente Informationsextraktion aus Anforderun gen von Geschäftsberichten ist die Vorgabe von auf diese Anwendung speziell abgestimmten vordefinierten Textstruk turen von besonderem Vorteil, da hierdurch die notwendigen Wissensbasen für die linguistische Analyse (Grammatik, Le xikon) stark eingeschränkt werden können. Zur Erzielung geringer Rückweisungsraten und insbesondere niedriger Erkennungsfehlerraten ist dann eine Vorauswahl von zu bearbeitenden Dokumenten dahingehend, daß möglichst nur diese Anwendung betreffende Texte dem Extraktionsverfahren unterworfen werden, anzustreben. Hierfür wird vorteilhafterweise in einem der Informationsextraktion vorausgehenden Schritt eine automatische Klassifizierung des Texts vorgenommen. Dabei weist ein Klassifikator einen Text einer von ggf. mehreren vorgegebenen Textklassen zu oder weist den Text als nicht zuordenbar zurück. Unter schiedliche Textklassen können z. B. für unterschiedliche Anwendungen wieFor efficient information extraction from requirements Annual reports are based on these Application of specially coordinated predefined text structure tures of particular advantage, as this means that the necessary Knowledge bases for linguistic analysis (grammar, Le xikon) can be severely restricted. To achieve lower rejection rates and especially lower Detection error rates is then a preselection of too editing documents so that if possible only texts related to this application the extraction process be subjected to strive. For this will advantageously in one of the information extraction previous step an automatic classification of the text. A classifier has one Text to one of several predefined text classes or rejects the text as not assignable. Under different text classes can e.g. B. for different Applications like

- Order
- Request annual reports
- Requesting product descriptions
- Offer

etc. vorgesehen sein. Für die verschiedenen Anwendungen (Textklassen) sind unterschiedliche Textstruktur-Gruppen vordefiniert, die je nach Zuordnung des Klassifikators bei der Informationsextraktion eingesetzt werden. Geeignete Klassifikatoren sind an sich bekannt und z. B. beschrieben in [7] oder [4]. In der Fig. 1 ist hierzu angedeutet, daß der Klassifikator den Text der Textklasse "Anforderung von Geschäftsberichten" zugeordnet und damit den Einsatz der für diese Textklasse vorgegebenen Textstruktur-Gruppen be wirkt hat. etc. be provided. Different text structure groups are predefined for the various applications (text classes) and are used for information extraction depending on the assignment of the classifier. Suitable classifiers are known per se and z. B. described in [7] or [4]. In Fig. 1 it is indicated that the classifier has assigned the text to the text class "request for annual reports" and thus has the use of the text structure groups specified for this text class be effective.

Für das Anwendungsbeispiel ist die Situation angenommen, daß ein größerer Konzern wie z. B. Daimler Benz mehrere Ge sellschaften umfaßt, die in regelmäßigen Abständen für die Öffentlichkeit bestimmte Berichte wie Jahresberichte, Zwi schenberichte, Tätigkeitsbeschreibungen u. a. herausgeben und Interessierten auf Anforderung zusenden. Die Anforde rung kann dabei telefonisch, schriftlich (FAX, Brief) oder elektronisch (E-mail) eingehen. Auf eine Anforderung hin wird ein Antwortschreiben an den Interessenten verfaßt und zusammen mit den angeforderten Berichten verschickt. Die Bearbeitung solcher Anfragen erfordert einen erheblichen Personaleinsatz.For the application example, the situation is assumed that a larger corporation such as B. Daimler Benz several Ge companies that are periodically organized for the Public certain reports such as annual reports, bi reports, job descriptions and a. issue and send it to interested parties on request. The requirement tion can be made by telephone, in writing (fax, letter) or received electronically (e-mail). Upon request an answer letter is written to the interested party and sent along with the requested reports. The Processing such requests requires a significant amount Personnel deployment.

Durch Einsatz des erfindungsgemäßen Verfahrens können in diesem beispielhaften Anwendungsfall die meisten solcher Anforderungen von der Aufnahme der Anforderung bis zum Versand der Unterlagen ohne Beteiligung von Personal bear beitet werden, so daß die Mitarbeiter von den einfachen wiederkehrenden Arbeiten frei sind zur Bearbeitung an spruchsvollerer Aufgaben.By using the method according to the invention, in most of these Requirements from the inclusion of the requirement to Dispatch of the documents without the involvement of Personal Bear be processed so that the employees of the simple Recurring work is free to edit more demanding tasks.

Texte in dieser Anwendung sind im Regelfall kurz und ent halten typischerweise nur 10 bis 30 Wörter im Textblock. Das die relevante Information ausdrückende Vokabular be steht dabei aus rund 100 Wortformen (deutschsprachiger Text). Die Struktur der relevanten Textteile ist weitge hend einheitlich: Der Absender drückt seinen Wunsch aus und beschreibt dann den Bericht. Die relevanten Textteile sind dabei häufig noch in für die automatische Extraktion von spezifischer Information irrelevante Textteile einge bettet. Texts in this application are usually short and ent typically hold only 10 to 30 words in the text block. The vocabulary expressing the relevant information consists of around 100 word forms (German-speaking Text). The structure of the relevant parts of the text is extensive Uniform: The sender expresses his wish and then describes the report. The relevant parts of the text are often still in for automatic extraction parts of text irrelevant to specific information beds.

Typische Formulierungen sind beispielsweise:
"Wir bitten Sie um zwei englischsprachige Jahresberichte der Mercedes Benz AG von 1990"
"Senden Sie mir einen aktuellen Zwischenbericht"
"Wir wünschen einen AEG-Bericht".Typical formulations are, for example:
"We ask you for two English-language annual reports from Mercedes Benz AG from 1990"
"Send me a current interim report"
"We want an AEG report".

Die Beispiele enthalten jeweils eine Formulierung eines Wunsches und eine Formulierung einer Objektbeschreibung, deren Ausdrucksformen stark variieren können. Gemäß der Erfindung ist eine erste Gruppe von Textstrukturen vorge geben, die als Auslöserstrukturen bezeichnet seien und für den gewählten Beispielsfall die zu erwartenden Ausdrucks formen bei der Formulierung des Wunsches, also z. B. "Wir bitten Sie um", "Senden Sie mir", "Wir wünschen" usw. ab decken sollen. Der zu bearbeitende Text wird auf das Vor liegen einer solchen Auslöserstruktur untersucht. Ferner ist eine zweite Gruppe von Textstrukturen vorgegeben, die als Beschreibungsstrukturen bezeichnet seien und für den gewählten Beispielsfall die zu erwartenden Ausdrucksformen bei der Objektbeschreibung, also z. B. "zwei englischspra chige Jahresberichte der Mercedes Benz AG von 1990", "einen aktuellen Zwischenbericht", einen "AEG-Bericht" usw. abdecken sollen. Der zu bearbeitende Bericht wird auch auf das Vorliegen einer solchen Beschreibungsstruktur untersucht. Nur bei Vorliegen sowohl einer Auslöserstruk tur als auch einer Beschreibungsstruktur, wobei auch noch deren gemeinsames Auftreten in einer syntaktisch geschlos senen Einheit, z. B. einem Satz, als weitere Bedingung überprüft wird, wird auf das Vorliegen einer weiterverar beitbaren Information erkannt, andernfalls wird der Text zurückgewiesen. Vorzugsweise werden bei Erkennen auf das Vorliegen einer weiterverarbeitbaren Information noch durch eine weitergehende Textanalyse Informationsmerkmale, insbesondere aus der Beschreibungsstruktur, extraktiert und für eine Weiterverarbeitung genutzt. Die Art der Wei terverarbeitung ist an sich beliebig. Besonders vorteil haft ist die Erfindung in Verbindung mit der Ausgabe eines Textes, im beschriebenen Anwendungsfall z. B. eines Ant wortschreibens an den Absender der Berichtanforderung, wo bei in den ausgegebenen Text Informationsmerkmale, die aus einer Beschreibungsstruktur extraktiert werden, mit aufge nommen werden, z. B. "Beiliegend übersenden wir Ihnen zwei Exemplare des Jahresberichts 1990 der Mercedes Benz AG in englischer Sprache".The examples each contain a wording of a Request and a formulation of an object description, whose expressions can vary widely. According to the Invention is featured on a first group of text structures give, which are called trigger structures and for the selected example, the expected expression shape when formulating the wish, e.g. B. "We ask for "," send me "," we wish "etc. should cover. The text to be edited is on the previous are such a trigger structure examined. Further a second group of text structures is specified, the are described as description structures and for the selected example, the expected expressions when describing the property, e.g. B. "two English speakers Annual reports of Mercedes Benz AG from 1990 ", "a current interim report", an "AEG report" etc. should cover. The report to be edited will also on the existence of such a description structure examined. Only if there is both a trigger structure structure as well as a description structure, whereby also their common occurrence in a syntactically closed its unit, e.g. B. a sentence as a further condition is checked, the existence of a further processing editable information is recognized, otherwise the text rejected. When recognizing the There is still information that can be processed through further text analysis information features, especially extracted from the description structure and used for further processing. The kind of Wei Processing is arbitrary in itself. Particularly advantageous is the invention in connection with the issue of a Text, in the application described. B. an Ant writing to the sender of the report request where in the case of information features in the text that are output a description structure can be extracted with up be taken, e.g. B. "Enclosed we send you two Copies of the annual report 1990 of Mercedes Benz AG in English language".

Innerhalb der Gruppe der Beschreibungsstrukturen können eine erste Untergruppe mit obligatorischen Beschreibungs strukturen und eine zweite Untergruppe mit optionalen Be schreibungsstrukturen getrennt vorgegeben sein. Bei der Überprüfung eines Textes auf das Vorliegen einer weiter verarbeitbaren Nachricht wird dann das gemeinsame Auftre ten einer Auslöserstruktur und einer obligatorischen Be schreibungsstruktur geprüft. Obligatorische Beschreibungs strukturen können in den beispielhaft angegebenen Formu lierungen z. B. "Bericht", "Jahresbericht", "Zwischenbe richt" oder auch nur "Bericht" als Wortform oder Wortteil sein. Die optionalen Beschreibungsstrukturen können dann auch als separate weitere Gruppe von Textstrukturen behan delt werden. Can within the group of description structures a first sub-group with a mandatory description structures and a second subgroup with optional Be writing structures can be specified separately. In the Checking a text for the presence of another processable message then becomes the common occurrence a trigger structure and a compulsory rating structure checked. Mandatory description structures can be in the example given zungen z. B. "Report", "Annual Report", "Interim dir "or just" report "as a word or part of a word his. The optional description structures can then also as a separate additional group of text structures be delt.

Bei der Überprüfung eines Textes auf das Vorliegen einer weiterverarbeitbaren Information können beide Textstrukturgruppen, Auslöserstrukturen einerseits und Beschreibungsstrukturen andererseits, gleichrangig abgear beitet oder es kann eine hierarchische Vorgehensweise der Art gewählt werden, daß zuerst nur das Auftreten einer Textstruktur aus einer Gruppe (z. B. Auslöserstruktur) und nur bei Detektion einer solchen Textstruktur weiter das Auftreten einer Textstruktur der anderen Gruppe (z. B. Be schreibungsstruktur) im Satzzusammenhang überprüft wird.When checking a text for the presence of a further processable information can both Text structure groups, trigger structures on the one hand and Description structures on the other hand, equally ranked processes or it can be a hierarchical approach of Be selected so that only the occurrence of a Text structure from a group (e.g. trigger structure) and this only continues if such a text structure is detected Occurrence of a text structure from the other group (e.g. Be structure) is checked in the context of sentences.

Die auftretenden Beschreibungsstrukturen können in ihrem Merkmalsumfang wie anhand der Beispiele ersichtlich stark variieren. Der vollständige Merkmalssatz umfasse im ge wählten Anwendungsbeispiel die Berichtsart, das Berichts jahr, die Gesellschaft, die Anzahl gewünschter Berichte und die Sprache, in der diese abgefaßt sind. Um auch Nach richten bearbeiten zu können, die keinen vollständigen Merkmalssatz angeben, ist in einer vorteilhaften Ausfüh rungsform vorgesehen, nicht aus dem Text extrahierbare Merkmale des Merkmalssatzes durch Standardvorgaben zu er setzen, die z. B. durch Jahresbericht, letztes Geschäfts jahr, Daimler Benz AG, 1 Exemplar, Deutsch gegeben seien. Die Beschreibung "einen AEG-Bericht" wird dann z. B. er gänzt zu "1 Exemplar des letzten Jahresberichts der AEG in Deutsch".The description structures that occur can be in your The range of features is strong, as can be seen from the examples vary. The complete set of features included in the ge application example chose the report type, the report year, society, number of reports requested and the language in which they are written. To also after to be able to process judgments that are not complete Specifying a feature set is in an advantageous embodiment Form provided, not extractable from the text Characteristics of the characteristic set using standard specifications put the z. B. by annual report, last business year, Daimler Benz AG, 1 copy, German are given. The description "an AEG report" is then e.g. B. he adds to "1 copy of the last annual report of AEG in German".

Durch Vorgabe verschiedener erster und zweiter Gruppen von Textstrukturen zu verschiedenen Anwendungsfällen ist das erfindungsgemäße Verfahren mit gering erweiterten Vorgaben flexibel einzusetzen. Die Flexibilität bei geringem Zu satzaufwand kann noch verbessert werden, wenn die Text strukturen oder zumindest ein Teil derselben in Sprachmo dellen so definiert werden, daß syntaktische Beschreibun gen für verschiedene Anwendungen unverändert übernommen werden können und nur unterschiedliche Lexika vorgegeben werden müssen.By specifying different first and second groups of That is text structures for various use cases Method according to the invention with slightly expanded specifications flexible use. The flexibility with low closing typesetting can still be improved if the text structures or at least part of them in Sprachmo dents are defined so that syntactic description conditions unchanged for various applications can be specified and only different lexicons Need to become.

Die Definition der Textstrukturen in Sprachmodellen ist auch ohne Berücksichtigung der Verwendungsflexibilität von Vorteil, da hiermit in an sich bekannter Weise der Umfang der bereitzuhaltenden Wissensbasis verringert und die Ver arbeitungsgeschwindigkeit gesteigert werden kann.The definition of text structures in language models is even without taking into account the flexibility of use of Advantage, since hereby the scope in a manner known per se the knowledge base to be made available and the ver working speed can be increased.

Durch die Vorgabe getrennter Gruppen von Textstrukturen und deren verknüpfte Überprüfung werden gegenüber seiner Stichwortdetektion Fehlinterpretationen in Sätzen wie
"Der Bericht von 1991 liegt mir dagegen bereits vor."
"Ich danke für die Zusendung des Berichts von 1991".By specifying separate groups of text structures and their linked verification, misinterpretations in sentences such as
"I already have the 1991 report."
"Thank you for sending the 1991 report."

vermieden, da hier keine Auslöserstruktur detektiert wird.avoided since no trigger structure is detected here.

Bei dem in Fig. 2 skizzierten Ablauf der Informationsex traktion wird von einem als ASCII-Zeichenfolge vorliegen den Text ausgegangen, der einer pauschal angegebenen Vor verarbeitung unterzogen wird. Die Vorverarbeitung umfasse neben der Zuordnung einer Textklasse insbesondere auch grundlegende Maßnahmen der Texterkennung wie z. B. Auftei lung in Sätze und Separation von Wörtern. Der vorverarbei tete Text kann für einzelne Wörter jeweils mehrere Erken nungsvarianten vorsehen. In the course of the information extraction outlined in FIG. 2, the text is assumed to be an ASCII character string which is subjected to a blanket pre-processing. In addition to assigning a text class, preprocessing also includes basic text recognition measures such as: B. Breakdown into sentences and separation of words. The preprocessed text can provide several recognition variants for individual words.

Die Informationsextraktion kann in zwei aufeinanderfol gende Abschnitte unterteilt betrachtet werden. Der erste Abschnitt enthält einen Textanalysator der vorzugsweise anwendungsunabhängig nach dem Prinzip Endlicher Automaten (FSA) arbeitet und auf eine linguistische Wissensbasis mit einem Lexikon und einer die Endlichen Automaten vorgeben den Grammatik zurückgreift. Die Wissensbasis ist bezüglich des Lexikons spezifisch für die vorbestimmte Textklasse. Der FSA-Analysator transformiert den Text in eine Liste semantischer Ausdrücke, z. B.The information extraction can follow in two sections are considered divided. The first Section contains a text analyzer which is preferred application-independent according to the principle of finite automata (FSA) works on a linguistic knowledge base specify a lexicon and one the finite automata who uses grammar. The knowledge base is regarding of the lexicon specifically for the predetermined text class. The FSA analyzer transforms the text into a list semantic expressions, e.g. B.

Bitte Bericht der AEG von 1992 ⇒
[(bericht), (ub:aeg), (j:1992)]Please report from AEG 1992 ⇒
[(report), (ub: aeg), (j: 1992)]

Bitte Bericht der Jahre 1990 bis 1992 ⇒
[(bericht), (j:distanz:1990:1992)]Please report from 1990 to 1992 ⇒
[(report), (j: distance: 1990: 1992)]

Bitte Bericht der AEG und DASA ⇒
[(bericht), (ub:aeg), (verknüpfung) (ub:dasa)].Please report from AEG and DASA ⇒
[(report), (ub: aeg), (link) (ub: dasa)].

Um die die kombinatorischen Variationen, die in den zu be arbeitenden Texten, insbesondere bei den Beschreibungs strukturen zur näheren Beschreibung der angeforderten Be richte, angemessen handzuhaben, zerlegt der Analysator den eingegebenen Text entsprechend Folgen einfacher Automaten- Vorschriften.To be the combinatorial variations that are to be in the working texts, especially in the description structures for a more detailed description of the requested Be the analyzer disassembles the entered text according to sequences of simple automatons Regulations.

Endliche Automaten (Finite-state automata, FSA) sind in der Computerlinguistik hauptsächlich für morphologische und phonologische Aufgaben eingesetzt. In jüngerer Zeit wird der FSA-Ansatz auch auf andere Aufgaben (z. B. [5], [6] angewandt. Auf dem Gebiet des Nachrichtenverstehens und der Informationsextraktion verwendet ein mit FASTUS bezeichnetes System [1] mit Erfolg kaskadierte Endliche Automaten [9].Finite-state automata (FSA) are in computational linguistics mainly for morphological and used phonological tasks. More recently the FSA approach is also applied to other tasks (e.g. [5], [6] applied. In the field of news understanding and information extraction uses one with FASTUS designated system [1] successfully cascaded finite Automatic machines [9].

Der zweite Abschnitt der Informationsextraktion enthält einen anwendungsspezifischen Interpreter, der die vom FSA- Analysator ausgegebenen semantischen Ausdrücke in die an wendungsspezifische Merkmalsgruppe transformiert. Hierbei können soweit erforderlich Standardvorgaben für einzelne, aus dem Text nicht extrahierbare Merkmale ergänzt werden. Der Interpreter enthält Wissensvorgaben über möglichen In halt und Struktur der Merkmalsgruppe und bildet den we sentlichen Teil des semantischen Textmodells der Anwen dungsklasse.The second section of the information extraction contains an application-specific interpreter who uses the FSA Analyzer output semantic expressions to the application-specific feature group transformed. Here If necessary, standard specifications for individual, Features that cannot be extracted from the text are added. The interpreter contains knowledge requirements about possible In hold and structure of the feature group and forms the we considerable part of the semantic text model of the users class.

Die beschreibende linguistische Wissensbasis, d. h. die Grammatik als Vorschriften über die endlichen Automaten und das Lexikon, die vom FSA-Analysator zur Zerlegung des eingegebenen Textes benutzt werden, sind auf der Grundlage von Beispieldokumenten einer Trainingssammlung modelliert. Vorteilhafterweise werden nur die am häufigsten auftreten den Formulierungen für die Modellierungen herangezogen, wodurch die Wissensbasis auf einen eine effiziente und zu verlässige Verarbeitung gewährleistenden Umfang beschränkt werden kann.The descriptive linguistic knowledge base, i. H. the Grammar as rules about finite automata and the lexicon used by the FSA analyzer to disassemble the entered text are based on modeled from sample documents from a training collection. Advantageously, only the most common will occur the formulations used for the modeling, which makes the knowledge base efficient and efficient reliable processing guarantees limited scope can be.

Die durch die Wissensbasis vorgegebenen Vorschriften für die Endlichen Automaten zu beiden Textstrukturgruppen stellen als Grammatik den wesentlichen Teil der struktu rellen oder syntaktischen Textmodellierung der Textklasse dar. Für den gewählten Anwendungsfall können häufige Aus löserstruktur-Formulierungen wieThe regulations for the the finite automata for both text structure groups represent the essential part of the structure as grammar real or syntactic text modeling of the text class For the selected application, frequent off solvent structure formulations such as

- please leave us -
-- please send me --
-- please send --
-- send us --

in eine eine Vorschrift für einen endlichen Automaten als Formelin a regulation for a finite automaton as formula

(bitte) verbclass1 pronomsecond (pronomfirst) (bitte)(please) verbclass1 pronomsecond (pronomfirst) (please)

zusammenfaßt sein, wobei in gebräuchlicher Weise die Klam mereinfassung fakultatives Auftreten ausdrückt und verb class1, pronomsecond, pronomfirst als Kategorien Wortfor men repräsentieren.be summarized, the Klam in the usual way expressing optional expression and verb class1, pronomsecond, pronomfirst as categories wordfor represent men.

Das Lexikon enthält nur solche Wortformen, die in den mo dellierten Formulierungen auftreten. Den Wortformen ist jeweils eine in den Vorschriften für die endlichen Automa ten benutzte Kategorie zugeordnet. Im vorstehenden Bei spielsfall ist den Wortformen "senden", "überlassen", "schicken" des Lexikons jeweils die Kategorie verbclass1 zugeordnet. Bei den für die Beschreibungsstrukturen im Le xikon eingetragenen Wort formen ist vorteilhafterweise noch ein mehreren unterschiedlichen Wortformen gemeinsamer In haltsbegriff, z. B. "englisch" für die Wortformen "engli scher", "englische", "englisch", "englischsprachig" usw. hinzugefügt oder beim Aufbau der semantischen Ausdrücke verwendet wird. Ein derart aufgebautes Lexikon enthält syntaktische und semantische Informationen und kann daher als Teil sowohl des semantischen als auch des syntakti schen Textmodells verstanden werden. The lexicon contains only those word forms that are used in the mo corrugated formulations occur. The word forms is one each in the regulations for finite automa assigned to the category used. In the previous case game case is the word forms "send", "leave", "Send" the lexicon the category verbclass1 assigned. In the case of the description structures in Le Form xikon registered word is advantageously still a several different word forms of common In notion, e.g. B. "English" for the word forms "Engli" shear "," english "," english "," english speaking "etc. added or when building the semantic expressions is used. Such a lexicon contains syntactic and semantic information and can therefore as part of both semantic and syntactic be understood textual model.

Während das Lexikon i.a. rein textklassenspezifisch aufge baut und für jede Textklasse ein separates Lexikon vorge sehen ist, kann die Grammatik textklassenspezifische und textklassenübergreifende Vorschriften enthalten. Beide Teile der Wissensbasis umfassen aber nur solche Einträge, die in den in der jeweiligen Textklasse auftretenden For mulierungen benötigt sind. While the lexicon i.a. purely text-specific builds a separate lexicon for each text class see, the grammar can be text specific and Cross-text regulations included. Both Parts of the knowledge base only include entries that appear in the For formulations are required.

credentials

[1] Appelt, D., Hobbs, J., Bear, J., Israel, D., Ty son, M.: FASTUS: A Finite state processor for in formation extraction from real world text, in: Proceedings of IJCAI 1993;
[2] Bayer, T.: Understanding Structured Text Documents by a Model Based Document Analysis System, in: Proceedings of the 2nd ICDAR 1993;
[3] Bayer, T., Franke, J., Kressel, U., Mandler, E., Oberländer, N., Schürmann, J.: Towards the Under standing of Printed Documents, in: Baird, H., Bunke, H., Yamamoto, K. (eds.): Structured Docu ment Image Analysis, Springer-Verlag New-York 1992;
[4] Hoch, R., Dengel, A.: InfoClas ---Classifying the Message in Printed Business Letters, Proceedings of the Int. Symposium on Document Analysis and Re trieval 1993;
[5] Pereira, F., Wright, R.: Finite-State Approxima tion of Phrase Structure Grammars, in: Proceedings of the 29th ACL 1991;
[6] Roche, E.: Text Disambiguation by Finite State Au tomata, an Algorithm and Experiments on Corpora, in: Proceedings of Coling-92 1992;
[7] Salton, G., McGill, M.: Introduction to Modern In formation Retrieval, McGraw Hill 1983;
[8] Schürmann, J., Bartneck, N., Bayer, T., Franke, J., Mandler, E., Oberländer, M.: From Pixels to Contents, in: Proceedings of the IEEE, pp. 1101- 1119, Vol. 80, No. 7, 1992;
[9] Sundheim, B. (ed.): Proceedings of 4th Message Un derstanding Conference (MUC-4), Morgan Kaufmann 1992[1] Appelt, D., Hobbs, J., Bear, J., Israel, D., Ty son, M .: FASTUS: A Finite state processor for in formation extraction from real world text, in: Proceedings of IJCAI 1993 ;
[2] Bayer, T .: Understanding Structured Text Documents by a Model Based Document Analysis System, in: Proceedings of the 2nd ICDAR 1993;
[3] Bayer, T., Franke, J., Kressel, U., Mandler, E., Oberländer, N., Schürmann, J .: Towards the Understanding of Printed Documents, in: Baird, H., Bunke, H., Yamamoto, K. (eds.): Structured Document Image Analysis, Springer-Verlag New-York 1992;
[4] Hoch, R., Dengel, A .: InfoClas --- Classifying the Message in Printed Business Letters, Proceedings of the Int. Symposium on Document Analysis and Re trieval 1993;
[5] Pereira, F., Wright, R .: Finite-State Approximation of Phrase Structure Grammars, in: Proceedings of the 29th ACL 1991;
[6] Roche, E .: Text Disambiguation by Finite State Au tomata, an Algorithm and Experiments on Corpora, in: Proceedings of Coling-92 1992;
[7] Salton, G., McGill, M .: Introduction to Modern Information Retrieval, McGraw Hill 1983;
[8] Schürmann, J., Bartneck, N., Bayer, T., Franke, J., Mandler, E., Oberländer, M .: From Pixels to Contents, in: Proceedings of the IEEE, pp. 1101-1119, vol. 80, no. 7 , 1992;
[9] Sundheim, B. (ed.): Proceedings of 4th Message Un derstanding Conference (MUC-4), Morgan Kaufmann 1992

Claims

1. A method for automatic extraction of information from digital text data in a data processing system with a storage device for predefined text structures, characterized in that a first group of text structures as trigger structures and a second group of text structures are given as description structures before that within a text Occurrence of trigger structures and description structures checked and upon detection of the common occurrence of each structure from both groups within a set for the presence of further processable information it is known.

2. The method according to claim 1, characterized in that a first for the group of description structures Subgroup of mandatory description structures and a second subset of optional description structures is specified and that only when an obligato structure of the description in connection with an out solution structure on the existence of a processable Information is recognized.

3. The method according to claim 1 or 2, characterized net that from a detected description structure In formation features are extracted.

4. The method according to claim 3, characterized in that standard specifications for non-extractable characteristics be set.

5. The method according to any one of claims 1 to 4, characterized characterized in that at least part of the text structures is defined in language models.

6. The method according to any one of claims 1 to 5, characterized characterized that several different application classes with their own groups of predefined ones Text structures are provided, and that in a pre classification, the text data of an application class be assigned.

7. The method according to any one of claims 1 to 6, characterized characterized that the further processing of the information the output of a text that includes extracted features and / or contains standard specifications of the feature vector.