[go: up one dir, main page]

JP2500680B2 - Data name assignment registration device - Google Patents

Data name assignment registration device

Info

Publication number
JP2500680B2
JP2500680B2 JP2410088A JP41008890A JP2500680B2 JP 2500680 B2 JP2500680 B2 JP 2500680B2 JP 2410088 A JP2410088 A JP 2410088A JP 41008890 A JP41008890 A JP 41008890A JP 2500680 B2 JP2500680 B2 JP 2500680B2
Authority
JP
Japan
Prior art keywords
word
phrase
module
input
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2410088A
Other languages
Japanese (ja)
Other versions
JPH04215182A (en
Inventor
優 中川
純 関根
宏毅 町原
満 川下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2410088A priority Critical patent/JP2500680B2/en
Publication of JPH04215182A publication Critical patent/JPH04215182A/en
Application granted granted Critical
Publication of JP2500680B2 publication Critical patent/JP2500680B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、利用者の判断によらず
に、一意性を保持してデ−タ名の標準化が可能な計算機
システムにおけるデ−タ名付与標準化装置に関するもの
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data name assigning and standardizing device in a computer system which can standardize data names while maintaining uniqueness without the user's judgment.

【0002】[0002]

【従来の技術】機械翻訳システム、キ−ワ−ド自動抽出
システム、文書デ−タベ−スの知的検索システム、報告
書自動生成システム、あるいは文書作成支援システム等
では、デ−タ名を標準化して登録しないと、同じ対象物
に対して種々の用語で翻訳されたり、異なる検索文書等
が抽出されて、利用者やこれを読む側に混乱が生じるた
め、デ−タ名の標準化は重要である。従来より、デ−タ
名を標準化する装置としてデ−タ名付与登録装置が開発
されていた。このデ−タ名付与登録装置は、辞書や文法
規則を用いて複合語解析を行った後、さらに部分一致検
索により関連する語句を検出することによって、デ−タ
名の標準化を行っていた。なお、データ名付与登録装置
に関する文献としては、例えば、William R.
Durell著、味村重臣監修IRM研完全訳『デー
タ資源管理』日経マグロウヒル社昭62.1.27、第
3章P.57〜に記載されている。
2. Description of the Related Art In machine translation systems, automatic keyword extraction systems, intelligent search systems for document databases, automatic report generation systems, document creation support systems, etc., data names are standardized. If you do not register it, the standardization of data names is important because users and readers will be confused by the fact that different terms are translated for the same object or different search documents are extracted. Is. Conventionally, a data name giving / registering device has been developed as a device for standardizing a data name. This data name assignment / registration device has standardized the data name by performing a compound word analysis using a dictionary or a grammar rule and then detecting a related phrase by a partial match search. Note that literatures relating to the data name assignment / registration device include, for example, William R.
"Data Resource Management" written by Shigeomi Ajimura, edited by Durrell, "Data Resource Management", Nikkei McGraw-Hill, Inc. Sho 62.1.27, Chapter 3, p. 57-.

【0003】[0003]

【発明が解決しようとする課題】従来のデ−タ名付与登
録装置では、文法規則を用いた複合語解析により得られ
る複数の語句分解候補を基に、対象となる用語に対し
て、利用者が適切に選択する必要がある。しかし、その
選定基準の設定が困難であるため、人により種々の選択
がなされてしまう。また、語句の構成を決定する場合に
使用される部分一致検索においても、検索条件となる語
句の分類、出現位置等にかまわずに関連する語句を抽出
するため、不要な大量候補を出力することになる。この
ために、従来のデ−タ名付与登録装置を用いてデ−タ名
の付与を行った場合には、利用者の判断により異なる候
補を選択する箇所が生じ、大規模システムでは、全体と
しての一意性が保持できなくなるという問題があった。
In the conventional data name assignment / registration apparatus, the user can select the target term based on a plurality of word decomposition candidates obtained by compound word analysis using grammatical rules. Must be properly selected. However, since it is difficult to set the selection criteria, various selections are made by people. Also, in the partial match search used when determining the structure of words, it is necessary to output unnecessary large numbers of candidates in order to extract related words regardless of the classification and appearance position of words that are the search conditions. become. For this reason, when the data name is assigned by using the conventional data name assigning / registering device, there are places where different candidates are selected depending on the judgment of the user, and in a large-scale system, the whole is not selected. There was a problem that the uniqueness of could not be maintained.

【0004】本発明の目的は、このような従来の課題を
解決し、利用者の判断によって異なる候補が選択される
のを防止でき、かつ装置の能力を増加して操作性および
効率性を向上することができるデ−タ名付与登録装置を
提供することにある。
An object of the present invention is to solve such conventional problems, prevent different candidates from being selected by a user's judgment, and increase the capability of the apparatus to improve operability and efficiency. It is to provide a data name giving / registering device capable of performing.

【0005】[0005]

【課題を解決するための手段】上記目的を達成するた
め、本発明のデ−タ名付与登録装置は、使用する単語と
該単語の分類を定義する基本単語表(図1の7)、複合
語に関する構成単語を記述する複合語表(図1の8)、
デ−タ項目の標準化を行うための語句構成規則表(図1
の9)、既存のデ−タ項目を格納するデ−タ項目管理表
(図1の10)、および類似用語間の関係を整理した標
準語対応表(図1の11)を具備するとともに、基本単
語表と複合語表をもとに入力された語句を基本単語に分
解する語句分解モジュ−ル(図1の1)、語句分解モジ
ュ−ルによる分解が失敗したとき、入力語句を基本単語
表に登録する未知語登録モジュ−ル(図1の2)、入力
語句に関する分類の情報と、入力語句の配列に基づく語
句構成規則表に従って、入力語句がデ−タ項目として妥
当か否かを確認する語句構成確認モジュ−ル(図1の
3)、語句構成確認モジュ−ルにより規則に違反すると
判断されたとき、デ−タ項目管理表を検索して、優先付
けした分類に基づき欠落している語句に関する情報を抽
出する類似語句検索モジュ−ル(図1の4)、語句構成
規則を満足した入力語句内の基本単語を、標準語対応表
内の標準用語に対応付ける語句標準化モジュ−ル(図1
の5)、および入力語句と対応する標準デ−タ項目をデ
−タ項目管理表に蓄積するデ−タ項目生成モジュ−ル
(図1の6)を具備することに特徴がある。
In order to achieve the above object, the data name assignment / registration apparatus of the present invention comprises a basic word table (7 in FIG. 1) defining a word to be used and a classification of the word, and a composite word. A compound word table (8 in FIG. 1) that describes the constituent words related to the word,
A table of word construction rules for standardizing data items (see FIG. 1).
9), a data item management table (10 in FIG. 1) for storing existing data items, and a standard word correspondence table (11 in FIG. 1) in which the relationship between similar terms is arranged. A phrase decomposition module (1 in FIG. 1) that decomposes an input phrase based on a basic word table and a compound word table into basic words, and when the decomposition by the phrase decomposition module fails, the input phrase is a basic word. The unknown word registration module (2 in FIG. 1) to be registered in the table, the classification information about the input words, and the word structure rule table based on the arrangement of the input words are used to determine whether the input words are valid as data items. When it is determined that the word structure confirmation module to be confirmed (3 in FIG. 1) or the word structure confirmation module violates the rules, the data item management table is searched, and the data item management table is deleted based on the prioritized classification. Similar word search to extract information about existing words Ju - Le (4 in FIG. 1), a base word in the input word satisfying the phrase structure rules, the phrase standardized module mapped to the standard terminology of the standard language in the corresponding table - Le (Fig. 1
5), and a data item generation module (6 in FIG. 1) for accumulating standard data items corresponding to input phrases in the data item management table.

【0006】[0006]

【作用】本発明においては、デ−タ項目を構成する語句
に関して、関連する分野の語句を蓄積した基本単語表、
および複合語分解表を活用することにより、入力語句の
分解候補を最小の数、つまり殆んど一意にすることがで
きる。また、基本単語内の分類情報の活用、および複合
語に関する語句の構成上の特徴を捉えた語句構元規則と
して、語句の分類とその語句の出現する位置に優先順を
与えることにより、デ−タ項目の生成に関する明快な付
与基準を設定することができる。また、語句構成規則に
より生成したデ−タ項目表を、提案する類似語句検索モ
ジュ−ルを用いて検索することにより、関連するデ−タ
項目(語句)の抽出を容易にして、入力語句の修正を確
実に行うことができる。さらに、デ−タ項目生成モジュ
−ルにより出力したデ−タ項目をデ−タ項目管理表に順
次蓄積することによって、知識量が増加し、より知的な
登録システムに変化することができる。
In the present invention, with respect to the words and phrases forming the data items, a basic word table accumulating words and phrases of a related field,
By utilizing the compound word decomposition table, the decomposition candidate of the input phrase can be made the minimum number, that is, almost unique. In addition, by utilizing the classification information in the basic word and giving a priority order to the classification of words and the position where the words appear, as a word construction rule that captures the structural characteristics of words related to compound words, It is possible to set a clear assignment standard regarding the generation of data items. In addition, by searching the data item table generated by the phrase construction rule using the proposed similar phrase search module, extraction of related data items (phrases) is facilitated and the input phrase The correction can be made reliably. Further, by sequentially accumulating the data items output by the data item generation module in the data item management table, the knowledge amount can be increased and the system can be changed to a more intelligent registration system.

【0007】[0007]

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の一実施例を示すデ−タ名付
与登録装置の全体ブロック図である。本発明のデ−タ名
付与登録装置は、図1に示すように、語句分割モジュ−
ル1、未知語登録モジュ−ル2、語句構成確認モジュ−
ル3、類似語句検索モジュ−ル4、語句標準化モジュ−
ル5、およびデ−タ項目生成モジュ−ル6の6個のプロ
グラムモジュ−ルと、基本単語表7、複合語表8、語句
構成規則表9、デ−タ項目管理表10、および標準語対
応表11の5つの表テ−ブルから構成される。基本単語
表7は、入力の対象となる世界の基本単語とその分類を
示す情報からなり、複合語表8は、略称等の複合語とそ
の構成単語列からなり、標準語対応表11は、類似用語
間の関係を整理した表からなり、語句構成規則表9は、
デ−タ項目の標準化を実現するために設けられた規則で
あって、語句を構成する規則からなるが、使用してはな
らない禁止語を定義した禁止語表を含んでもよい。デ−
タ項目管理表10は、既存のデ−タ項目を格納するため
に設けられる。語句分解モジュ−ル1により、基本単語
表7を参照して、利用者が入力する入力語句から、構成
される単語およびその分類情報を抽出する。入力語句に
複合語があれば、複合語表8により基本単語に分解す
る。禁止語や未知語を検出した場合には、未知語登録モ
ジュ−ル2により新規の単語の登録を実施し、その後に
入力語句の再入力を指示する。語句構成確認モジュ−ル
2は、語句構成規則表9を用いて入力語句における語句
の分類情報の並びが規則に適合することを確認する。
類似語句検索モジュ−ル4は、語句構成確認モジュ−ル
3により構成誤りが検出されたとき、デ−タ項目管理表
10に格納されている既存のデ−タ項目を検索して、修
正あるいは追加すべき語句を類推し、入力語句の再入力
を指示する。入力語順が語句構成規則に適合したなら
ば、語句構成化モジュ−ル5により、類似用語間の関係
を整理した標準語対応表11を検索し、入力語句の標準
化を実行する。最後に、デ−タ項目生成モジュ−ル6に
より、該当する入力語句をデ−タ項目管理表10に格納
する。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 is an overall block diagram of a data name assignment / registration apparatus showing an embodiment of the present invention. The data name assignment / registration apparatus of the present invention is, as shown in FIG.
Module 1, unknown word registration module 2, word structure confirmation module
Module 3, similar phrase search module 4, phrase standardization module
6 program modules of data 5 and data item generation module 6, basic word table 7, compound word table 8, word structure rule table 9, data item management table 10, and standard words The correspondence table 11 is composed of five table tables. The basic word table 7 is composed of the basic words of the world to be input and information indicating the classification thereof, the compound word table 8 is composed of compound words such as abbreviations and their constituent word strings, and the standard word correspondence table 11 is It consists of a table summarizing the relationships between similar terms.
It is a rule provided to realize the standardization of data items, which is composed of rules for forming words and phrases, but may include a prohibited word table that defines prohibited words that should not be used. De-
The data item management table 10 is provided to store existing data items. The word decomposition module 1 refers to the basic word table 7 to extract the composed words and the classification information thereof from the input words input by the user. If the input phrase has a compound word, it is decomposed into basic words by the compound word table 8. When a forbidden word or an unknown word is detected, a new word is registered by the unknown word registration module 2 and then the input word is instructed to be re-input. The phrase construction confirmation module 2 uses the phrase construction rule table 9 to confirm that the arrangement of the classification information of the phrases in the input phrase conforms to the rule.
The similar word search module 4 searches for existing data items stored in the data item management table 10 and corrects or corrects them when a structure error is detected by the word structure confirmation module 3. The analogy of the words to be added is made, and the input word is re-input. If the input word order conforms to the word construction rules, the word construction module 5 searches the standard word correspondence table 11 in which the relationships between similar terms are arranged, and standardizes the input words. Finally, the data item generation module 6 stores the corresponding input phrase in the data item management table 10.

【0008】図7は、図1における動作フロ−チャ−ト
である。利用者が本発明のデ−タ名付与登録装置に語句
を入力すると、先ず、語句分割モジュ−ル1が、基本単
語表7に保持されている語句と照合を行い、該当する語
句とその分類を抽出する(ステップ101)。基本単語表
7との照合に失敗した語句は、未知語と解釈し、未知語
登録モジュ−ル2に送られる(ステップ102)。未知語
登録モジュ−ル2では、その未知語と利用者が設定する
分類情報を基本単語表7に登録する(ステップ10
3)。ステップ101において、分類が複合語の場合
(ステップ104)、複合語表8により構成単語に分解
し、再度、語句分割モジュ−ル1に入力する。また、未
知語が複合語の場合には、複合語を構成する単語列を利
用者が付加して、複合語表8に登録する(ステップ10
5)。語句分割モジュ−ル1では、その単語列を基本単
語表7の基本単語と照合し、不一致であれば、上記の処
理を繰り返す(ステップ101〜105)。基本単語表
7の基本単語と照合が成功した時点で、語句の新規登録
が完了する。 基本単語表7で正常処理された入力語句
とその分類情報は、語句構成確認モジュ−ル3に送られ
る。語句構成確認モジュ−ル3では、上記分類情報とそ
の並びにもとづく語句構成規則表9を用いて、入力語句
がデ−タ項目としての構成条件を満たしているかを検査
する(ステップ106)。その構成条件を満たしていな
い場合には、その旨のメッセ−ジを出力するとともに、
類似語句検索モジュ−ル4にその解析情報を送る。類似
語句検索モジュ−ル4では、語句の優先順に従って、既
に保持されたデ−タ項目管理表10中のデ−タ項目に対
して類似検索を実行し、関連する語句の候補を抽出して
出力する(ステップ107)。利用者は、この情報をも
とにして語句分割モジュ−ル1に再度入力を試みる。一
方、語句構成確認モジュ−ル3でデ−タ項目の条件を満
たしている入力語句は、語句標準化モジュ−ル5に送ら
れる。語句標準化モジュ−ル5では、類似用語間の関係
を整理した標準語対応表11をもとに、該当する入力語
句の標準語を抽出する(ステップ108)。このデ−タ
項目と対応する標準語の列は、デ−タ項目生成モジュ−
ル6に送られる。デ−タ項目生成モジュ−ル6では、該
当する用語を標準語に置き換えることにより、標準デ−
タ項目を生成し、該当するデ−タ項目とともにデ−タ項
目管理表10にこれを登録する(ステップ109)。
FIG. 7 is an operation flowchart in FIG. When the user inputs a word or phrase into the data name assignment / registration device of the present invention, first, the word / phrase division module 1 collates with the word / phrase held in the basic word table 7, and the corresponding word / phrase and its classification. Is extracted (step 101). The word or phrase that fails to match with the basic word table 7 is interpreted as an unknown word and sent to the unknown word registration module 2 (step 102). In the unknown word registration module 2, the unknown word and the classification information set by the user are registered in the basic word table 7 (step 10).
3). In step 101, when the classification is a compound word (step 104), it is decomposed into the constituent words by the compound word table 8 and is input again to the phrase division module 1. If the unknown word is a compound word, the user adds a word string constituting the compound word and registers it in the compound word table 8 (step 10).
5). In the phrase division module 1, the word string is collated with the basic words in the basic word table 7, and if they do not match, the above process is repeated (steps 101 to 105). When the matching with the basic word in the basic word table 7 is successful, the new registration of the phrase is completed. The input words and their classification information that have been normally processed in the basic word table 7 are sent to the word structure confirmation module 3. The word / phrase structure confirmation module 3 checks whether or not the input word / phrase satisfies the structure condition as a data item using the classification information and the word / phrase structure rule table 9 based on the classification information and the classification information (step 106). If the configuration conditions are not met, a message to that effect is output, and
The analysis information is sent to the similar phrase search module 4. In the similar phrase search module 4, the similar search is executed for the data items in the data item management table 10 which are already held in accordance with the priority order of the phrases, and the candidate of the related phrase is extracted. Output (step 107). The user tries to input again into the phrase division module 1 based on this information. On the other hand, the input phrase satisfying the condition of the data item in the phrase structure confirmation module 3 is sent to the phrase standardization module 5. In the phrase standardization module 5, the standard word of the corresponding input phrase is extracted based on the standard word correspondence table 11 in which the relationships between similar terms are organized (step 108). The sequence of standard words corresponding to this data item is the data item generation module.
Sent to Le 6. In the data item generation module 6, the standard data are replaced by replacing the corresponding terms with standard words.
A data item is generated and is registered in the data item management table 10 together with the corresponding data item (step 109).

【0009】図2は、図1における基本単語表に保持さ
れる用語およびその分類例を示す図であり、図3は、同
じく複合語表に保持される構成語句の図であり、図4
は、同じく語句構成規則表に保持される規則の図であ
り、図5は、同じく標準語対応表に保持される用語と標
準用語の図であり、図6は、同じくデ−タ項目管理表に
保持されている同一デ−タ項目の図である。基本単語表
7には、図2に示すような用語と分類が保持されてい
る。複合語表8には、図3に示すような複合語と語構成
が保持されていると仮定する。図2の区分語、主要語、
および修飾語の分類は、語句構成規則表9で活用され
る。いま、利用者が『加入者電番』という語句を入力し
た場合の動作について説明する。語句分割モジュ−ル1
では、図2の基本単語表7の用語と照合して、(加入
者,主要語)、(電番,複合語)を得る。複合語が見つ
かったので、図3の複合語表8の各複合語と照合し、
(電番:電話,番号)を得た後、再度、図2の基本単語
表7の用語と照合する。その結果、『加入者電番』に対
して、(加入者,主要語),(電話,主要語),(番
号,区分語)を得る。未知語が検出されなかったので、
次に語句構成モジュ−ル3に上記情報を入力する。語句
構成モジュ−ル3では、『加入者電話番号』を図4の語
句構成規則表9に適合するか否かを確認する。『番号』
なる区分語が1度だけ、かつ右端に出現しているので、
規則1を満足する。『電話』と『加入者』なる主要語が
その区分語の左に2度出現しているので、規則2を満足
する。また、修飾語が出現しないので、規則3も満足す
る。全規則が満足されるため、語句構成が正しいと認識
されて、次の語句標準化モジュ−ル5にその解析情報が
入力される。語句標準化モジュ−ル5では、図5の標準
語対応表10の用語と照合し、対応する標準用語を抽出
する。『加入者電話番号』の例では、標準用語として
(お客様,電話,番号)が抽出される。次のデ−タ項目
生成モジュ−ル6には、標準デ−タ項目名の『お客様電
話番号』とその入力となった入力語句(デ−タ項目名)
の『加入者電番』が送られる。デ−タ項目生成モジュ−
ル6では、図6のデ−タ項目管理表11を照合し、該当
する標準デ−タ項目『お客様電話番号』が既に存在する
ので、これは登録しない。次に同一デ−タ項目に『加入
者電番』が存在するか照合する。この場合には、図6に
該当項目がないので、『加入者電番』を同一デ−タ項目
欄に追加し、登録処理を完了する。
FIG. 2 is a diagram showing terms and examples of classifications thereof stored in the basic word table in FIG. 1, and FIG. 3 is a diagram of constituent words also stored in the compound word table, and FIG.
Is a diagram of rules also stored in the phrase construction rule table, FIG. 5 is a diagram of terms and standard terms also stored in the standard word correspondence table, and FIG. 6 is also a data item management table. FIG. 6 is a view of the same data item held in the. The basic word table 7 holds terms and categories as shown in FIG. It is assumed that the compound word table 8 holds compound words and word structures as shown in FIG. 2, the terminology, the main term,
The classification of the modifiers is utilized in the phrase construction rule table 9. Now, the operation when the user inputs the phrase "subscriber telephone number" will be described. Phrase division module 1
Then, by collating with the terms in the basic word table 7 in FIG. 2, (subscriber, main word) and (telephone number, compound word) are obtained. Since a compound word was found, it was compared with each compound word in the compound word table 8 in FIG.
After obtaining (telephone number: telephone, number), it is collated again with the terms in the basic word table 7 in FIG. As a result, (subscriber, main word), (telephone, main word), (number, section word) are obtained for the "subscriber telephone number". Since no unknown word was detected,
Next, the above information is input to the phrase composition module 3. In the phrase construction module 3, it is confirmed whether or not the "subscriber telephone number" conforms to the phrase construction rule table 9 in FIG. "number"
Since the delimiter word appears only once and at the right end,
Satisfy rule 1. Rule 2 is satisfied because the main words "telephone" and "subscriber" appear twice to the left of the delimiter. In addition, since no modifier appears, Rule 3 is also satisfied. Since all the rules are satisfied, the word structure is recognized as correct, and the analysis information is input to the next word standardization module 5. The phrase standardization module 5 collates the terms in the standard word correspondence table 10 in FIG. 5 and extracts the corresponding standard terms. In the example of "subscriber telephone number", (customer, telephone, number) is extracted as a standard term. In the next data item generation module 6, the standard customer data item name "customer telephone number" and the input phrase (data item name)
"Subscriber's telephone number" is sent. Data item generation module
In the rule 6, the data item management table 11 of FIG. 6 is collated, and the corresponding standard data item "customer telephone number" already exists, so this is not registered. Next, it is checked whether or not "subscriber telephone number" exists in the same data item. In this case, since there is no corresponding item in FIG. 6, "subscriber telephone number" is added to the same data item column, and the registration process is completed.

【0010】このように、本発明においては、語句分割
モジュ−ル1と未知語登録モジュ−ル2を設定している
ので、対象分野に関する用語の登録とその分類基準の設
定が整備され、入力された複合語句の解析も効率よく実
行できる。また、語句確認モジュ−ル3と類似語句検索
モジュ−ル4を設けているので、不適合な入力語句に対
しても、規則的に作成された既存のデ−タ項目を類似検
索することにより、関連する語句およびその出現位置に
関する情報が得られ、標準デ−タ項目の生成を容易に実
現できる。また、語句標準化モジュ−ル5を設けている
ので、用語、およびデ−タ項目の保持が大量になるに伴
って、未登録デ−タが減少し、登録装置の能力が増加す
る。
As described above, according to the present invention, since the phrase division module 1 and the unknown word registration module 2 are set, the registration of the term relating to the target field and the setting of the classification standard thereof are prepared and input. It is also possible to efficiently perform the analysis of the generated compound phrase. Further, since the phrase confirmation module 3 and the similar phrase search module 4 are provided, even for incompatible input phrases, similar search is performed for existing data items created regularly, Information about the related word and its appearance position can be obtained, and the standard data item can be easily generated. Further, since the phrase standardization module 5 is provided, the unregistered data decreases and the capability of the registration device increases as the number of terms and data items held increases.

【0011】[0011]

【発明の効果】以上説明したように、本発明によれば、
標準デ−タ項目を容易に生成でき、利用者の判断によっ
て異なる候補を選択することがなくなり、かつ登録装置
の能力を増加できるとともに、デ−タ名付与登録装置の
操作性および効率性を向上させることができる。
As described above, according to the present invention,
Standard data items can be easily generated, different candidates are not selected according to the judgment of the user, the capability of the registration device can be increased, and the operability and efficiency of the data name assignment registration device are improved. Can be made.

【0012】[0012]

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示すデ−タ名付与登録装置
の全体ブロック図である。
FIG. 1 is an overall block diagram of a data name assignment / registration apparatus showing an embodiment of the present invention.

【図2】図1における基本単語表に保持される用語およ
びその分類例を示す図である。
2 is a diagram showing terms held in a basic word table in FIG. 1 and examples of classification thereof.

【図3】図1における複合語表に保持される用語の例を
示す図である。
FIG. 3 is a diagram showing an example of terms held in a compound word table in FIG.

【図4】図1における語句構成規則表の例を示す図であ
る。
FIG. 4 is a diagram showing an example of a word structure rule table in FIG. 1.

【図5】図1における標準語対応表の例を示す図であ
る。
5 is a diagram showing an example of a standard word correspondence table in FIG.

【図6】図1におけるデ−タ項目管理表の例を示す図で
ある。
FIG. 6 is a diagram showing an example of a data item management table in FIG.

【図7】図1のデ−タ名付与登録装置の動作フロ−チャ
−トである。
7 is an operation flow chart of the data name assignment / registration apparatus of FIG.

【符号の説明】[Explanation of symbols]

1 語句分割モジュ−ル 2 未知語登録モジュ−ル 3 語句構成確認モジュ−ル 4 類似語句検索モジュ−ル 5 語句標準化モジュ−ル 6 デ−タ項目生成モジュ−ル 7 基本単語表 8 複合語表 9 語句構成規則表 10 デ−タ項目管理表 11 標準語対応表 1 word division module 2 unknown word registration module 3 word structure confirmation module 4 similar word search module 5 word standardization module 6 data item generation module 7 basic word table 8 compound word table 9 Word composition rule table 10 Data item management table 11 Standard word correspondence table

───────────────────────────────────────────────────── フロントページの続き (72)発明者 川下 満 東京都千代田区内幸町一丁目1番6号 日本電信電話株式会社内 (56)参考文献 特開 昭57−137965(JP,A) 特開 平2−176865(JP,A) ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Mitsuru Kawashita 1-1-6 Uchisaiwaicho, Chiyoda-ku, Tokyo Inside Nippon Telegraph and Telephone Corporation (56) Reference JP-A-57-137965 (JP, A) JP-A 2-176865 (JP, A)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】語句を入力して、該語句を基本に標準デ−
タ項目名を生成するデ−タ名付与登録装置において、使
用する単語と該単語の分類を定義する基本単語表、複合
語に関する構成単語を記述する複合語表、デ−タ項目の
標準化を行うための語句構成規則表、既存のデ−タ項目
を格納するデ−タ項目管理表、および類似用語間の関係
を整理した標準語対応表を具備するとともに、上記基本
単語表と複合語表をもとに入力された語句を基本単語に
分解する語句分解モジュ−ル、該語句分解モジュ−ルに
よる分解が失敗したとき、該入力語句を上記基本単語表
に登録する未知語登録モジュ−ル、該入力語句に関する
分類の情報と、該入力語句の配列に基づく上記語句構成
規則表に従って、該入力語句がデ−タ項目として妥当か
否かを確認する語句構成確認モジュ−ル、該語句構成確
認モジュ−ルにより規則に違反すると判断されたとき、
上記デ−タ項目管理表を検索して、優先付けした分類に
基づき欠落している語句に関する情報を抽出する類似語
句検索モジュ−ル、語句構成規則を満足した入力語句内
の基本単語を、上記標準語対応表内の標準用語に対応付
ける語句標準化モジュ−ル、および該入力語句と対応す
る標準デ−タ項目を上記デ−タ項目管理表に蓄積するデ
−タ項目生成モジュ−ルを具備することを特徴とするデ
−タ名付与登録装置。
1. A word / phrase is input and a standard data is input based on the word / phrase.
In a data name assignment / registration device that generates data item names, a standard word table that defines the words to be used and the classification of the words, a compound word table that describes the constituent words related to the compound words, and standardize the data items It is equipped with a word structure rule table for storing, a data item management table for storing existing data items, and a standard word correspondence table in which relationships between similar terms are arranged. A word decomposition module that decomposes an originally input word into basic words, an unknown word registration module that registers the input word in the basic word table when the decomposition by the word decomposition module fails, A phrase structure confirmation module for confirming whether or not the input phrase is valid as a data item according to the classification information relating to the input phrase and the phrase structure rule table based on the arrangement of the input phrase, and the phrase structure confirmation By module When it is determined that the violation of the rule,
The similar word search module for searching the data item management table to extract information about the missing word based on the prioritized classification, and the basic word in the input word satisfying the word construction rule as described above. A standardized module for words and phrases corresponding to standard terms in the standard word correspondence table, and a data item generation module for accumulating standard data items corresponding to the input words and phrases in the data item management table are provided. A data name giving / registering device characterized by the above.
JP2410088A 1990-12-13 1990-12-13 Data name assignment registration device Expired - Lifetime JP2500680B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2410088A JP2500680B2 (en) 1990-12-13 1990-12-13 Data name assignment registration device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2410088A JP2500680B2 (en) 1990-12-13 1990-12-13 Data name assignment registration device

Publications (2)

Publication Number Publication Date
JPH04215182A JPH04215182A (en) 1992-08-05
JP2500680B2 true JP2500680B2 (en) 1996-05-29

Family

ID=18519316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2410088A Expired - Lifetime JP2500680B2 (en) 1990-12-13 1990-12-13 Data name assignment registration device

Country Status (1)

Country Link
JP (1) JP2500680B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4032775B2 (en) * 2002-03-04 2008-01-16 株式会社日立製作所 Encoding system and program
JP5979650B2 (en) * 2014-07-28 2016-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Method for dividing terms with appropriate granularity, computer for dividing terms with appropriate granularity, and computer program thereof
JP6991100B2 (en) * 2018-05-16 2022-01-12 三菱電機株式会社 Database configuration management device
JP7114433B2 (en) * 2018-10-11 2022-08-08 株式会社日立製作所 Name matching device and method

Also Published As

Publication number Publication date
JPH04215182A (en) 1992-08-05

Similar Documents

Publication Publication Date Title
US5404507A (en) Apparatus and method for finding records in a database by formulating a query using equivalent terms which correspond to terms in the input query
JP3152871B2 (en) Dictionary search apparatus and method for performing a search using a lattice as a key
US5454105A (en) Document information search method and system
EP1396799B1 (en) Content management system
US6044375A (en) Automatic extraction of metadata using a neural network
US20060212433A1 (en) Prioritization of search responses system and method
JP2002312365A (en) Document image retrieval device
KR100627195B1 (en) Electronic document retrieval method and system based on optical character recognition
JPH07160389A (en) Data input workstation
KR20010098714A (en) Method and system for retrieving information based meaningful core word
CN118410196B (en) Drawing tag identification method, system and device for drawing
JP2500680B2 (en) Data name assignment registration device
JP2002251402A (en) Document search method and document search device
JP2018101244A (en) Data cleansing system, data cleansing method, and data cleansing program
JPH10162008A (en) Information retrieval method and device
CN110321351A (en) A kind of vendor name method for normalizing based on fuzzy matching
JP2821213B2 (en) Database matching method
Buckley et al. Processing noisy structured textual data using a fuzzy matching approach: application to postal address errors
JPH1153383A (en) Method for searching a plurality of databases and recording medium storing the search program and the like
JPH0782500B2 (en) Unregistered word acquisition method
EP0561364B1 (en) Document information search method and system
JP3477822B2 (en) Document registration search system
JPH05250414A (en) Keyword search method
JP2001229177A (en) Case base construction method, case base construction apparatus, and recording medium recording case base construction program
JP2002132824A (en) Information retrieval method and information retrieval system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100313

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110313

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110313

Year of fee payment: 15