[go: up one dir, main page]

JP3123836B2 - Text type database device - Google Patents

Text type database device

Info

Publication number
JP3123836B2
JP3123836B2 JP04299658A JP29965892A JP3123836B2 JP 3123836 B2 JP3123836 B2 JP 3123836B2 JP 04299658 A JP04299658 A JP 04299658A JP 29965892 A JP29965892 A JP 29965892A JP 3123836 B2 JP3123836 B2 JP 3123836B2
Authority
JP
Japan
Prior art keywords
search
word
attribute
semantic attribute
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04299658A
Other languages
Japanese (ja)
Other versions
JPH06149887A (en
Inventor
比呂志 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP04299658A priority Critical patent/JP3123836B2/en
Publication of JPH06149887A publication Critical patent/JPH06149887A/en
Application granted granted Critical
Publication of JP3123836B2 publication Critical patent/JP3123836B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は,自然言語や単語列で記
述された検索対象文を含む情報の検索を行うためのテキ
スト型データベース装置に係り,特に,単語の意味属性
にロールと呼ぶ検索属性情報を定義できるようにし,こ
れによりテキストの分野に対して柔軟な対応が可能で精
度のよい検索を可能としたロール付き意味属性に基づく
テキスト型データベース装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a text type database device for searching for information including a search target sentence described in a natural language or a word string, and more particularly to a search called a role in a semantic attribute of a word. The present invention relates to a text-type database device based on a semantic attribute with a role, which enables attribute information to be defined, thereby enabling a flexible response to a text field and enabling a high-precision search.

【0002】[0002]

【従来の技術】入力文と登録したテキスト(検索対象
文)との意味的類似性を考慮した検索を行う従来のテキ
スト型データベース装置では,特開平2−287876
号(特願平1−111626号)の「テキスト型データ
ベース装置」に見られるように,単語表記や意味属性
(特開平2−287876号の発明では意味カテゴリと
称している)などの単語情報を規定した単語辞書と,入
力文を単語に分割し,各単語の意味属性を抽出する形態
素解析部と,単語表記および形態素解析部で抽出された
意味属性を含む検索対象文を抽出して,類似度計算をお
こなう類似度計算部などで構成され,各単語の意味属性
を規定した単語辞書の登録情報が,直接検索結果に影響
した。
2. Description of the Related Art In a conventional text database apparatus for performing a search in consideration of the semantic similarity between an input sentence and a registered text (a sentence to be searched), Japanese Patent Application Laid-Open No. 2-287876 is disclosed.
As shown in the "text-type database device" of Japanese Patent Application No. Hei 11-111626, word information such as word notation and semantic attributes (referred to as semantic categories in the invention of Japanese Patent Application Laid-Open No. 2-287876). A specified word dictionary, a morphological analysis unit that divides the input sentence into words, and extracts the semantic attributes of each word, and a search target sentence that includes the semantic attributes extracted by the word notation and morphological analysis unit The registration information of the word dictionary, which is composed of a similarity calculation unit that calculates the degree and defines the semantic attributes of each word, directly affected the search results.

【0003】[0003]

【発明が解決しようとする課題】そのため,検索精度を
上げるには,登録するテキストに応じた単語辞書を用意
する必要があり,単語辞書構築のための作業に多くの労
力を必要としていた。
Therefore, in order to improve the search accuracy, it is necessary to prepare a word dictionary corresponding to the text to be registered, and a lot of labor is required for the construction of the word dictionary.

【0004】例えば,図示省略するが,以下のような2
つのテキスト型データベースDB1およびDB2につい
て考える。DB1は,検索対象文a1「携帯用電話機の
販売」および検索対象文a2「携帯用電話機の開発」な
どが登録してある「議事録」のテキスト型データベース
で,DB2は,検索対象文b1「A社が新しい携帯用電
話機を販売した」および検索対象文b2「B社の携帯用
電話機」などが登録してある「製品紹介記事」のテキス
ト型データベースだとする。
For example, although not shown, the following 2
Consider two text databases DB1 and DB2. DB1 is a text-based database of "minutes" in which search target sentences a1 "sales of mobile phones" and search target sentences a2 "development of mobile phones" are registered. DB2 is a search target sentence b1 " It is assumed that it is a text-type database of "product introduction articles" in which the company A has sold a new mobile phone "and the search target sentence b2" mobile phone of Company B "are registered.

【0005】 DB1:「議事録」のテキスト型データベース 検索対象文a1=「携帯用電話機の販売」 検索対象文a2=「携帯用電話機の開発」 ・・・・ ・・・・ DB2:「製品紹介記事」のテキスト型データベース 検索対象文b1=「A社が新しい携帯用電話機を販売し
た」 検索対象文b2=「B社の携帯用電話機」 ・・・・ ・・・・ DB1では,検索指示文「電話機のセールス」で検索対
象文a1が高い順位で検索されることが望ましい。DB
2では,検索指示文「B社が販売した電話機」で,検索
対象文b2が高い順位で検索されることが望ましい。
[0005] DB1: "minutes" text-type database Search target sentence a1 = "sales of mobile phone" Search target sentence a2 = "development of mobile phone" ... DB2: "Product introduction" Text-based database of "Article" Search target sentence b1 = "Company A sold a new mobile phone" Search target sentence b2 = "Company B mobile phone" ... In DB1, a search instruction sentence It is desirable that the search target sentence a1 be searched in a higher order in “telephone sales”. DB
In No. 2, it is desirable that the search target sentence b2 be searched in a higher order using the search instruction sentence "telephone sold by Company B".

【0006】従来の装置で上述の検索を実現するには,
DB1では,単語「販売」および「セールス」に意味属
性[販売]を付与し,DB2では,単語「販売」に,特
別なフラグを設けて検索対象から除外するか,不要語辞
書を設けて,単語「販売」を登録しておき,不要語辞書
に登録された単語は,検索から除外するというような処
理を必要とする。このように,個々の単語に対して,フ
ラグを立てたり,不要語辞書に登録したりする作業を必
要とし,分野が異なるテキストを対象とする場合には,
これらの作業に多くの労力を必要とする。
[0006] In order to realize the above search with a conventional device,
In DB1, the words "sales" and "sales" are given a semantic attribute [sales]. In DB2, the words "sales" are either excluded from the search target by providing a special flag, or an unnecessary word dictionary is provided. It is necessary to register the word "sales" and exclude the word registered in the unnecessary word dictionary from the search. As described above, when it is necessary to set a flag for each word and register it in an unnecessary word dictionary, and to target texts in different fields,
These tasks require a lot of effort.

【0007】また,従来装置の単語辞書は,登録するテ
キストの分野に検索に適したように特化した辞書である
ため,他の自然言語処理の単語辞書と共用することがで
きなかった。
Further, the word dictionary of the conventional device is a dictionary specialized for searching in the field of the text to be registered, and cannot be shared with other natural language processing word dictionaries.

【0008】本発明は前記従来の欠点を解決するため,
各意味属性に対して,該意味属性が付与された単語の意
味属性および単語表記のうちいずれを検索キーとするか
あるいは検索キーとしないかを表す情報(以下,これを
ロールという)を,各意味属性に対して規定した意味属
性・ロール関係テーブルを設け,意味属性に付与された
ロールの規定に基づいて検索を行うよう構成することに
よって,異なる分野のテキストを検索対象とする場合
に,個々の単語単位に単語辞書の変更を行わなくても,
意味属性・ロール関係テーブルを変更するだけの少ない
労力で,対象とするテキストに適した検索を行えるよう
調整できるテキスト型データベース装置を提供すること
を目的とする。
The present invention solves the above-mentioned conventional disadvantages.
For each semantic attribute, information (hereinafter, referred to as a role) indicating which of the semantic attribute and the word notation of the word to which the semantic attribute is assigned is used as a search key or not is used as a search key. By providing a semantic attribute / role relation table specified for semantic attributes and performing searches based on the rules of roles assigned to semantic attributes, individual texts in different fields can be searched. Without changing the word dictionary for each word
An object of the present invention is to provide a text type database device which can be adjusted so that a search suitable for a target text can be performed with a small effort for changing a semantic attribute / role relation table.

【0009】[0009]

【課題を解決するための手段】本発明のロール付き意味
属性に基づくテキスト型データベース装置は,図1に示
すように,単語表記と意味属性と品詞とを各単語に対し
て規定した単語辞書1と,検索対象文およびその関連情
報を保存しておくテキスト型データベース蓄積部6と,
各意味属性に対して,該意味属性が付与された単語の意
味属性および単語表記のうちいずれを検索キーとするか
あるいは検索キーとしないかを表すロールを規定した意
味属性・ロール関係テーブル3と,単語辞書1を参照し
て,検索指示文を単語に分割して単語表記,意味属性お
よび品詞を抽出する形態素解析部2と,形態素解析部2
で抽出された意味属性のロールを意味属性・ロール関係
テーブル3から抽出するロール判定部4と,ロール判定
部4で抽出された各意味属性のロールおよび単語の品詞
に基づいて,検索キーとする意味属性および単語表記を
決定する検索キー決定部5と,検索キー決定部5で決定
された検索キーで,テキスト型データベース蓄積部6に
保存された検索対象文を検索する文検索部7と,文検索
部7で検索された検索対象文と検索指示文との類似度
を,検索キー決定部5で検索キーとなった意味属性およ
び単語表記を基に計算する類似度算出部8とを備える。
As shown in FIG. 1, a text type database device based on semantic attributes with rolls according to the present invention comprises a word dictionary 1 which defines word expressions, semantic attributes, and parts of speech for each word. And a text-type database storage unit 6 for storing a search target sentence and its related information;
For each semantic attribute, a semantic attribute / role relation table 3 defining a role indicating which of a semantic attribute and a word notation of the word to which the semantic attribute is assigned is used as a search key or not. A morphological analysis unit 2 that divides a search instruction sentence into words with reference to a word dictionary 1 and extracts word expressions, semantic attributes and parts of speech, and a morphological analysis unit 2
The role determination unit 4 extracts the role of the semantic attribute extracted from the semantic attribute / role relation table 3 and the search key based on the role of each semantic attribute extracted by the role determination unit 4 and the part of speech of the word. A search key determining unit 5 for determining semantic attributes and word notations, a sentence searching unit 7 for searching a search target sentence stored in the text type database storage unit 6 with the search key determined by the search key determining unit 5; A search key determining unit for calculating a similarity between the search target sentence searched by the sentence search unit and the search instruction sentence, based on the semantic attribute and the word notation used as the search key; .

【0010】さらに本発明では,前記類似度算出部8
が,検索キー決定部5で検索キーとならなかった意味属
性および単語表記であっても,ロール判定部4で抽出さ
れたロールが特定のロールである場合には,該ロールを
有する意味属性もしくは該意味属性を有する単語表記,
または該ロールを有する意味属性と該意味属性を有する
単語表記の両方を類似度計算で用いて,類似度を算出す
るよう構成される。
Further, in the present invention, the similarity calculating section 8
Is a semantic attribute and word notation that did not become a search key in the search key determination unit 5, but if the role extracted by the role determination unit 4 is a specific role, A word notation having the semantic attribute,
Alternatively, the similarity is calculated by using both the semantic attribute having the role and the word notation having the semantic attribute in the similarity calculation.

【0011】[0011]

【作用】本発明によるロール付き意味属性に基づくテキ
スト型データベース装置では,検索指示文が入力される
と,形態素解析部2で単語辞書1を参照しながら,単語
に分割し,各単語の表記と意味属性と品詞を抽出し,ロ
ール判定部4で意味属性・ロール関係テーブル3を参照
して,形態素解析部2で抽出された意味属性のロールを
得,そのロールの規定に基づいて検索キー決定部5で,
検索キーとする単語表記および意味属性を決定し,文検
索部7で決定された検索キーを用いてテキスト型データ
ベース蓄積部6から検索対象文を検索する。したがっ
て,意味属性・ロール関係テーブル3において意味属性
のロールを変更することによって,検索対象となるテキ
ストの分野に適した検索を行うテキスト型データベース
を容易に構築できる。
In the text-based database device based on the semantic attribute with roll according to the present invention, when a search instruction is input, the morphological analysis unit 2 divides the word into words while referring to the word dictionary 1, and displays the notation of each word. The semantic attribute and part of speech are extracted, the role determining unit 4 refers to the semantic attribute / role relation table 3, obtains the role of the semantic attribute extracted by the morphological analysis unit 2, and determines the search key based on the definition of the role. In part 5,
A word notation and a semantic attribute to be used as a search key are determined, and a search target sentence is searched from the text database storage unit 6 using the search key determined by the sentence search unit 7. Therefore, by changing the role of the semantic attribute in the semantic attribute / role relation table 3, it is possible to easily construct a text database for performing a search suitable for the field of the text to be searched.

【0012】[0012]

【実施例】図1は本発明の1実施例のブロック図であ
り,1は単語辞書,2は形態素解析部,3は意味属性・
ロール関係テーブル,4はロール判定部,5は検索キー
決定部,6はテキスト型データベース蓄積部,7は文検
索部,8は類似度算出部,10はCPUおよびメモリな
どからなる処理装置を表す。
FIG. 1 is a block diagram of an embodiment of the present invention, in which 1 is a word dictionary, 2 is a morphological analysis unit, and 3 is a semantic attribute.
A role relation table, 4 is a role determination unit, 5 is a search key determination unit, 6 is a text type database storage unit, 7 is a sentence search unit, 8 is a similarity calculation unit, and 10 is a processing device including a CPU and a memory. .

【0013】図1の実施例において,図2は,「製品紹
介記事」のテキスト型データベースにおいて検索指示文
「B社が販売した電話機」が入力された場合の実行例,
図3はロールの規定の例,図4は,「議事録」のテキス
ト型データベースにおいて検索指示文「電話機のセール
ス」が入力された場合の実行例を示している。
In the embodiment of FIG. 1, FIG. 2 shows an example of execution when a search instruction sentence "telephone sold by company B" is input in a text-type database of "product introduction articles".
FIG. 3 shows an example of a rule definition, and FIG. 4 shows an example of execution when a search instruction sentence "telephone sales" is input in a text database of "minutes".

【0014】単語辞書1には,図5に示すように,単語
表記,内部表記,意味属性,品詞等が記述されている。
内部表記は同一の意味を持つ単語には同一の文字列が記
述され,内部表記を持つ単語の場合には,後述する検索
処理において内部表記を単語表記と同様に扱う。例え
ば,「コンピュータ」と「計算機」には同一の内部表記
「計算機」が与えられる。また,用言においてはこの内
部表記で吸収する。例えば,「痛い」,「痛く」には内
部表記「痛い」が与えられる。
As shown in FIG. 5, the word dictionary 1 describes word notations, internal notations, semantic attributes, parts of speech, and the like.
In the internal notation, the same character string is described for words having the same meaning, and in the case of a word having the internal notation, the internal notation is treated in the same manner as the word notation in a search process described later. For example, “computer” and “computer” are given the same internal notation “computer”. In addition, in the declinable word, it is absorbed by this internal notation. For example, "Pain" and "Pain" are given the internal notation "Pain".

【0015】意味属性は,1つの単語に複数個を付与で
きる。各々の意味属性は,それぞれある概念を表してお
り,その複数の意味属性の集合でその単語の意味を近似
することができる。例えば,単語「頭痛」に対して意味
属性[頭]と意味属性[痛み]を付与する。また,その
単語の意味の上位概念を意味属性として付与してもよ
い。例えば,単語「頭痛」に意味属性[病気類]を付与
する。
A plurality of semantic attributes can be assigned to one word. Each semantic attribute represents a concept, and the set of the plurality of semantic attributes can approximate the meaning of the word. For example, a semantic attribute [head] and a semantic attribute [pain] are assigned to the word “headache”. Further, a superordinate concept of the meaning of the word may be given as a semantic attribute. For example, a semantic attribute [disease] is assigned to the word “headache”.

【0016】形態素解析部2は,単語辞書1を参照し
て,入力指示文を単語に分割し,各単語の単語表記,意
味属性,品詞等を抽出する。図2の例では,単語表記
「B社」,「が」,「販売」,「した」,「電話機」に
分割され,単語表記「B社」,「販売」,「電話機」に
対しては,各々意味属性[会社],[販売],[電話]
が,品詞として“固有名詞”,“名詞”,“名詞”が抽
出される。助詞「が」,サ変動詞「した」には,意味属
性は付与されてないため,意味属性は抽出されない。な
お,ここでは1つの単語に1つの意味属性が付与されて
いる場合を示したが,単語辞書1で複数の意味属性が付
与されている場合には,複数の意味属性が抽出される。
The morphological analysis unit 2 refers to the word dictionary 1 and divides an input instruction sentence into words, and extracts word expressions, semantic attributes, parts of speech, and the like of each word. In the example of FIG. 2, the word notations “Company B”, “GA”, “Sale”, “Done”, and “Telephone” are divided. For the word notation “Company B”, “Sale”, and “Telephone”, , Semantic attributes [company], [sales], [telephone] respectively
However, “proper noun”, “noun”, and “noun” are extracted as parts of speech. The semantic attribute is not extracted for the particle “ga” and the semantic verb “wa”, so no semantic attribute is extracted. Here, the case where one word is assigned one meaning attribute is shown. However, when a plurality of meaning attributes are given in the word dictionary 1, a plurality of meaning attributes are extracted.

【0017】意味属性・ロール関係テーブル3には,意
味属性とロールの関係を記述しておく。ここでは,例え
ば図3に示すような5種類のロールを規定している。各
々のロールによって,検索キーや類似度算出での処理方
法が異なる。意味属性・ロール関係テーブル3におい
て,意味属性に付与するロールを変えれば,分野に応じ
た検索を行うよう変更できる。また,このテーブルで規
定されてない意味属性に対しては,デフォルトのロール
が定められているとする。ここでは,デフォルトのロー
ルは,そのロールを有する意味属性およびその意味属性
を有する単語の単語表記を検索キーとするロールとす
る。
The relationship between the semantic attribute and the role is described in the semantic attribute / role relation table 3. Here, for example, five types of rolls as shown in FIG. 3 are defined. The processing method for calculating the search key and the similarity differs depending on each role. By changing the role assigned to the semantic attribute in the semantic attribute / role relation table 3, it can be changed to perform the search according to the field. It is also assumed that a default role is defined for semantic attributes not specified in this table. Here, the default role is a role that uses a semantic attribute having the role and a word notation of a word having the semantic attribute as a search key.

【0018】ロール判定部4では,形態素解析部2で抽
出された意味属性のロールを意味属性・ロール関係テー
ブル3から抽出する。図2の例では,意味属性[会
社],[販売],[電話]の各々に対して,ロールr
1,r0,r2が得られる。
The role determining unit 4 extracts the role of the semantic attribute extracted by the morphological analysis unit 2 from the semantic attribute / role relation table 3. In the example of FIG. 2, for each of the semantic attributes [company], [sales], and [telephone], the role r
1, r0, r2 are obtained.

【0019】検索キー決定部5では,ロール判定部4で
抽出された各意味属性のロールおよび単語の品詞に基づ
いて,検索キーとする意味属性および単語表記を決定す
る。例えば,品詞に関しては,助詞などの付属語や「す
る」などのサ変動詞は検索キーとしないというように定
めておく。ロールに関しては図3の規定に基づくものと
する。例えば,この例では,以下のように検索キーが決
まる。
The search key determining unit 5 determines the semantic attribute and word notation as search keys based on the role of each semantic attribute extracted by the role determining unit 4 and the word class of the word. For example, with regard to part of speech, it is determined that adjuncts such as particles and variances such as "do" are not used as search keys. Rolls are based on the rules in FIG. For example, in this example, the search key is determined as follows.

【0020】(1) 意味属性[会社]のロールはr1であ
るため,この意味属性は検索キーとせず,単語表記「B
社」を検索キーとする。 (2) 「が」の品詞は助詞であるため,検索キーとしな
い。
(1) Since the role of the semantic attribute [company] is r1, this semantic attribute is not used as a search key, and the word notation "B
Company "as a search key. (2) Since the part of speech of "ga" is a particle, it is not used as a search key.

【0021】(3) 意味属性[販売]は,ロールr0であ
るため,単語表記「販売」,意味属性[販売]ともに,
検索キーとしない。 (4) 単語「した」は,サ変動詞であるため,検索キーと
しない。
(3) Since the semantic attribute [sales] has the role r0, both the word notation “sales” and the semantic attribute [sales]
Not a search key. (4) The word "was" is not used as a search key because it is a verb.

【0022】(5) 意味属性[電話]は,ロールr2であ
るため,単語表記「電話機」は検索キーとせず,意味属
性[電話]を検索キーとする。 以上のように,単語表記「B社」と意味属性[電話]が
検索キーとなる。
(5) Since the semantic attribute [telephone] has the role r2, the word notation "telephone" is not used as a search key, and the semantic attribute [telephone] is used as a search key. As described above, the word notation "Company B" and the semantic attribute [telephone] are the search keys.

【0023】テキスト型データベース蓄積部6には,図
2に示すように,文21「A社が新しい電話機を販売し
た。」,文22「B社の携帯用電話機」の検索対象文を
含む情報が蓄積されている。これらの検索対象文は,検
索時に解析を行ってもよいが,次のように事前に解析し
たものを用いてもよい。すなわち,種々の検索対象文に
ついて,単語辞書1を用いて形態素解析部2と同様な処
理で解析を行っておき,単語表記や意味属性をキーとし
て検索できるインデックステーブルをあらかじめ生成し
ておく。このインデックステーブルもテキスト型データ
ベース蓄積部6に蓄積しておくことにより,検索の高速
化を図ることができる。以下では,検索対象文はすでに
解析が行われているものとして説明する。
As shown in FIG. 2, the text-type database storage unit 6 includes information including a search target sentence of a sentence 21 “Company A sold a new telephone” and a sentence 22 “portable telephone of Company B”. Has been accumulated. These search target sentences may be analyzed at the time of search, or may be those analyzed in advance as follows. That is, various sentence to be searched are analyzed using the word dictionary 1 by the same processing as the morphological analysis unit 2, and an index table that can be searched using the word notation and the semantic attribute as a key is generated in advance. By accumulating the index table in the text-type database storage unit 6, the search can be speeded up. In the description below, it is assumed that the search target sentence has already been analyzed.

【0024】文検索部7では,検索キー決定部5で決定
された検索キーで,テキスト型データベース蓄積部6に
保存された検索対象文を検索する。単語表記「B社」で
文22が,意味属性[電話]で,単語「電話機」を含む
文21と文22が検索される。
The sentence search unit 7 searches the search target sentence stored in the text type database storage unit 6 using the search key determined by the search key determination unit 5. The sentence 22 containing the word “telephone” and the sentence 22 containing the word “telephone” with the semantic attribute [telephone] are searched for in the word notation “company B”.

【0025】類似度算出部8では,文検索部7で検索さ
れた検索対象文と検索指示文との類似度を,検索キー決
定部5で検索キーとなった意味属性および単語表記を基
に計算する。類似度計算方法として様々な方法が知られ
ているがそのいずれを用いてもよい。ここでは,説明を
簡単にするため,1つの検索キーに対し10点を与え,
検索対象文に含まれる検索キー毎にその得点を加算した
点数を類似度とする。その結果,文22に対しては20
点,文21に対しては10点が与えられる。
The similarity calculation unit 8 calculates the similarity between the search target sentence searched by the sentence search unit 7 and the search instruction sentence on the basis of the semantic attributes and word expressions used as search keys by the search key determination unit 5. calculate. Various methods are known as a similarity calculation method, and any of them may be used. Here, for simplicity, 10 points are given to one search key.
The score obtained by adding the score for each search key included in the search target sentence is defined as the similarity. As a result, 20 for sentence 22
Points and sentences 21 are given 10 points.

【0026】このようにして,「製品紹介記事」のテキ
スト型データベースの場合,検索指示文「B社が販売し
た電話機」で,文22「B社の携帯用電話機」が最も高
い類似度で検索される。
As described above, in the case of the text type database of "product introduction articles", the sentence 22 "mobile phone of company B" is searched with the highest similarity in the search instruction sentence "telephone sold by company B". Is done.

【0027】次に,「議事録」のテキスト型データベー
スの場合について,図4を用いて説明する。検索対象文
11「携帯用電話機の販売」および検索対象文12「携
帯用電話機の開発」などの検索対象文を含む「議事録」
のテキスト型データベースがテキスト型データベース蓄
積部6に登録してあるとする。
Next, the case of a text database of "minutes" will be described with reference to FIG. “Minutes” including search target sentences such as search target sentence 11 “sales of mobile phones” and search target sentence 12 “mobile phone development”
Is assumed to be registered in the text database storage unit 6.

【0028】ここで,意味属性・ロール関係テーブル3
で,意味属性[販売]のロールをr2に変更しておく。
検索指示文「電話機のセールス」で検索すると,「セー
ルス」には意味属性[販売]が付与されており,そのロ
ールはr2なので,意味属性[販売]は検索キーとなっ
て,文11には20点,文12には10点が与えられ,
文11「携帯用電話機の販売」が最も高い類似度で検索
される。
Here, the semantic attribute / role relation table 3
Then, the role of the semantic attribute [sales] is changed to r2.
When the search instruction sentence "sales of telephone" is searched, the semantic attribute [sales] is assigned to "sales" and its role is r2. 20 points and 10 points for sentence 12,
Sentence 11 “sale of mobile phone” is searched with the highest similarity.

【0029】次に,従来の装置における変更作業と,本
発明の装置における意味属性・ロール関係テーブル3の
変更作業の違いを説明する。例えば,文21や文22な
どの検索対象文を含む「製品紹介記事」のようなテキス
ト型データベースの場合,「販売」,「セールス」,
「発売」などの単語は,検索においては重要な単語でな
く,これらの単語では検索されないほうが望ましい。一
方,文11や文12などの検索対象文を含む「議事録」
のようなテキスト型データベースの場合には,上記の単
語で検索されることが必要である。
Next, the difference between the change operation in the conventional apparatus and the change operation of the semantic attribute / role relation table 3 in the apparatus of the present invention will be described. For example, in the case of a text-type database such as “product introduction article” including search target sentences such as sentence 21 and sentence 22, “sales”, “sales”,
Words such as "release" are not important words in the search, and it is desirable not to search for these words. On the other hand, "minutes" including sentences to be searched, such as sentences 11 and 12,
In the case of a text database such as the above, it is necessary to search for the above words.

【0030】従来の装置では,個々の単語「販売」,
「セールス」,「発売」について変更する必要がある
が,本発明による装置の場合には,上記の単語に意味属
性[販売]を単語辞書1で付与しておき,意味属性・ロ
ール関係テーブル3において,意味属性[販売]のロー
ルをr0からr2に変更するだけでよい。
In the conventional device, the individual words "sales",
Although it is necessary to change “sales” and “release”, in the case of the apparatus according to the present invention, a semantic attribute [sales] is added to the above words in the word dictionary 1 and the semantic attribute / role relation table 3 is added. , It is only necessary to change the role of the semantic attribute [sales] from r0 to r2.

【0031】このように従来装置では,個々の単語それ
ぞれに対して変更を行わねばならないが,本発明による
装置では,意味属性のロールを変更するだけで,その意
味属性を含む複数の単語に対して一度に変更できるた
め,各々の分野に適したテキスト型データベースを簡単
に構築できる。同一概念に属する単語に対しては,同一
の意味属性を付与するため,ある意味属性を有する単語
がN個あったとすると,従来装置では,このN個の単語
に対して変更を行わねばならなかったが,本発明による
装置では1個の意味属性に対して変更を行えばよく,従
来に比べ1/Nの作業で済む。
As described above, in the conventional apparatus, each word must be changed. However, in the apparatus according to the present invention, only by changing the role of the semantic attribute, a plurality of words including the semantic attribute can be changed. Can be changed at once, making it easy to build a text database suitable for each field. In order to assign the same semantic attribute to words belonging to the same concept, if there are N words having a certain semantic attribute, the conventional device must change the N words. However, in the apparatus according to the present invention, it is only necessary to change one semantic attribute, and it is only necessary to perform 1 / N of the work compared to the conventional technique.

【0032】また,本発明によるテキスト型データベー
ス装置の場合には,各単語の検索処理での作用を,意味
属性に付与するロールで規定できるため,単語辞書1を
汎用的に利用できるよう構築して,他の自然言語処理と
共通の単語辞書を用いることができ,辞書メンテナンス
の労力を減らすことができる。
Further, in the case of the text type database device according to the present invention, since the operation in the search processing of each word can be specified by the role assigned to the semantic attribute, the word dictionary 1 is constructed so that it can be used for general purposes. Therefore, a word dictionary common to other natural language processing can be used, and the labor for dictionary maintenance can be reduced.

【0033】例えば,上記で述べた「製品紹介記事」の
ようなテキスト型データベースの検索処理においては,
「A社」,「B社」が[会社]という概念に属している
という情報は重要でなく,「A社」が検索対象文に含ま
れているかどうかが重要である。一方,構文意味解析等
において,[会社]という概念に属している単語は「販
売する」の主語となり得るといったルールを適用するよ
うな場合には,「A社」,「B社」が[会社]という概
念に属しているという情報が必要になる。そこで,単語
辞書1には,「A社」,「B社」に意味属性[会社]を
付与しておき,意味属性・ロール関係テーブル3で,意
味属性[会社]にロールr1を付与して,意味属性[会
社]が検索キーとならないようにしておく。これによ
り,単語辞書1を上記のようなルールの適用にも使うこ
とができる。図6は,さらに詳しい本発明の実施例の構
成図である。
For example, in a search process of a text-type database such as the “product introduction article” described above,
The information that “company A” and “company B” belong to the concept of “company” is not important, and it is important whether “company A” is included in the search target sentence. On the other hand, in a syntactic and semantic analysis or the like, when a rule that a word belonging to the concept of [company] can be the subject of "sell" is applied, "company A" and "company B" are replaced by "company". ] Is required. Therefore, in the word dictionary 1, a semantic attribute [company] is assigned to "company A" and "company B", and a role r1 is assigned to the semantic attribute [company] in the semantic attribute / role relation table 3. , Make sure that the semantic attribute [company] does not become a search key. As a result, the word dictionary 1 can be used for applying the above rules. FIG. 6 is a more detailed block diagram of the embodiment of the present invention .

【0034】検索キーとはしないが,類似度計算では考
慮する意味属性を設定できるロールを設けることによ
り,効率よい検索が行えるよう構成することができる。
具体的には,例えば図3に示すr4のようなロールを設
ける。
Although not used as a search key, by providing a role that can set a semantic attribute to be considered in the similarity calculation, it is possible to perform efficient search.
Specifically, for example, a roll such as r4 shown in FIG. 3 is provided.

【0035】例えば,上述の「製品紹介記事」のテキス
ト型データベースにおいて,意味属性[電話]のロール
をr4と規定したとする。概念[電話]を持つ単語を含
む検索対象文がある場合,意味属性[電話]は,検索キ
ーとはせず,検索指示文中の他の意味属性を持つ単語で
検索した後,類似度算出部8による類似度計算時に意味
属性[電話]を考慮して計算する。
For example, suppose that the role of the semantic attribute [telephone] is defined as r4 in the text type database of the above-mentioned “product introduction article”. When there is a search target sentence including a word having the concept [telephone], the semantic attribute [telephone] is not used as a search key, but is searched for a word having another semantic attribute in the search instruction sentence. 8 when calculating the similarity, taking into account the semantic attribute [telephone].

【0036】この場合,検索指示文が「A社の携帯用電
話」の場合,[電話]を持つ単語を含む検索対象文が2
00文あったとしても,「A社」や「携帯」で検索され
る検索対象文が10文しかない場合,その10文に対し
てのみ類似度計算を行えばよいため,高速に検索を行う
ことができる。
In this case, if the search instruction sentence is “Company A's mobile phone”, the search target sentence containing the word having “Phone” is 2
Even if there are 00 sentences, if there are only 10 sentences to be searched for "Company A" or "mobile phone", similarity calculation only needs to be performed for those 10 sentences. be able to.

【0037】また,様々なロールを用いることにより,
細かな検索の制御を行うことができる。図7は,1つの
単語に複数の意味属性が付与され,様々なロールが付与
されている場合の,単語表記および意味属性の関係と検
索キーおよび類似度計算の関係の例を示す図である。単
語「ABC」に付与された意味属性において,ロールr
3が付与された意味属性があるため,意味属性[b],
[c]が検索キーとなり,ロールが付与されてない意味
属性[a]は検索キーから除かれる。また,表記「DE
F」および意味属性[d]は,検索キーとはならないが
類似度計算では考慮される。
Also, by using various rolls,
Fine search control can be performed. FIG. 7 is a diagram illustrating an example of the relationship between word notation and semantic attributes and the relationship between search keys and similarity calculations when a plurality of semantic attributes are assigned to one word and various roles are assigned. . In the semantic attribute assigned to the word "ABC", the role r
Since there is a semantic attribute assigned with No. 3, the semantic attribute [b],
[C] is a search key, and the semantic attribute [a] to which no role is assigned is excluded from the search key. The notation "DE
F "and the semantic attribute [d] do not become search keys, but are considered in the similarity calculation.

【0038】[0038]

【発明の効果】以上説明したように,本発明によれば,
ロールと意味属性との関係を記述した意味属性・ロール
関係テーブルを設け,意味属性に付与されたロールに基
づいて検索を行うよう構成しているため,次の効果があ
る。
As described above, according to the present invention,
There is a semantic attribute / role relation table that describes the relationship between roles and semantic attributes, and the search is performed based on the role assigned to the semantic attribute.

【0039】(1) 作成済みの単語辞書を利用して,意味
属性・ロール関係テーブルを変更するだけの少ない労力
で,高い精度で柔軟に検索できるよう異なる分野のテキ
スト型データベースを構築できる。
(1) By using the created word dictionary, text type databases in different fields can be constructed so that the search can be performed with high accuracy and with high accuracy and with little effort to change the meaning attribute / role relation table.

【0040】(2) 単語辞書を他の自然言語処理でも汎用
的に利用できるよう構築でき,辞書メンテナンスの労力
を減らすことができる。などの効果がある。
(2) The word dictionary can be constructed so as to be versatilely used for other natural language processing, and the labor for dictionary maintenance can be reduced. And so on.

【0041】特に本発明では,検索キーとはしないが,
類似度計算では考慮する意味属性を設定できるロールを
設けることにより,より効率よい検索が行えるよう構成
することができる。
In particular, in the present invention, although not a search key,
By providing a role that can set a semantic attribute to be considered in the similarity calculation, more efficient search can be performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の1実施例のブロック図である。FIG. 1 is a block diagram of one embodiment of the present invention.

【図2】本発明の実施例処理動作説明図である。FIG. 2 is an explanatory diagram of a processing operation according to an embodiment of the present invention.

【図3】本発明の実施例に係るロールの規定の例説明図
である。
FIG. 3 is an explanatory diagram of an example of a rule of a roll according to an embodiment of the present invention.

【図4】本発明の実施例処理動作説明図である。FIG. 4 is an explanatory diagram of a processing operation according to the embodiment of the present invention.

【図5】本発明の実施例を説明するための単語辞書に登
録された情報の例を示す図である。
FIG. 5 is a diagram showing an example of information registered in a word dictionary for explaining an embodiment of the present invention.

【図6】本発明の詳しい実施例の構成図である。FIG. 6 is a configuration diagram of a detailed embodiment of the present invention .

【図7】本発明の実施例における単語表記および意味属
性と検索キーおよび類似度計算の関係の例を示す図であ
る。
FIG. 7 is a diagram illustrating an example of a relationship between a word notation and a semantic attribute, a search key, and similarity calculation in the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 単語辞書 2 形態素解析部 3 意味属性・ロール関係テーブル 4 ロール判定部 5 検索キー決定部 6 テキスト型データベース蓄積部 7 文検索部 8 類似度算出部 10 処理装置 DESCRIPTION OF SYMBOLS 1 Word dictionary 2 Morphological analysis part 3 Semantic attribute / role relation table 4 Role determination part 5 Search key determination part 6 Text type database storage part 7 Sentence search part 8 Similarity calculation part 10 Processing device

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−54564(JP,A) 特開 平2−287876(JP,A) 特開 平1−300336(JP,A) 特開 平2−253371(JP,A) 特開 平2−253372(JP,A) 特開 平4−84271(JP,A) 特開 平4−90052(JP,A) 特開 平4−314171(JP,A) 特開 平4−182871(JP,A) 特開 平3−172966(JP,A) 松尾比呂志他,「意味属性に基づくテ キストベース検索方式」,情報処理学会 論文誌 Vol.32 No.9,1991 (平03−09−15),p.1172−1179 木本晴夫他,「日本語テキストデータ ベース検索分類技術」,NTT R&D Vol.40 No.7,社団法人電気 通信協会,1991(平03−07−10),p. 915−924 河合敦夫,「意味属性の学習結果にも とづく文書自動分類方式」,情報処理学 会論文誌 Vol.33 No.9,1992 (平04−09−15),p.1114−1122 (58)調査した分野(Int.Cl.7,DB名) G06F 17/00 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-4-54564 (JP, A) JP-A-2-287876 (JP, A) JP-A-1-300336 (JP, A) JP-A-2-300 253371 (JP, A) JP-A-2-253372 (JP, A) JP-A-4-84271 (JP, A) JP-A-4-90052 (JP, A) JP-A-4-314171 (JP, A) JP-A-4-1822871 (JP, A) JP-A-3-172966 (JP, A) Hiroshi Matsuo et al., "Text-Based Search Method Based on Semantic Attributes", Transactions of Information Processing Society of Japan, Vol. 32 No. 9, 1991 (Heisei 03-09-15), p. 1172-1179 Haruo Kimoto et al., "Japanese Text Database Retrieval and Classification Technology", NTT R & D Vol. 40 No. 7, Telecommunications Association of Japan, 1991 (Heisei 03-07-10), pp. 915-924, Atsuo Kawai, "Automatic Document Classification Method Based on Semantic Attribute Learning Results," Transactions of the Information Processing Society of Japan, Vol. 33 No. 9, 1992 (Heisei 04-09-15), p. 1114-1122 (58) Field surveyed (Int. Cl. 7 , DB name) G06F 17/00 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 単語表記と,意味属性と,品詞とを各単
語に対して規定した単語辞書(1) と, 検索対象文およびその関連情報を保存しておくテキスト
型データベース蓄積部(6) と, 各意味属性に対して,該意味属性が付与された単語の意
味属性および単語表記のうちいずれを検索キーとするか
あるいは検索キーとしないかを表す検索属性情報を規定
した意味属性と検索属性情報の関係テーブル(3) と, 前記単語辞書(1) を参照して,検索指示文を単語に分割
し,単語表記,意味属性および品詞を抽出する形態素解
析部(2) と, 前記形態素解析部(2) で抽出された意味属性に対する検
索属性情報を, 前記関係テーブル(3) から抽出する検索
属性情報の判定部(4) と, 前記検索属性情報の判定部(4) で抽出された各意味属性
に対する検索属性情報および単語の品詞に基づいて,検
索キーとする意味属性および単語表記を決定する検索キ
ー決定部(5) と, 前記検索キー決定部(5) で決定された検索キーで,前記
テキスト型データベース蓄積部(6) に保存された検索対
象文を検索する文検索部(7) と, 前記文検索部(7) で検索された検索対象文と検索指示文
との類似度を,前記検索キー決定部(5) で検索キーとな
った意味属性および単語表記を基に計算するとともに,
前記検索キー決定部(5) で検索キーとならなかった意味
属性および単語表記であっても,前記検索属性情報の判
定部(4) で抽出された検索属性情報が特定の検索属性情
報である場合には,該検索属性情報を有する意味属性も
しくは該意味属性を有する単語表記,または該検索属性
情報を有する意味属性と該意味属性を有する単語表記の
両方を類似度計算で用いて類似度を計算する類似度算出
部(8) とを有することを特徴とするテキスト型データベ
ース装置。
1. A word dictionary (1) defining a word notation, a semantic attribute, and a part of speech for each word, and a text type database storage unit (6) for storing a sentence to be searched and its related information. For each semantic attribute, a semantic attribute and a semantic attribute defining search attribute information indicating which of the semantic attribute and the word notation of the word to which the semantic attribute is assigned are used as a search key or not. A morphological analysis unit (2) that divides a search instruction sentence into words by referring to a relation table (3) of attribute information and the word dictionary (1), and extracts word expressions, semantic attributes, and parts of speech; Search attribute information for the semantic attribute extracted by the analysis unit (2) is extracted by the search attribute information determination unit (4) extracted from the relation table (3) and the search attribute information determination unit (4). Attribute information and words for each semantic attribute A search key determining unit (5) for determining a semantic attribute and a word notation as a search key based on the part of speech, and a search key determined by the search key determining unit (5). ), And a similarity between the search target sentence searched by the sentence search unit (7) and the search instruction sentence is determined by the search key determination unit (5). ) Is calculated based on the semantic attribute and word notation used as the search key .
Meaning of not being a search key in the search key determination unit (5)
Attribute and word notation
The search attribute information extracted in section (4) is
Information, the semantic attribute having the search attribute information
Or the word notation having the semantic attribute, or the search attribute
Of a semantic attribute having information and a word notation having the semantic attribute
A similarity calculating unit (8) for calculating a similarity by using both of them in the similarity calculation.
JP04299658A 1992-11-10 1992-11-10 Text type database device Expired - Fee Related JP3123836B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04299658A JP3123836B2 (en) 1992-11-10 1992-11-10 Text type database device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04299658A JP3123836B2 (en) 1992-11-10 1992-11-10 Text type database device

Publications (2)

Publication Number Publication Date
JPH06149887A JPH06149887A (en) 1994-05-31
JP3123836B2 true JP3123836B2 (en) 2001-01-15

Family

ID=17875418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04299658A Expired - Fee Related JP3123836B2 (en) 1992-11-10 1992-11-10 Text type database device

Country Status (1)

Country Link
JP (1) JP3123836B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06345097A (en) * 1993-06-07 1994-12-20 Kanetani Takatsugu Beer spout

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101991A (en) * 1995-07-31 1997-04-15 Toshiba Corp Information filtering device
JP3693734B2 (en) * 1996-02-20 2005-09-07 株式会社インターグループ Information retrieval apparatus and information retrieval method thereof
JPH10105555A (en) * 1996-09-26 1998-04-24 Sharp Corp Bilingual example sentence search device
JP4974436B2 (en) * 2002-05-10 2012-07-11 株式会社ジャストシステム File search apparatus and file search method
JP4240329B2 (en) 2006-09-21 2009-03-18 ソニー株式会社 Information processing apparatus, information processing method, and program
JP5250463B2 (en) * 2009-03-23 2013-07-31 エヌ・ティ・ティ・コムウェア株式会社 Semantic association apparatus, processing method thereof, and program
JP5690300B2 (en) * 2012-03-26 2015-03-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 Attribute extraction device, attribute extraction method, and attribute extraction program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
木本晴夫他,「日本語テキストデータベース検索分類技術」,NTT R&D Vol.40 No.7,社団法人電気通信協会,1991(平03−07−10),p.915−924
松尾比呂志他,「意味属性に基づくテキストベース検索方式」,情報処理学会論文誌 Vol.32 No.9,1991(平03−09−15),p.1172−1179
河合敦夫,「意味属性の学習結果にもとづく文書自動分類方式」,情報処理学会論文誌 Vol.33 No.9,1992(平04−09−15),p.1114−1122

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06345097A (en) * 1993-06-07 1994-12-20 Kanetani Takatsugu Beer spout

Also Published As

Publication number Publication date
JPH06149887A (en) 1994-05-31

Similar Documents

Publication Publication Date Title
JP3114181B2 (en) Interlingual communication translation method and system
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2783558B2 (en) Summary generation method and summary generation device
JP2742115B2 (en) Similar document search device
US20040054530A1 (en) Generating speech recognition grammars from a large corpus of data
JPH0424869A (en) Document processing system
KR20040025642A (en) Method and system for retrieving confirming sentences
JPH10240759A (en) Search device
US11151317B1 (en) Contextual spelling correction system
JP3123836B2 (en) Text type database device
JP2609173B2 (en) Example-driven machine translation method
JP3281639B2 (en) Document search system
JP2000259645A (en) Voice processing device and voice data search device
JP2817103B2 (en) Data search device and data search method
JPH0981184A (en) Dialogue support device
US20060184523A1 (en) Search methods and associated systems
CN115470324A (en) Intelligent question and answer method, intelligent terminal and storage medium
JP4074687B2 (en) Summary sentence creation support system and computer-readable recording medium recording a program for causing a computer to function as the system
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JPH06274546A (en) Information quantity matching degree calculation system
JP2732661B2 (en) Text type database device
JP3416918B2 (en) Automatic keyword extraction method and device
JP3006526B2 (en) Similar document search method and similar document search device
JP3436109B2 (en) Related search formula search device and computer-readable recording medium storing related search formula search program
JP3875510B2 (en) Information retrieval apparatus, method thereof, program thereof, and recording medium on which program is recorded

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071027

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081027

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091027

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111027

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees