[go: up one dir, main page]

JPH1196170A - Database creation method, information search method, information search device, and recording medium - Google Patents

Database creation method, information search method, information search device, and recording medium

Info

Publication number
JPH1196170A
JPH1196170A JP9252354A JP25235497A JPH1196170A JP H1196170 A JPH1196170 A JP H1196170A JP 9252354 A JP9252354 A JP 9252354A JP 25235497 A JP25235497 A JP 25235497A JP H1196170 A JPH1196170 A JP H1196170A
Authority
JP
Japan
Prior art keywords
signature
partial character
character string
information
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9252354A
Other languages
Japanese (ja)
Inventor
Kazunori Matsumoto
一教 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9252354A priority Critical patent/JPH1196170A/en
Publication of JPH1196170A publication Critical patent/JPH1196170A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】テキスト中のキーワードの出現頻度に応じてシ
グネチャを用いた情報検索を行う際のフォルスドロップ
の発生を抑制でき、記憶領域のオーバーヘッドを抑え、
高速に前方一致検索が行えるデータベース作成方法およ
び情報検索方法および情報検索装置を提供する。 【解決手段】入力された情報中のキーワードから部分文
字列を切り出し、この切り出された部分文字列のキーワ
ード中での出現頻度に基づき前記部分文字列に割り当て
られた予め定められた長さのビット列を用いて前記入力
された情報に対する第1のシグネチャを生成し、前記入
力された情報を前記生成された第1のシグネチャと対応
付けて記憶してデータベースを作成する。
(57) [Summary] [Problem] It is possible to suppress occurrence of a false drop when performing information retrieval using a signature in accordance with the frequency of appearance of a keyword in a text, suppress overhead of a storage area,
Provided are a database creation method, an information search method, and an information search device capable of performing a high-speed match search. A partial character string is cut out from a keyword in input information, and a bit string of a predetermined length assigned to the partial character string based on the frequency of appearance of the cut out partial character string in the keyword To generate a first signature for the input information, and store the input information in association with the generated first signature to create a database.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データベースの効
率的な検索を行うためのシグネチャ(ビット列)を用い
た情報検索方法およびそれを用いた情報検索装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information search method using a signature (bit string) for performing an efficient search of a database and an information search apparatus using the same.

【0002】[0002]

【従来の技術】例えば、テキスト情報を処理する情報検
索システムは、任意の文字列を検索対象とする全文検索
方式と、キーワードによる検索を行う方式の2種類に大
別できる。
2. Description of the Related Art For example, information retrieval systems for processing text information can be broadly classified into two types: a full-text retrieval system in which an arbitrary character string is to be searched, and a system in which retrieval is performed by using a keyword.

【0003】キーワードによる検索を行う方式では、事
前にキーワードに関する補助データベースを作成してお
くことで、検索速度の向上を行っている。作成される補
助データベースとしては、各キーワードごとにそれが出
現するテキスト中での位置を記録する転置ファイルを作
成する方式と、テキストのレコードごとにそこに出現す
るキーワードの情報を簡潔に表現したシグネチャファイ
ルを用いる方式がある。
[0003] In a method of performing a search using a keyword, an auxiliary database relating to the keyword is created in advance to improve the search speed. As an auxiliary database to be created, a method of creating an inverted file that records the position in the text where each keyword appears in each keyword, and a signature that briefly expresses the information of the keyword that appears in each text record There is a method that uses a file.

【0004】転置ファイルを利用する方式では、高速な
検索が可能となる反面、転置ファイルのサイズが膨大に
なり記憶領域の効率が低下するという問題がある。シグ
ネチャファイルを用いる方式では、テキスト1レコード
中の情報をシグネチャとしてコンパクトに表現している
ため、記憶領域に関しては有利であるが、検索速度に関
する問題が生じる。しかしその単純な方式は、並列コン
ピュータ上での並列実行容易性など多くの可能性を秘め
ており、多くの研究開発が継続されている。
[0004] The method using the transposed file enables high-speed retrieval, but has the problem that the size of the transposed file becomes enormous and the efficiency of the storage area is reduced. In the method using a signature file, information in one text record is compactly represented as a signature, which is advantageous in terms of a storage area, but causes a problem in search speed. However, the simple method has many possibilities such as parallel execution on a parallel computer, and much research and development has been continued.

【0005】ここで、シグネチャファイル法について図
1を参照して説明する。まず、以降の説明で用いる用語
について説明する。レコードとはワード(単語)の集ま
りである。単語のうち、検索対象とされるものを特にキ
ーワードとよぶ。シグネチャファイル法では、各キーワ
ードにシグネチャと呼ぶビット列を対応させる。ビット
列への対応をbcw関数とよぶ(binary cod
e word)。図1では、レコード中に出現する3つ
のキーワード「keyword1」、「keyword
2」、「keyword3」に対して、長さ10のビッ
ト列が対応している。ここで、ビット列のいずれも3ヶ
所のビットが「1」で、残りのビットは「0」となって
いることに注意する。
Here, the signature file method will be described with reference to FIG. First, terms used in the following description will be described. A record is a collection of words (words). Of the words, the search target is particularly called a keyword. In the signature file method, a bit string called a signature is associated with each keyword. The correspondence to the bit string is called a bcw function (binary code
e word). In FIG. 1, three keywords “keyword1” and “keyword1” appearing in a record are shown.
Bit strings having a length of 10 correspond to "2" and "keyword3". Here, it should be noted that in each of the bit strings, three bits are "1" and the remaining bits are "0".

【0006】ビット列の長さをビット長(この場合「1
0」)、このビット列のうち「1」となるビットの個数
(この場合「3」)を重みと呼ぶ。レコードに対するシ
グネチャとは、レコード中に出現するキーワードのシグ
ネチャ全部のビット毎の論理和を取ったものである。
[0006] The length of the bit string is represented by the bit length (in this case, "1"
0 ”), and the number of bits that become“ 1 ”in this bit string (in this case,“ 3 ”) is called a weight. The signature for a record is obtained by taking the logical sum of all the signatures of the keyword appearing in the record for each bit.

【0007】この方式での検索方法を図2を参照して説
明する。すなわち、検索語(この場合「keyword
3」)に対して、先ほどと同じbcw関数を用いてビッ
ト列を作成する。そして、このビット列中で「1」にな
っているビット位置が全て「1」となっているシグネチ
ャを持つレコードを検索結果として出力する。つまり、
検索語のビット列とレコードのビット列との論理積が、
検索語のビット列に一致する場合に、そのテキストを検
索結果として出力する。このように、ビット列の論理操
作で検索が行えるため、シグネチャファイルによる検索
は十分な高速性を持っている。
A search method using this method will be described with reference to FIG. That is, the search term (in this case, “keyword
3)), a bit string is created using the same bcw function as before. Then, a record having a signature in which all bit positions of “1” in the bit string are “1” is output as a search result. That is,
The logical product of the search word bit string and the record bit string is
If it matches the bit string of the search word, the text is output as the search result. As described above, since the search can be performed by the logical operation of the bit string, the search by the signature file has a sufficiently high speed.

【0008】ところが、この方式ではフォルスドロップ
と呼ばれる問題が生じる。すなわち、図1のように「k
eyword1」と「keyword2」のビット毎の
論理和は「keyword3」のビット列を完全に含ん
でいるため、「keyword1」と「keyword
2」を含むレコードは「keyword3」を含まない
にもかかわらず、「keyword3」に対する検索出
力となってしまう。
However, this method has a problem called false drop. That is, as shown in FIG.
Since the bitwise OR of “keyword1” and “keyword2” completely includes the bit string of “keyword3”, “keyword1” and “keyword2”
Although the record including “2” does not include “keyword3”, it becomes a search output for “keyword3”.

【0009】フォルスドロップの除去のためには、全文
文字検索アルゴリズムを適用しなければならず、シグネ
チャファイル法の検索速度を低下させてしまう原因とな
る。上述したようなフォルスドロップをいかに減少させ
るかが、シグネチャファイルを用いる検索システムの実
現の際には重要な問題となる。これは、上で説明したb
cw関数を最適に設計するという問題に他ならない。こ
のときの設計パラメタとしては、(1)ビット長、
(2)重み、(3)与えられたビット長、重みのもとで
ビット列を対応させる具体的方式、の3種類となる。次
に、これらの決定方法について従来技術を説明する。
In order to eliminate false drops, it is necessary to apply a full-text search algorithm, which causes a reduction in the search speed of the signature file method. How to reduce false drops as described above is an important issue when implementing a search system using signature files. This corresponds to b
This is nothing but the problem of optimally designing the cw function. The design parameters at this time are (1) bit length,
There are three types: (2) weight, (3) a given bit length, and a specific method for associating a bit string with the weight. Next, a conventional technique will be described for these determination methods.

【0010】参考文献1(Roberts、C.S.、
Partial−match retrieval v
ia the method of superimp
osed codes、 Proc. IEEE 6
7、 Dec.、 1624− 1642、 197
9.)では、次のような前提条件のもとで、bcw関数
の数学的解析を行い、ビット長と重みに関する設計指針
を与えた。
Reference 1 (Roberts, CS,
Partial-match retrieval v
ia the method of superimp
used codes, Proc. IEEE 6
7, Dec. , 1624-1642, 197
9. In (2), mathematical analysis of the bcw function was performed under the following preconditions, and design guidelines on bit length and weight were given.

【0011】(前提条件1)各レコードに出現する相異
なるキーワード数は一定である。 (前提条件2)いずれのキーワードも等確率で出現す
る。 この2つの前提条件のもと、ビット長b、重みw、キー
ワード数r、のレコードがフォルスドロップする確率は
次式で与えられる。
(Precondition 1) The number of different keywords appearing in each record is constant. (Precondition 2) All keywords appear with equal probability. Under these two preconditions, the probability that a record having a bit length b, a weight w, and the number of keywords r false-drops is given by the following equation.

【0012】[0012]

【数1】 この式は、wがmよりも十分に小さい場合には次式で近
似できる。
(Equation 1) This equation can be approximated by the following equation when w is sufficiently smaller than m.

【0013】[0013]

【数2】 (Equation 2)

【0014】この式の値が最小になる場合、すなわちフ
ォルスドロップが最小になるのは、w/b=0.5のと
きであり、レコードのシグネチャ中でちょうど1/2の
ビットが「1」になるようにセットされた場合である。
w/bはシグネチャ中で「1」となるビットの割合を示
すものであるから、以降ではビット率とよぶことにす
る。
When the value of this expression is minimum, that is, the false drop is minimum when w / b = 0.5, and exactly ち ょ う ど of the bits are “1” in the signature of the record. Is set so that
Since w / b indicates the ratio of bits that become "1" in the signature, it is referred to as the bit ratio hereinafter.

【0015】ここで、シグネチャの符号長bは記憶領域
サイズと直接関係することに注意する。従って、システ
ムに許されるディスク使用量とフォルスドロップ除去の
ための検索速度低下とを上の式から推測しながら、最適
なb、wの値を採用することが従来の方法であった。
Note that the code length b of the signature is directly related to the storage area size. Therefore, it has been a conventional method to employ the optimum values of b and w while estimating the disk usage amount permitted for the system and the search speed reduction for removing the false drop from the above equation.

【0016】上記の解析においては、各レコードに出現
するキーワード数が一定であるということと(前提条件
1)、キーワードの出現確率が均等であること(前提条
件2)という2つの前提条件を仮定していた。ところ
が、一般のテキストデータベースにおいては、レコード
に現れるキーワード数は大きくばらついている。レコー
ドのフォーマットを強制的に規定することでレコード数
を一定とするのでは、実用上の運用に困難をきたすこと
になる。さらに、良く知られているように、自然言語
(日本語、英語など)においては、出現する単語の分析
は極めて偏ったものになっている。結局、上記の単純な
解析結果からは、実用的なテキストデータベースに対す
る最適な設計値を得ることができないということにな
る。
In the above analysis, two preconditions are assumed: the number of keywords appearing in each record is constant (precondition 1), and the appearance probabilities of keywords are equal (precondition 2). Was. However, in a general text database, the number of keywords appearing in records varies widely. If the number of records is fixed by forcibly defining the record format, practical operation becomes difficult. Furthermore, as is well known, in natural languages (Japanese, English, etc.), the analysis of the appearing words is extremely biased. After all, from the above simple analysis result, it is not possible to obtain the optimum design value for a practical text database.

【0017】そこで、前提条件1、前提条件2を実用的
なレベルにまで緩和しようとする試みがなされている。
まず前提条件1についてであるが、レコードをキーワー
ド数が一定となるようにした論理的なブロックへと分割
するという方式が広く採用されている。
Therefore, attempts have been made to relax the preconditions 1 and 2 to a practical level.
First, regarding precondition 1, a method of widely dividing a record into logical blocks in which the number of keywords is fixed has been widely adopted.

【0018】前提条件2に関しては、参考文献2(Ch
un−Wu Roger Leng、and Dik
Lun Lee:Optimal Weight As
signment for Signature Ge
neration、ACMTransactions
on Database Systems、Vol.1
7、No.2、1992.)に、レコードを単純にキー
ワード数一定となるように分割するのではなく、分割さ
れた各々のレコードに対するシグネチャにおいて「1」
にセットされるビット数が同一になるようなレコード分
割を行うような方式が提案されている。この方法は、キ
ーワード偏在という問題への対処療法的解決であり、本
質的な解決とは異なる。例えば、高頻度のキーワードに
より「1」にセットされるビットと、中頻度以下のキー
ワードで「1」にセットされるビットが同一である場
合、そうした中頻度以下のキーワードによる検索の際の
フォルスドロップが大きくなってしまう。一般的なテキ
スト情報データベースにおいては、高頻度や低頻度のキ
ーワードによる検索よりもむしろ、中頻度のキーワード
による検索が重要となる場合が多いため、この従来技術
は十分なものではなかった。
For the precondition 2, see Reference 2 (Ch
un-Wu Roger Leng, and Dik
Lun Lee: Optimal Weight As
signal for Signature Ge
neration, ACMTransactions
on Database Systems, Vol. 1
7, no. 2, 1992. ), Instead of simply dividing the record so that the number of keywords is constant, the signature for each divided record is “1”.
A method has been proposed in which record division is performed so that the number of bits set to the same is the same. This method is a therapeutic solution to the problem of keyword uneven distribution, and differs from the essential solution. For example, if the bit set to “1” by a high-frequency keyword is the same as the bit set to “1” by a medium-frequency keyword or less, a false drop when searching with such a medium-frequency keyword or less Becomes large. In a general text information database, a search using medium-frequency keywords is often more important than a search using high-frequency or low-frequency keywords, so this conventional technique is not sufficient.

【0019】次に、前方一致検索に関しては説明する。
前方一致検索とは、例えば「comp」なる検索式を与
えることで、「computer」、「compute
rs」、「computation」などといったキー
ワードの前方部分が検索式「comp」と一致するキー
ワードによる検索を行うものであり、情報検索システム
の重要な機能となっている。ところが、単純なシグネチ
ャ法により前方一致検索を行う場合、「comp」を前
方の部分文字列とするキーワードを辞書などを利用して
生成し、生成された各々に対する検索を行う必要があ
り、検索速度や辞書保存のための記憶領域オーバヘッド
増大という問題がある。そこで従来技術による改良方式
が提案されている。
Next, a description will be given of the prefix matching search.
The prefix search is performed by, for example, giving a search expression “comp” to “computer”,
The search is performed by a keyword such as “rs” or “computa- tion” where the front part of the keyword matches the search expression “comp”, which is an important function of the information search system. However, when performing a prefix match search by a simple signature method, it is necessary to generate a keyword using “comp” as a partial character string in front using a dictionary or the like, and perform a search for each of the generated keywords. And an increase in storage area overhead for storing dictionaries. Therefore, an improved system according to the prior art has been proposed.

【0020】参考文献3(C.Faloutsos:A
ccess Methods for Text、AC
M Computing Surveys、Vol.1
7、No.1、1985.)に記載されている方式で
は、辞書を用いることなく(すなわち記憶領域のオーバ
ーヘッドなしに)前方一致検索を行う方法が提案されて
いる。しかし、単純に参考文献3の方式を適用したので
は、フォルスドロップの増大を招くことになり、現実的
なものではなくなってしまう。前方一致検索を可能にす
る方式は、フォルスドロップを減少させる方法と共に用
いなければ現実上の意味がない。
Reference 3 (C. Fallouts: A
access Methods for Text, AC
M Computing Surveys, Vol. 1
7, no. 1, 1985. Has proposed a method of performing a forward match search without using a dictionary (that is, without a storage area overhead). However, simply applying the method of Reference 3 causes an increase in false drop, which is not practical. The scheme that enables the head-match search has no practical meaning unless it is used together with a method for reducing false drops.

【0021】特願平第7−121065号に記載の索引
型式作成装置においては、シグネチャを用いた情報検索
システムにおいて、キーワードの概念を拡張する発明が
提供されている。すなわち、テキスト中に頻繁に現れる
連続した文字列を統計データに基いて同定し、それをキ
ーワードに代る検索単位として採用しようとする方法で
ある。この方法は、頻繁に現れる文字列がキーワードと
なるため、そうした頻繁に現れる文字列に対する検索能
力を向上させる意味を持っている。しかし同発明におい
ては、頻繁に現れる文字列を見出す方式に主眼が置か
れ、フォルスドロップ数を減少させるための方式は従来
の発明を利用している。従って、頻繁に現れる文字列の
生起頻度に偏りが生じた場合には、フォルスドロップの
増大を招き実用上の利点が失われる可能性がある。
In the index type creating apparatus described in Japanese Patent Application No. 7-121065, an invention is provided which extends the concept of a keyword in an information search system using signatures. In other words, a method is used in which a continuous character string frequently appearing in a text is identified based on statistical data, and is used as a search unit instead of a keyword. In this method, since a frequently appearing character string is used as a keyword, it has the meaning of improving the search ability for such frequently appearing character strings. However, the present invention focuses on a method of finding a frequently appearing character string, and uses a conventional invention as a method for reducing the number of false drops. Therefore, if the frequency of occurrence of frequently appearing character strings is biased, false drops may be increased and practical advantages may be lost.

【0022】特願平第3−190619号に記載の情報
検索システムにおいては、キーワードに対する索引の構
成をシステムの利用状況に応じて変更するというもので
ある。これは、より頻繁に利用されるキーワードに対す
る検索時間を徐々に高速化しようとするものであり、ニ
ューラルネットワークを利用した利用頻度情報の収集部
分と、キーワード格納装置内部でキーワードの再配置を
行う部分から構成されている。この発明では、システム
が十分に使い込まれないと高速化が達成できないという
問題がある。さらに、複数の利用者が同一のデータベー
スを利用する場合、利用者により異なるキーワードの傾
向を持つ場合への対応が論じられていないなどの問題が
ある。
In the information retrieval system described in Japanese Patent Application No. 3-190609, the structure of an index for a keyword is changed in accordance with the state of use of the system. This aims to gradually speed up the search time for keywords that are used more frequently, and collects usage frequency information using a neural network and relocates keywords inside the keyword storage device. It is composed of The present invention has a problem that high speed cannot be achieved unless the system is sufficiently used. Furthermore, when a plurality of users use the same database, there is a problem that correspondence to a case where different users have different keyword tendencies is not discussed.

【0023】特願平第6−32441号に記載のシグネ
チャの用いた文書検索装置においては、シグネチャを格
納する方式を工夫することで記憶領域サイズを小さくす
る方法が提供されている。この発明はフォルスドロップ
数の減少やデータの内容に合わせたシグネチャ作成方法
調整とは関係しないので、本発明とは独立のものであ
る。
In a document retrieval apparatus using signatures described in Japanese Patent Application No. 6-32441, a method for reducing the storage area size by devising a method for storing signatures is provided. The present invention is independent of the present invention because it does not relate to the reduction of the number of false drops or the adjustment of the signature creation method according to the data content.

【0024】その他に、従来技術によるシグネチャファ
イル法の改良方式は多数提案されている。例えば、参考
文献4(Dik Lun Lee、Young Man
Kim、and Gaurav Patel:Eff
icient Signature File Met
hods for Text Retrieval、I
EEE Trans.on Knowledge an
d Data Eng.,Vol.7、No.3、19
95.)には、シグネチャを用いるいくつかの方式につ
いて、その方式と数学的な解析が記載されている。例え
ば、レコードに対するシグネチャを用いるだけではな
く、複数のシグネチャに対するシグネチャをも考えるこ
とで、検索を他段階に行う方式が提案されており、ディ
スク装置とのアクセスを減らして検索高速化を行うこと
が可能となる。しかし、フォルスドロップ数を減少させ
るための方法とは独立であり、本発明の装置と共に用い
ることが可能である。
In addition, a number of improved signature file methods according to the prior art have been proposed. For example, reference 4 (Dik Lun Lee, Young Man
Kim, and Gaurav Patel: Eff
client Signature File Met
hods for Text Retrieval, I
EEE Trans. on Knowledge an
d Data Eng. , Vol. 7, no. 3, 19
95. ) Describes several schemes using signatures and their mathematical analysis. For example, not only using signatures for records, but also considering signatures for a plurality of signatures, a method of performing a search at another stage has been proposed. It becomes possible. However, it is independent of the method for reducing the number of false drops and can be used with the device of the present invention.

【0025】[0025]

【発明が解決しようとする課題】以上説明したように、
従来のシグネチャを用いた情報検索システムでは、レコ
ード中に現れるキーワード数、各キーワードの出現頻度
のばらつきに応じたフォルスドロップには充分な対策が
講じられていなかった。
As described above,
In an information retrieval system using a conventional signature, sufficient measures have not been taken against false drops in accordance with the number of keywords appearing in a record and variations in the frequency of appearance of each keyword.

【0026】そこで、本発明は、テキスト中のキーワー
ドの出現頻度に応じてシグネチャを用いた情報検索を行
う際のフォルスドロップの発生を抑制できるとともに、
記憶領域のオーバーヘッドを抑え、高速に前方一致検索
が行えるデータベース作成方法および情報検索方法およ
びそれを用いた情報検索装置を提供することを目的とす
る。
Therefore, the present invention can suppress the occurrence of a false drop when performing an information search using a signature in accordance with the frequency of occurrence of a keyword in a text.
It is an object of the present invention to provide a database creation method and an information search method capable of suppressing a storage area overhead and performing high-speed head-on search, and an information search apparatus using the same.

【0027】[0027]

【課題を解決するための手段】本発明のデータベース作
成方法(請求項1)は、入力された情報中のキーワード
から部分文字列を切り出し、この切り出された部分文字
列のキーワード中での出現頻度に基づき前記部分文字列
に割り当てられた予め定められた長さのビット列を用い
て前記入力された情報に対する第1のシグネチャを生成
し、前記入力された情報を前記生成された第1のシグネ
チャと対応付けて記憶してデータベースを作成すること
により、例えばテキスト中のキーワードの出現頻度に応
じて、シグネチャを用いた情報検索を行う際のフォルス
ドロップの発生を抑制できるとともに、記憶領域のオー
バーヘッドを抑え、高速に前方一致検索が行える。
According to a database creation method of the present invention, a partial character string is cut out from a keyword in input information, and the appearance frequency of the cut out partial character string in the keyword is extracted. Generating a first signature for the input information using a bit string of a predetermined length assigned to the partial character string based on the input information and the generated first signature with the generated first signature. By creating a database by storing in association with each other, it is possible to suppress the occurrence of false drops when performing information search using signatures, for example, according to the appearance frequency of keywords in text, and to reduce the overhead of the storage area , Fast match search can be performed.

【0028】本発明の情報検索方法(請求項2)は、情
報とそれに対応する第1のシグネチャとが対応付けられ
て記憶されたデータベースの検索方法であって、入力さ
れた検索情報中のキーワードから部分文字列を切り出
し、この切り出された各部分文字列についてその部分文
字列のキーワード中での出現頻度に基づいて予め割り当
てられたビット列を用いて前記検索情報に対応する第2
のシグネチャを生成し、この生成された第2のシグネチ
ャと前記データベース内の第1のシグネチャとを照合す
ることにより、前記検索情報に関連する情報を前記デー
タベースから検索することにより、例えばテキスト中の
キーワードの出現頻度に応じて、シグネチャを用いた情
報検索を行う際のフォルスドロップの発生を抑制できる
とともに、記憶領域のオーバーヘッドを抑え、高速に前
方一致検索が行える。
An information retrieval method according to the present invention (claim 2) is a method for retrieving a database in which information and a first signature corresponding to the information are stored in association with each other. And a second character string corresponding to the search information is extracted from each of the extracted partial character strings by using a bit string assigned in advance based on the appearance frequency of the partial character string in the keyword.
By generating a signature of the second signature and comparing the generated second signature with the first signature in the database, by searching the database for information related to the search information, for example, According to the appearance frequency of the keyword, it is possible to suppress the occurrence of a false drop when performing the information search using the signature, to suppress the overhead of the storage area, and to perform the forward match search at high speed.

【0029】本発明の情報検索方法(請求項3)は、入
力された情報中のキーワードから部分文字列を切り出
し、この切り出された部分文字列のキーワード中での出
現頻度に基づき前記部分文字列に割り当てられた予め定
められた長さのビット列を用いて前記入力された情報に
対する第1のシグネチャを生成し、前記入力された情報
を前記生成された第1のシグネチャと対応付けて記憶し
てデータベースを作成し、情報検索の際には、入力され
た検索情報中のキーワードから部分文字列を切り出し、
この切り出された各部分文字列についてその部分文字列
のキーワード中での出現頻度に基づいて予め割り当てら
れたビット列を用いて前記検索情報に対応する第2のシ
グネチャを生成し、この生成された第2のシグネチャと
前記データベース内の第1のシグネチャとを照合するこ
とにより、前記検索情報に関連する情報を前記データベ
ースから検索することにより、例えばテキスト中のキー
ワードの出現頻度に応じて、シグネチャを用いた情報検
索を行う際のフォルスドロップの発生を抑制できるとと
もに、記憶領域のオーバーヘッドを抑え、高速に前方一
致検索が行える。
The information retrieval method according to the present invention (Claim 3) is to cut out a partial character string from a keyword in the input information, and based on the appearance frequency of the cut out partial character string in the keyword. Generating a first signature for the input information by using a bit string of a predetermined length assigned to, and storing the input information in association with the generated first signature. Create a database, and when searching for information, cut out partial character strings from the keywords in the input search information,
For each of the cut-out partial character strings, a second signature corresponding to the search information is generated using a bit string assigned in advance based on the appearance frequency of the partial character string in the keyword. 2 by comparing the signature of the second signature with the first signature in the database, and searching the database for information related to the search information. It is possible to suppress the occurrence of a false drop when performing a searched information search, suppress the overhead of a storage area, and perform a fast match search at a high speed.

【0030】本発明の情報検索装置(請求項4)は、入
力された情報中のキーワードから部分文字列を切り出す
切出手段と、この切り出し手段で切り出された部分文字
列の出現頻度に基づき前記部分文字列に予め定められた
長さのビット列を割り当てる割当手段と、前記部分文字
列に割り当てられたビット列を用いて前記入力された情
報に対する第1のシグネチャを生成する生成手段と、前
記入力された情報を前記生成手段で生成された第1のシ
グネチャと対応付けて記憶してデータベースを作成する
手段と、入力された検索情報中のキーワードから部分文
字列を切り出し、この切り出された各部分文字列につい
て前記生成手段で生成されたビット列を用いて、該検索
情報に対応する第2のシグネチャを生成し、この生成さ
れた第2のシグネチャと前記データベース内の第1のシ
グネチャとを照合することにより、前記検索情報に関連
する情報を前記データベースから検索する検索手段と、
を具備したことにより、例えばテキスト中のキーワード
の出現頻度に応じて、シグネチャを用いた情報検索を行
う際のフォルスドロップの発生を抑制できるとともに、
記憶領域のオーバーヘッドを抑え、高速に前方一致検索
が行える。
[0030] The information retrieval apparatus of the present invention (claim 4) includes a cutout unit for cutting out a partial character string from a keyword in the input information, and the appearance frequency of the partial character string cut out by the cutout unit. Allocating means for allocating a bit string of a predetermined length to the partial character string; generating means for generating a first signature for the input information using the bit string allocated to the partial character string; Means for creating a database by storing the obtained information in association with the first signature generated by the generating means, extracting a partial character string from a keyword in the input search information, and extracting each partial character A second signature corresponding to the search information is generated using the bit string generated by the generation means for the column, and the generated second signature is generated. By collating the first signature of the a catcher database, and retrieving means for retrieving information related to the search information from the database,
By providing, for example, according to the frequency of appearance of the keyword in the text, it is possible to suppress the occurrence of false drop when performing information search using the signature,
The overhead of the storage area can be suppressed, and a forward match search can be performed at high speed.

【0031】[0031]

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。図3は、本実施形態に係る情
報検索装置の構成例を示したものである。なお、図3に
おいて、実線は情報記憶時のデータの流れを示し、破線
は主に検索時のデータの流れを示している。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 3 shows a configuration example of the information search device according to the present embodiment. In FIG. 3, a solid line indicates a data flow at the time of storing information, and a broken line mainly indicates a data flow at the time of retrieval.

【0032】まず、情報記憶時のデータの流れに沿っ
て、図3の各構成部について説明する。マスターデータ
ベース5は、個々のレコードの実データをその識別子と
ともに格納するためのものである。個々のレコードは、
テキスト形式の情報以外に図形情報や音声情報など計算
機で扱い得る様々な形式のデータを含んでいても良い。
マスターデータベース5の構造は、従来技術を用いて実
現される。本発明の情報検索装置に入力部1を介して入
力された情報をレコードとして蓄積する場合には、まず
このマスターデータベースにレコードの格納が行われ
る。
First, each component of FIG. 3 will be described along the flow of data when storing information. The master database 5 is for storing the actual data of each record together with its identifier. Each record is
In addition to textual information, data of various formats such as graphic information and audio information that can be handled by a computer may be included.
The structure of the master database 5 is realized using a conventional technique. When storing information input via the input unit 1 as a record in the information search apparatus of the present invention, the record is first stored in the master database.

【0033】図4に、本実施形態の説明で用いる入力部
1を介して入力された情報、すなわち、レコードの一具
体例を示する。マスターデータベース5へのレコード格
納と並行して、キーワード切り出し部3では、例えば図
4に示すレコードのテキスト情報から図5に示すように
キーワードを抽出する。
FIG. 4 shows a specific example of information input through the input unit 1 used in the description of the present embodiment, that is, a record. In parallel with the storage of the record in the master database 5, the keyword extracting unit 3 extracts a keyword from the text information of the record shown in FIG. 4, for example, as shown in FIG.

【0034】さらに、部分文字列切り出し部4では、図
5に示したような各キーワードのそれぞれを図6に示す
ように例えば2文字づつの部分文字列に分割する。図7
は、部分文字列切り出し部4における部分文字列切出処
理の手順の一例を示したフローチャートである。部分文
字列切り出し部4では、例えば、符号重み(ビット列中
の「1」となるビットの数)wを「5」、切り出す部分
文字列の長さkを「2」としている(ステップS1〜ス
テップS2)。キーワードの先頭(i=1)の文字から
順に2文字づつ、すなわち、1番目と2番目の文字、2
番目と3番目の文字、…5番目と6番目の文字というよ
うに、切り出す2文字の部分文字列の最初の文字の位置
がi=5となるまで部分文字列を切り出していき(ステ
ップS3〜ステップS7)、部分文字列「XX」とその
部分文字列の先頭の文字のキーワード中の出現位置(最
初から何文字目か)iの組み<XX、i>を出力してい
る(ステップS4)。
Further, the partial character string cutout unit 4 divides each of the keywords as shown in FIG. 5 into a partial character string of, for example, two characters as shown in FIG. FIG.
5 is a flowchart illustrating an example of a procedure of a partial character string cutout process in the partial character string cutout unit 4. In the partial character string cutout unit 4, for example, the code weight (the number of bits that become “1” in the bit string) w is “5” and the length k of the partial character string to be cut out is “2” (steps S1 to S1). S2). Two characters at a time starting from the first character of the keyword (i = 1), that is, the first and second characters,
The third and third characters,..., The fifth and sixth characters are cut out until the position of the first character of the two-letter character string to be cut out becomes i = 5 (steps S3 to S3). In step S7, a combination <XX, i> of the partial character string "XX" and the appearance position (the first character from the beginning) i of the first character of the partial character string in the keyword is output (step S4). .

【0035】例えば、キーワード「Objects」に
おいて、<Ob、1>は、部分文字列「Ob」が1番め
に出現することを、<bj、2>は部分文字列「bj」
が2番めに出現することを示している。
For example, in the keyword "Objects", <Ob, 1> indicates that the partial character string "Ob" appears first, and <bj, 2> indicates the partial character string "bj".
Indicates that it appears second.

【0036】このようにして切り出された部分文字列
は、シグネチャ作成部9に与えられる。部分文字切り出
し部4では、さらに、部分文字列とその出現位置の組合
わせに対して、それがレコード中に出現する頻度を部分
文字列の統計情報として統計情報データベース7に格納
するようになっている。
The partial character string cut out in this way is given to the signature creating section 9. The partial character cutout unit 4 further stores the frequency of occurrence of the combination of the partial character string and its appearance position in the record in the statistical information database 7 as statistical information of the partial character string. I have.

【0037】統計情報データベース7に格納された部分
文字列の統計情報データは、シグネチャ作成用データべ
ース更新部11で部分文字列のシグネチャを作成する際
に用いられる(後述)。
The statistical information data of the partial character string stored in the statistical information database 7 is used when a signature of the partial character string is created by the signature creating database updating unit 11 (described later).

【0038】シグネチャ作成部9は、キーワードから切
り出された部分文字列に基づきシグネチャ作成用データ
ベース6を参照して、キーワードのシグネチャおよびレ
コードのシグネチャを作成するものである。なお、ここ
では、例えば、部分文字列、キーワード、テキストのシ
グネチャを10ビットのビット列とする。
The signature creation section 9 refers to the signature creation database 6 based on the partial character string cut out from the keyword, and creates a signature of the keyword and a signature of the record. Here, for example, the signature of the partial character string, the keyword, and the text is a 10-bit bit string.

【0039】シグネチャ作成用データベース6は、各部
分文字列とその出現位置の組み合わせに対して、どのビ
ット位置を「1」にするか(すなわち、部分文字列とそ
の出現位置との組み合わせに対するシグネチャ)を定め
たテーブルを格納しているものである。
The signature creation database 6 determines which bit position is "1" for each combination of the partial character string and its appearance position (that is, the signature for the combination of the partial character string and its appearance position). Is stored.

【0040】ここで、図8を参照して、シグネチャ作成
部9でキーワードのシグネチャを作成する手順を説明す
る。シグネチャ作成用データベース6には、部分文字列
切り出し部4で切り出された部分文字列とその出現位置
との組<xx、i>と、それに対応して予め定められた
10ビットのうちの「1」にするビット位置(すなわ
ち、部分文字列に対するシグネチャ)が対になって記憶
されている。例えば、図8に示すように、キーワード
「Objects」において、10ビットのビット列の
うち、<Ob、1>に対しては10ビット目、<bj、
2>に対しては3ビット目、<je、3>に対しては5
ビット目、<ec、4>に対しては7ビット目、<c
t、5>に対しては2ビット目が「1」となるようなシ
グネチャが割り当てられている。このように、キーワー
ドに対するシグネチャは、部分文字列とその出現位置と
に対し予め定められたシグネチャのビット毎の論理和を
とることで作成される。例えば、この場合、キーワード
「object」のシグネチャは「011010100
1」となる。
Referring now to FIG. 8, a procedure for creating a signature of a keyword in the signature creating section 9 will be described. The signature creation database 6 stores a set <xx, i> of the partial character string cut out by the partial character string cutout unit 4 and its appearance position and “1” of 10 bits corresponding to the set. Are stored as a pair (i.e., the signature for the substring). For example, as shown in FIG. 8, in the keyword “Objects”, of the 10-bit bit string, the 10th bit, <bj,
3> bit for <2>, 5 for <je, 3>
For the bit, <ec, 4>, the seventh bit, <c
A signature such that the second bit is “1” is assigned to t, 5>. In this manner, the signature for the keyword is created by taking the bitwise logical sum of the predetermined signature for the partial character string and its appearance position. For example, in this case, the signature of the keyword “object” is “011010100”.
1 ".

【0041】レコードのシグネチャは、レコード中の全
てのキーワードに対するシグネチャのビット毎の論理和
を取って作成する。シグネチャ作成部9で作成されたレ
コードのシグネチャは、シグネチャ格納データベース8
に蓄積される。例えば、先にマスターデータベース5に
格納されたレコードに付された識別子と同一の識別子と
組にしてそのシグネチャを格納する。
The signature of the record is created by taking the logical sum of the signatures for all the keywords in the record for each bit. The signature of the record created by the signature creation unit 9 is stored in the signature storage database 8.
Is accumulated in For example, the signature is stored in combination with the same identifier as the identifier attached to the record previously stored in the master database 5.

【0042】また、このときの格納方式としては、従来
技術(例えば参考文献4)を用いて、検索の高速化が可
能な方式とすることができる。なお、シグネチャ作成用
データベース6に格納されている部分文字列およびその
出現位置に対するシグネチャの割当方法は後述する。
As a storage method at this time, it is possible to use a conventional technique (for example, Reference Document 4) and make it possible to speed up the retrieval. A method of assigning a signature to a partial character string stored in the signature creation database 6 and its appearance position will be described later.

【0043】次に、部分文字列の切り出しとシグネチャ
作成とについてさらに詳しく説明する。本発明の目的の
1つは、テキスト中のキーワードの出現頻度が偏ってい
るテキストデータベースにおいて、シグネチャによる検
索のフォルスドロップを減少させることであった。従来
技術においては、キーワードから乱数を利用してシグネ
チャを作成しようとしていたのだが、キーワード偏在に
よる影響を大きく受けるものであった。キーワードその
ものに対するデータベースを作成してシグネチャ作成を
統計的にコントロールしようとすると、膨大なキーワー
ドを格納する必要が生じる。中規模の辞書においても、
例えば講談社英和辞典では約9万語、旺文社英和中辞典
では約10万語の見出し語を持っているため、活用型や
技術専門用語を含めればキーワード単位でシグネチャ作
成をコントロールする方法は大きな記憶領域オーバーヘ
ッドを伴うことになり実用的ではない。また、検索時に
も膨大なキーワードを格納したデータベースをアクセス
することになるので、検索速度低下も問題となる。
Next, extraction of a partial character string and creation of a signature will be described in more detail. One of the objects of the present invention is to reduce the false drop of a search by a signature in a text database in which the frequency of appearance of keywords in text is uneven. In the prior art, a signature was created using a random number from a keyword, but the signature was greatly affected by uneven distribution of the keyword. To statistically control the signature creation by creating a database for the keywords themselves, it becomes necessary to store a huge number of keywords. Even in a medium-sized dictionary,
For example, the Kodansha English-Japanese dictionary has about 90,000 headwords and the Obunsha English-Japanese-Chinese dictionary has about 100,000 headwords. It is not practical because it involves overhead. In addition, since a database that stores a large number of keywords is accessed at the time of searching, a reduction in search speed is also a problem.

【0044】そこで、本発明では、キーワードから部分
文字を切り出し、その部分文字列に対するシグネチャを
作成するようになっている。部分文字列の可能な組み合
わせ数は、部分文字列の長さを短くとることで、その数
を自在に調整できるという事実に基づいている。例え
ば、文字種総数が「50」であるとすれば、長さ「2」
の部分文字列総数は「250」にしか過ぎない。部分文
字列の長さを幾つにするかという問題は、記憶領域のサ
イズを見ながら決定すれば良い。また、部分文字列その
ものだけではなく、本実施形態のように部分文字列がキ
ーワード中の何番めに出現するのかというような部分文
字列の出現位置の情報との組み合わせに対しシグネチャ
を作成するようにしてもよい。
Therefore, in the present invention, a partial character is cut out from a keyword, and a signature for the partial character string is created. The number of possible combinations of substrings is based on the fact that the number can be adjusted freely by shortening the length of the substrings. For example, if the total number of character types is “50”, the length is “2”.
Is only "250". The problem of how long the partial character string should be may be determined by checking the size of the storage area. Further, a signature is created not only for the partial character string itself but also for a combination with information on the appearance position of the partial character string such as the number of the partial character string in the keyword as in the present embodiment. You may do so.

【0045】本実施形態の場合には、長さ「2」の部分
文字列でその出現位置を考慮したものを採用している。
この場合、扱う文字種が「50」であり、出現位置とし
ては本実施形態の場合にはキーワードの先頭から5番目
までの部分文字列しか扱わない。従って、50・50・
5=12500種類の見出しを持つテーブルを用意すれ
ば十分である。従って、前方一致検索を行う際には記憶
領域のオーバーヘッドを小さく抑えることができるとい
う効果がある。
In the case of this embodiment, a partial character string having a length of "2" is used in consideration of its appearance position.
In this case, the character type to be handled is “50”, and as the appearance position, in the present embodiment, only the fifth partial character string from the beginning of the keyword is handled. Therefore, 50 ・ 50 ・
It is sufficient to prepare a table having 5 = 12,500 kinds of headings. Therefore, there is an effect that the overhead of the storage area can be reduced when performing the forward matching search.

【0046】なお、部分文字列に対するシグネチャのビ
ット長が長い程フォルスドロップの発生回数を抑えるこ
とができるが、逆に記憶領域が大きくなる。従って、シ
グネチャのビット長を決定する際には、これらを考慮し
て装置に最適な値を決定する必要がある。
Note that the longer the bit length of the signature for the partial character string is, the more the number of false drops can be suppressed, but the larger the storage area is. Therefore, when determining the bit length of the signature, it is necessary to determine the optimum value for the device in consideration of these.

【0047】次に、シグネチャ作成用データべース更新
部11について説明する。シグネチャ作成用データベー
ス更新部11では、統計情報データベース7に格納され
た部分文字列とその出現位置の組合わせの出現頻度(す
なわち、部分文字列のキーワード中での出現頻度、ある
いは、部分文字列の出現位置に関する頻度)の統計情報
データを参照して、部分文字列とその出現位置の組合わ
せに対するシグネチャ(具体的には、例えば10ビット
中のどのビット位置を「1」にするかを定めたもの)を
作成し、それを基に、シグネチャ作成用データベース
6、シグネチャ格納データベース8を更新するようにな
っている。
Next, the signature creation database updating unit 11 will be described. In the signature creation database updating unit 11, the appearance frequency of the combination of the partial character string stored in the statistical information database 7 and its appearance position (that is, the appearance frequency of the partial character string in the keyword or the partial character string The signature (specifically, for example, which bit position in 10 bits is set to “1”) for the combination of the partial character string and the appearance position is determined with reference to the statistical information data of the appearance position. ), And the signature creation database 6 and the signature storage database 8 are updated based on the created one.

【0048】部分文字列とその出現位置との組み合わせ
に対してビット位置を決める方法としては、各ビットが
「1」にセットされる確率が等しくなるようにするとい
う原則に従う。以下でその方法を説明する。
The method of determining the bit position for the combination of the partial character string and its appearance position follows the principle that the probability that each bit is set to "1" is equal. The method will be described below.

【0049】部分文字列とその出現位置に対するレコー
ド中の出現頻度の統計情報を従来技術を用いて容易に収
集することができる。例えば、部分文字列と出現位置を
見出しとするテーブルを作成し、部分文字列切り出し部
4からの出力が得られるたびに、出現回数を「1」つづ
つカウントアップすれば良い。このようにして計数され
た出現回数を部分文字列およびその出現位置の組み合わ
せについての統計情報データとして統計情報データベー
ス7に格納する。この統計情報データベース7の内容を
参照することにより、任意の時点における部分文字列の
キーワード中での出現頻度を直ちに計算することができ
る。
It is possible to easily collect statistical information of the appearance frequency of a partial character string and its appearance position in a record by using a conventional technique. For example, a table in which a partial character string and an appearance position are set as a heading is created, and each time an output from the partial character string cutout unit 4 is obtained, the number of appearances may be counted up by “1”. The number of appearances counted in this way is stored in the statistical information database 7 as statistical information data on the combination of the partial character string and its appearance position. By referring to the contents of the statistical information database 7, the appearance frequency of the partial character string in the keyword at any time can be calculated immediately.

【0050】図9に示すフローチャートは、シグネチャ
作成用データベース更新部11における部分文字列のシ
グネチャ作成処理の手順の一例を示したもので、これに
従えば、ほぼ等確率で10ビット中の各ビットが「1」
となるように各部分文字列に対する10ビット中のビッ
ト位置を決定することができる。
The flowchart shown in FIG. 9 shows an example of the procedure of the signature creation processing of the partial character string in the signature creation database update unit 11. According to this flowchart, each bit in 10 bits is almost equally probable. Is "1"
The bit position in 10 bits for each partial character string can be determined as follows.

【0051】図9のフローチャートにおいて、まず、1
0ビットのシグネチャの各ビット位置(i=1〜10)
について「1」となる確率p[i]を全て「0」に初期
化する(ステップS11〜ステップS13)。そして、
統計情報データベース7から、最も出現確率xの高い部
分文字列を選び(ステップS14)、その部分文字列に
対するシグネチャ10ビット中の「1」にするビット位
置を、その時点で、10ビットのシグネチャの各ビット
位置(i=1〜10)について「1」となる確率p
[i]が最も低いビット位置とする(ステップS15〜
ステップS16)。確率p[i]の値が最も低いビット
位置が複数存在する場合には、それらの中から任意のビ
ット位置を選んで良い。
In the flowchart of FIG.
Each bit position of the 0-bit signature (i = 1 to 10)
Are initialized to "0" (steps S11 to S13). And
A partial character string having the highest appearance probability x is selected from the statistical information database 7 (step S14), and the bit position to be set to “1” in the 10-bit signature of the partial character string at that time is determined by the 10-bit signature. Probability p that will be "1" for each bit position (i = 1 to 10)
[I] is the lowest bit position (steps S15 to S15).
Step S16). When there are a plurality of bit positions having the lowest value of the probability p [i], an arbitrary bit position may be selected from them.

【0052】そして、この割り当てられたシグネチャの
ビット位置jにおける「1」となる確率p[j]に、そ
の部分文字列の出現確率xを加算する(ステップS1
7)。次に、2番めの出現確率を持つ部分文字列を選
び、先と同様に、その部分文字列に対するシグネチャ1
0ビット中の「1」にするビット位置を、その時点で1
0ビットのシグネチャの各ビット位置(i=1〜10)
について「1」となる確率p[i]が最も低いビット位
置に割り当て、そのビット位置における「1」となる確
率p[j]に、その部分文字列の出現確率xを加算す
る。以下同様にして、部分文字列統計データベース7か
ら順次部分文字列を取り出し、それに対して、p[i]
の値が最も低いシグネチャのビット位置を割り当てて行
くということを、全ての部分文字列に対して繰り返し
(ステップS18)、その結果作成された新たなシグネ
チャをシグネチャ作成用データベース6に格納し、部分
文字列に対し割り当てられたシグネチャを更新する。
Then, the occurrence probability x of the partial character string is added to the probability p [j] of "1" at the bit position j of the assigned signature (step S1).
7). Next, a partial character string having the second occurrence probability is selected, and the signature 1 for the partial character string is selected as described above.
The bit position to be set to “1” in the 0 bit is set to 1 at that time.
Each bit position of the 0-bit signature (i = 1 to 10)
Is assigned to the bit position having the lowest probability p [i] of "1", and the occurrence probability x of the partial character string is added to the probability p [j] of "1" at that bit position. Similarly, in the same manner, partial character strings are sequentially extracted from the partial character string statistical database 7, and p [i]
Is repeated for all partial character strings (step S18), and a new signature created as a result is stored in the signature creation database 6, and Update the signature assigned to a string.

【0053】このようにして、各部分文字列ごとにシグ
ネチャの10ビットのうちの1ビットを「1」にする位
置を決定すれば良いのであるが、これを例えばユーザが
指定するタイミングで行うことにより、情報検索装置の
性能を自動的に向上させることができる。
In this way, the position where one of the 10 bits of the signature is set to "1" may be determined for each partial character string. This may be performed, for example, at the timing designated by the user. Thereby, the performance of the information search device can be automatically improved.

【0054】汎用的な情報検索装置においては、どのよ
うなレコードデータが与えられるかを事前に予測するこ
とが困難である。従って、初期状態のシグネチャ作成用
データベース6としては、既存のものを用いて、シグネ
チャ作成部9にてシグネチャを作成することにする。こ
のときには、実際に入力部1を介して入力されるレコー
ドデータとは部分文字列の出現確率が異なるため、フォ
ルスドロップ率は大きくなる可能性がある。しかし、マ
スターデータベース5に格納されるデータが少量である
間は、たとえフォルスドロップが大きくても検索時間オ
ーバーヘッドが問題とはならない。
In a general-purpose information retrieval apparatus, it is difficult to predict in advance what kind of record data is given. Therefore, the signature creation unit 9 creates a signature using an existing signature creation database 6 in the initial state. At this time, since the appearance probability of the partial character string is different from the record data actually input via the input unit 1, the false drop rate may increase. However, as long as the data stored in the master database 5 is small, the search time overhead does not matter even if the false drop is large.

【0055】マスターデータベース5へのデータの追加
が継続されデータベースが大きくなるにつれ、フォルス
ドロップ数も増大するようになり検索速度低下が問題と
なり始める。そのとき、シグネチャ作成用データベース
更新部11で、それまでのデータ追加で統計情報データ
ベース7に収集された部分文字列の統計情報データを利
用して、図9に示したフローチャートに従って部分文字
列に対するシグネチャを作成し直し、シグネチャ作成用
データベース6を更新する。
As the addition of data to the master database 5 is continued and the size of the database is increased, the number of false drops is increased, and the problem of a decrease in search speed starts to be a problem. At this time, the signature creation database updating unit 11 uses the statistical information data of the partial character string collected in the statistical information database 7 in the data addition up to that time and uses the signature for the partial character string in accordance with the flowchart shown in FIG. Is created again, and the signature creation database 6 is updated.

【0056】シグネチャ作成用データベース更新部11
は、シグネチャ作成用データベース6を更新すると、こ
の更新されたシグネチャ作成用データベース6を用い
て、それまでにシグネチャ格納データベース8に格納さ
れている全てのレコードのシグネチャをシグネチャ作成
部9の説明と同様にして作成し直す。シグネチャ格納デ
ータベース8では、作成し直されたシグネチャは、古い
シグネチャと置き換えられるため、この手続きによりシ
グネチャ格納データベース8のサイズが増加することは
ない。
The signature creation database update unit 11
Updates the signature creation database 6 and uses the updated signature creation database 6 to update the signatures of all records stored in the signature storage database 8 so far in the same manner as the description of the signature creation unit 9. And recreate. In the signature storage database 8, the re-created signature is replaced with the old signature, so that the procedure does not increase the size of the signature storage database 8.

【0057】次に、情報検索時のデータの流れに沿って
図3の各構成部について説明する。入力部1を介して入
力された検索指示要求に含まれる検索情報から、質問式
処理部2で検索条件となり得るテキスト情報が抽出され
る。
Next, each component in FIG. 3 will be described along the flow of data at the time of information retrieval. From the search information included in the search instruction request input via the input unit 1, text information that can be a search condition is extracted by the question formula processing unit 2.

【0058】質問式処理部2は、検索条件となり得るテ
キスト情報を含む検索情報を入力部1を介して入力する
ようユーザとの対話形式にてユーザに促すようになって
いる。
The question formula processing unit 2 prompts the user to input search information including text information that can be a search condition via the input unit 1 in an interactive manner with the user.

【0059】質問式処理部2で抽出された、検索条件と
してのテキスト情報はキーワード切り出し部3、続いて
部分文字列切り出し部4に入力され、情報記憶時の場合
と同様、キーワードの切り出し、部分文字列の切り出し
が行われる。
The text information extracted as a search condition by the question formula processing unit 2 is input to the keyword extracting unit 3 and subsequently to the partial character string extracting unit 4, and the keyword extracting and partial extracting are performed as in the case of storing information. The character string is cut out.

【0060】シグネチャ作成部9では、情報記憶時の場
合に用いたのと同じシグネチャ作成用データベース6を
用いて、与えられた検索条件としてのテキスト情報中の
キーワードの部分文字列に対するシグネチャの作成を行
う。
The signature creation unit 9 creates a signature for a partial character string of a keyword in text information as a given search condition, using the same signature creation database 6 used in the case of storing information. Do.

【0061】次に、シグネチャ比較装置10では、シグ
ネチャ作成部9で作成された検索条件のシグネチャとシ
グネチャ格納データベース8に格納されているシグネチ
ャとを比較し、双方の一致するレコードが存在する場合
は、そのレコードの識別子を読み出して、2次検索部1
2に転送する。
Next, the signature comparison device 10 compares the signature of the search condition created by the signature creation section 9 with the signature stored in the signature storage database 8, and if there is a record that matches both of them. , The identifier of the record is read, and the secondary search unit 1
Transfer to 2.

【0062】2次検索部12は、レコードの識別子をキ
ーとしてマスターデータベース5からレコードの実デー
タを取り出し、フォルスドロップ除去を行った後、出力
部13を介して出力する。
The secondary search unit 12 retrieves the actual data of the record from the master database 5 using the record identifier as a key, removes the false drop, and outputs it via the output unit 13.

【0063】出力部13は、例えば、プリンタ装置、デ
ィスプレイ装置、スピーカ装置等から構成されている。
以上説明したように、上記実施形態によれば、部分文字
列切り出し部4で入力された情報(レコード)中のキー
ワードを部分文字列に分割し、その際、その部分文字列
のキーワード中での出現頻度を計数して統計情報データ
ベース7に格納しておく。シグネチャ作成部7におい
て、シグネチャ作成用データベースに格納されている該
部分文字列に割り当てられたビット列(部分文字列のシ
グネチャ)に基づき前記入力された情報に対するビット
列(シグネチャ)を生成したら、そのビット列を前記入
力された情報に対応付けて、それぞれシグネチャ格納デ
ータベース8、マスターデータベース5に記憶する。情
報検索の際には、シグネチャ作成部9で、入力部1を介
して入力された検索情報に対するビット列を生成して、
それとシグネチャ格納データベース8に記憶されたビッ
ト列とを照合して情報を検索する。シグネチャ作成用デ
ータベース更新部11は、統計情報データベース7に格
納されている前記部分文字列のキーワード中での出現頻
度に基づき該部分文字列に予め定められた長さのビット
列を割り当て、それに伴いシグネチャ格納データベース
8に格納されているシグネチャを更新することにより、
一般的なキーワード出現頻度とは異なる特殊なキーワー
ド出現頻度を持つテキストデータベースに対しても、テ
キスト中に現れるキーワード数、各キーワードの出現頻
度のばらつきに応じてフォルスドロップの発生を抑制で
きる。また、キーワード中の部分文字列(例えば2文
字)とそのキーワード中の出現位置との組み合わせに対
し、シグネチャを割り当てるので前方一致検索を行う際
には記憶領域のオーバーヘッドを押さえることができ、
高速な情報検索が行える。
The output unit 13 includes, for example, a printer device, a display device, a speaker device, and the like.
As described above, according to the above-described embodiment, the keyword in the information (record) input by the partial character string cutout unit 4 is divided into partial character strings. The appearance frequency is counted and stored in the statistical information database 7. When the signature generation unit 7 generates a bit string (signature) for the input information based on the bit string (signature of the partial character string) allocated to the partial character string stored in the signature generation database, the bit string is generated. The information is stored in the signature storage database 8 and the master database 5 in association with the input information. At the time of information search, the signature creation unit 9 generates a bit string for the search information input via the input unit 1,
The information is searched for by collating it with the bit string stored in the signature storage database 8. The signature creation database update unit 11 assigns a bit string of a predetermined length to the partial character string based on the frequency of occurrence of the partial character string stored in the statistical information database 7 in the keyword, and accordingly, the signature By updating the signature stored in the storage database 8,
Even for a text database having a special keyword appearance frequency different from a general keyword appearance frequency, the occurrence of a false drop can be suppressed in accordance with the number of keywords appearing in the text and variations in the appearance frequency of each keyword. In addition, since a signature is assigned to a combination of a partial character string (for example, two characters) in a keyword and an appearance position in the keyword, overhead of a storage area can be suppressed when performing a forward match search,
High-speed information retrieval can be performed.

【0064】なお、上記実施形態で説明した質問式処理
部2、キーワード切り出し部3、部分文字列切り出し部
4、シグネチャ作成部9、シグネチャ比較部10、シグ
ネチャ作成用データベース更新部11、2次検索部12
の処理動作は、コンピュータに実行させることのできる
プログラムとして磁気ディスク(フロッピーディスク、
ハードディスク等)、光ディスク(CD−ROM、DV
D等)、半導体メモリなどの記録媒体に格納して頒布す
ることもできる。
It should be noted that the question formula processing unit 2, the keyword extraction unit 3, the partial character string extraction unit 4, the signature creation unit 9, the signature comparison unit 10, the signature creation database update unit 11, and the secondary search described in the above embodiment. Part 12
The processing operation of the magnetic disk (floppy disk,
Hard disk, etc.), optical disk (CD-ROM, DV)
D, etc.), and can be stored in a recording medium such as a semiconductor memory and distributed.

【0065】[0065]

【発明の効果】以上説明したように、本発明によれば、
テキスト中のキーワードの出現頻度に応じて、シグネチ
ャを用いた情報検索を行う際のフォルスドロップの発生
を抑制でき、記憶領域のオーバーヘッドを抑え、高速に
前方一致検索が行える。
As described above, according to the present invention,
According to the frequency of appearance of the keyword in the text, it is possible to suppress the occurrence of a false drop when performing the information search using the signature, to suppress the overhead of the storage area, and to perform the forward match search at high speed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】情報検索にシグネチャについて説明するための
図。
FIG. 1 is an exemplary view for explaining a signature in an information search;

【図2】シグネチャを用いた情報検索方法について説明
するための図。
FIG. 2 is a diagram for explaining an information search method using a signature.

【図3】本発明の実施形態に係る情報検索装置の構成例
を示した図。
FIG. 3 is a diagram showing a configuration example of an information search device according to an embodiment of the present invention.

【図4】レコードデータの一具体例を示した図。FIG. 4 is a diagram showing a specific example of record data.

【図5】図4のレコードから切り出されたキーワードの
一例を示した図。
FIG. 5 is a view showing an example of a keyword cut out from the record of FIG. 4;

【図6】図5のキーワードから切り出された部分文字列
の一例を示した図。
FIG. 6 is a view showing an example of a partial character string cut out from the keyword in FIG. 5;

【図7】図3の部分文字切り出し部の処理動作について
説明するためのフローチャート。
FIG. 7 is a flowchart for explaining a processing operation of a partial character cutout unit in FIG. 3;

【図8】図3のシグネチャ作成部でキーワードのシグネ
チャを作成する手順を説明するための図。
FIG. 8 is an exemplary view for explaining a procedure for creating a signature of a keyword by the signature creating unit in FIG. 3;

【図9】図3のシグネチャ作成用データベース更新部の
処理動作を説明するためのフローチャート。
FIG. 9 is a flowchart for explaining the processing operation of the signature creation database update unit in FIG. 3;

【符号の説明】[Explanation of symbols]

1…入力部 2…質問式処理部 3…キーワード切り出し部 4…部分文字列切り出し部 5…マスターデータベース 6…シグネチャ作成用データベース 7…統計情報データベース 8…シグネチャ格納データベース 9…シグネチャ作成部 10…シグネチャ比較部 11…シグネチャ作成用データベース更新部 12…2次検索部 13…出力部 DESCRIPTION OF SYMBOLS 1 ... Input part 2 ... Question formula processing part 3 ... Keyword extraction part 4 ... Partial character string extraction part 5 ... Master database 6 ... Database for signature creation 7 ... Statistical information database 8 ... Signature storage database 9 ... Signature creation part 10 ... Signature Comparison unit 11: Signature update database update unit 12: Secondary search unit 13: Output unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 入力された情報中のキーワードから部分
文字列を切り出し、この切り出された部分文字列のキー
ワード中での出現頻度に基づき前記部分文字列に割り当
てられた予め定められた長さのビット列を用いて前記入
力された情報に対する第1のシグネチャを生成し、前記
入力された情報を前記生成された第1のシグネチャと対
応付けて記憶してデータベースを作成することを特徴と
するデータベース作成方法。
1. A partial character string is cut out from a keyword in input information, and a predetermined length of a predetermined length assigned to the partial character string is determined based on the frequency of appearance of the cut out partial character string in the keyword. Generating a first signature for the input information using a bit string and storing the input information in association with the generated first signature to create a database; Method.
【請求項2】 情報とそれに対応する第1のシグネチャ
とが対応付けられて記憶されたデータベースの検索方法
であって、 入力された検索情報中のキーワードから部分文字列を切
り出し、この切り出された各部分文字列についてその部
分文字列のキーワード中での出現頻度に基づいて予め割
り当てられたビット列を用いて前記検索情報に対応する
第2のシグネチャを生成し、この生成された第2のシグ
ネチャと前記データベース内の第1のシグネチャとを照
合することにより、前記検索情報に関連する情報を前記
データベースから検索することを特徴とする情報検索方
法。
2. A method for searching a database in which information and a first signature corresponding to the information are stored in association with each other, wherein a partial character string is cut out from a keyword in the input search information. For each partial character string, a second signature corresponding to the search information is generated using a bit string assigned in advance based on the frequency of occurrence of the partial character string in the keyword, and the generated second signature and An information search method, wherein information related to the search information is searched from the database by matching the signature with a first signature in the database.
【請求項3】 入力された情報中のキーワードから部分
文字列を切り出し、この切り出された部分文字列のキー
ワード中での出現頻度に基づき前記部分文字列に割り当
てられた予め定められた長さのビット列を用いて前記入
力された情報に対する第1のシグネチャを生成し、前記
入力された情報を前記生成された第1のシグネチャと対
応付けて記憶してデータベースを作成し、情報検索の際
には、入力された検索情報中のキーワードから部分文字
列を切り出し、この切り出された各部分文字列について
その部分文字列のキーワード中での出現頻度に基づいて
予め割り当てられたビット列を用いて前記検索情報に対
応する第2のシグネチャを生成し、この生成された第2
のシグネチャと前記データベース内の第1のシグネチャ
とを照合することにより、前記検索情報に関連する情報
を前記データベースから検索することを特徴とする情報
検索方法。
3. A partial character string is cut out from a keyword in input information, and a predetermined length of a predetermined length assigned to the partial character string is determined based on an appearance frequency of the cut out partial character string in the keyword. A first signature for the input information is generated using a bit string, the input information is stored in association with the generated first signature, and a database is created. A partial character string is cut out from the keyword in the input search information, and the search information is extracted by using a bit string assigned in advance based on the frequency of appearance of the cut out partial character string in the keyword. And generate a second signature corresponding to the generated second signature.
An information search method, wherein information related to the search information is searched from the database by matching the signature of (1) with a first signature in the database.
【請求項4】 入力された情報中のキーワードから部分
文字列を切り出す切出手段と、 この切り出し手段で切り出された部分文字列の出現頻度
に基づき前記部分文字列に予め定められた長さのビット
列を割り当てる割当手段と、 前記部分文字列に割り当てられたビット列を用いて前記
入力された情報に対する第1のシグネチャを生成する生
成手段と、 前記入力された情報を前記生成手段で生成された第1の
シグネチャと対応付けて記憶してデータベースを作成す
る手段と、 入力された検索情報中のキーワードから部分文字列を切
り出し、この切り出された各部分文字列について前記生
成手段で生成されたビット列を用いて、該検索情報に対
応する第2のシグネチャを生成し、この生成された第2
のシグネチャと前記データベース内の第1のシグネチャ
とを照合することにより、前記検索情報に関連する情報
を前記データベースから検索する検索手段と、 を具備したことを特徴とする情報検索装置。
4. A extracting means for extracting a partial character string from a keyword in input information, and a predetermined length of the partial character string based on an appearance frequency of the partial character string extracted by the extracting means. Allocating means for allocating a bit string; generating means for generating a first signature for the input information by using the bit string allocated to the partial character string; and a generating means for generating the input information by the generating means. Means for creating a database by associating them with the signature of No. 1 and extracting a partial character string from a keyword in the input search information, and extracting a bit string generated by the generating means for each of the extracted partial character strings. And generating a second signature corresponding to the search information using the generated second signature.
A search unit that searches the database for information related to the search information by comparing the signature of the search with a first signature in the database.
【請求項5】 入力された情報中のキーワードから部分
文字列を切り出す切出手段と、 この切り出し手段で切り出された部分文字列の出現頻度
に基づき前記部分文字列に予め定められた長さのビット
列を割り当てる割当手段と、 前記部分文字列に割り当てられたビット列を用いて前記
入力された情報に対する第1のシグネチャを生成する生
成手段と、 前記入力された情報を前記生成手段で生成された第1の
シグネチャと対応付けて記憶してデータベースを作成す
る手段と、 を実行するプログラムを記録した機械読み取り可能な記
録媒体。
5. A extracting means for extracting a partial character string from a keyword in input information, and a predetermined length of said partial character string based on an appearance frequency of the partial character string extracted by said extracting means. Allocating means for allocating a bit string; generating means for generating a first signature for the input information by using the bit string allocated to the partial character string; and a generating means for generating the input information by the generating means. Means for creating a database by storing the program in association with one signature, and a machine-readable recording medium recording a program for executing the program.
【請求項6】 入力された情報中のキーワードから部分
文字列を切り出す切出手段と、 この切り出し手段で切り出された部分文字列の出現頻度
に基づき前記部分文字列に予め定められた長さのビット
列を割り当てる割当手段と、 前記部分文字列に割り当てられたビット列を用いて前記
入力された情報に対する第1のシグネチャを生成する生
成手段と、 前記入力された情報を前記生成手段で生成された第1の
シグネチャと対応付けて記憶してデータベースを作成す
る手段と、 入力された検索情報中のキーワードから部分文字列を切
り出し、この切り出された各部分文字列について前記生
成手段で生成されたビット列を用いて、該検索情報に対
応する第2のシグネチャを生成し、この生成された第2
のシグネチャと前記データベース内の第1のシグネチャ
とを照合することにより、前記検索情報に関連する情報
を前記データベースから検索する検索手段と、 を実行するプログラムを記録した機械読み取り可能な記
録媒体。
6. A extracting means for extracting a partial character string from a keyword in input information, and a predetermined length of the partial character string based on an appearance frequency of the partial character string extracted by the extracting means. Allocating means for allocating a bit string; generating means for generating a first signature for the input information by using the bit string allocated to the partial character string; and a generating means for generating the input information by the generating means. Means for creating a database by associating them with the signature of No. 1 and extracting a partial character string from a keyword in the input search information, and extracting a bit string generated by the generating means for each of the extracted partial character strings. And generating a second signature corresponding to the search information using the generated second signature.
A search unit for searching the database for information related to the search information by matching the signature of the first signature with the first signature in the database; and a machine-readable recording medium recording a program for executing the following.
JP9252354A 1997-09-17 1997-09-17 Database creation method, information search method, information search device, and recording medium Pending JPH1196170A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9252354A JPH1196170A (en) 1997-09-17 1997-09-17 Database creation method, information search method, information search device, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9252354A JPH1196170A (en) 1997-09-17 1997-09-17 Database creation method, information search method, information search device, and recording medium

Publications (1)

Publication Number Publication Date
JPH1196170A true JPH1196170A (en) 1999-04-09

Family

ID=17236132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9252354A Pending JPH1196170A (en) 1997-09-17 1997-09-17 Database creation method, information search method, information search device, and recording medium

Country Status (1)

Country Link
JP (1) JPH1196170A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100319761B1 (en) * 2000-01-21 2002-01-05 오길록 Frame-partitioned parallel processing method for database retrieval using signature file
JP2010267108A (en) * 2009-05-15 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents
CN102893265A (en) * 2010-03-10 2013-01-23 起元技术有限责任公司 Managing storage of individually accessible data units
US8949189B2 (en) 2006-11-01 2015-02-03 Ab Initio Technology Llc Managing storage of individually accessible data units
US9811570B2 (en) 2011-07-08 2017-11-07 Ab Initio Technology Llc Managing storage of data for range-based searching

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100319761B1 (en) * 2000-01-21 2002-01-05 오길록 Frame-partitioned parallel processing method for database retrieval using signature file
US8949189B2 (en) 2006-11-01 2015-02-03 Ab Initio Technology Llc Managing storage of individually accessible data units
JP2010267108A (en) * 2009-05-15 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents
CN102893265A (en) * 2010-03-10 2013-01-23 起元技术有限责任公司 Managing storage of individually accessible data units
JP2013522715A (en) * 2010-03-10 2013-06-13 アビニシオ テクノロジー エルエルシー Managing storage of individually accessible data units
US9811570B2 (en) 2011-07-08 2017-11-07 Ab Initio Technology Llc Managing storage of data for range-based searching

Similar Documents

Publication Publication Date Title
US9619565B1 (en) Generating content snippets using a tokenspace repository
US9424294B2 (en) Method for facet searching and search suggestions
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
Gao et al. Toward a unified approach to statistical language modeling for Chinese
US8756207B2 (en) Systems and methods for identifying potential duplicate entries in a database
US8407239B2 (en) Multi-stage query processing system and method for use with tokenspace repository
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
US7739220B2 (en) Context snippet generation for book search system
US8280721B2 (en) Efficiently representing word sense probabilities
WO2001037126A2 (en) A system and method for joint optimization of language model performance and size
JP2002520712A (en) Data retrieval system and method and its use in search engines
US8266150B1 (en) Scalable document signature search engine
WO2012151255A1 (en) Statistical spell checker
US9223833B2 (en) Method for in-loop human validation of disambiguated features
CN114385777A (en) Text data processing method and device, computer equipment and storage medium
JPH1196170A (en) Database creation method, information search method, information search device, and recording medium
JP3081093B2 (en) Index creation method and apparatus and document search apparatus
JP2002183194A (en) Search expression generating apparatus and method
JP4091586B2 (en) Structured document management system, index construction method and program
KR20060043583A (en) Method and system for compressing log of language data
JPH10177575A (en) Term extraction apparatus and method, information storage medium
US20050102278A1 (en) Expanded search keywords
JPH07325837A (en) Abstract: Communication word search device using abstract words and communication text search method using abstract words
JPH11175564A (en) Document retrieving system