JP2005339150A - Document search device - Google Patents
Document search device Download PDFInfo
- Publication number
- JP2005339150A JP2005339150A JP2004156399A JP2004156399A JP2005339150A JP 2005339150 A JP2005339150 A JP 2005339150A JP 2004156399 A JP2004156399 A JP 2004156399A JP 2004156399 A JP2004156399 A JP 2004156399A JP 2005339150 A JP2005339150 A JP 2005339150A
- Authority
- JP
- Japan
- Prior art keywords
- condition
- keyword
- document
- keyword set
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
       【課題】  種々の検索条件に対して検索時間の短縮化を図ることのできる文書検索装置を得る。
【解決手段】  複数のキーワード集合の近傍条件の検索指示があった場合、検索処理実行部105の近傍条件判定部108は、複数のキーワード集合の文書中での出現位置をキーワード集合照合部107から取得する。次に、取得した出現位置が、指示された所定の近傍条件を満たすか否かを判定する。この出現位置の取得処理と近傍条件判定処理とを交互に実行し、近傍条件判定部108で近傍条件が真と判定された場合、その時点で判定結果を検索結果として出力する。
【選択図】        図1PROBLEM TO BE SOLVED: To obtain a document search apparatus capable of shortening a search time for various search conditions. 
 When there are search instructions for neighborhood conditions of a plurality of keyword sets, a neighborhood condition determination unit of a search processing execution unit 105 determines the appearance positions in the document of the plurality of keyword sets from the keyword set collation unit 107. get. Next, it is determined whether or not the acquired appearance position satisfies the specified predetermined neighborhood condition. The appearance position acquisition process and the neighborhood condition determination process are alternately executed, and when the neighborhood condition determination unit 108 determines that the vicinity condition is true, the determination result is output as a search result at that time. 
 [Selection] Figure 1
    
Description
この発明は、キーワード集合に対して、所定の検索条件に一致した文書を出力する文書検索装置に関するものである。 The present invention relates to a document search apparatus that outputs a document that matches a predetermined search condition for a keyword set.
         
  従来、文書検索装置としては、例えば、特許文献1に示すように、キーワードの文書中での出現位置情報の無駄なデータ転送を削減し、複合条件判定の判定を高速化するようにしたものがあった。ここで、複合条件とは、近傍条件、範囲条件、属性条件、文脈条件およびそれらの論理条件のことである。
  Conventionally, as a document search apparatus, for example, as shown in 
        
           
  しかしながら、特許文献1に記載された従来の文書検索装置は、キーワードの文書中での出現位置情報のデータ転送を効率化し、複合条件判定の判定を高速化するものであるが、例えば、近傍条件を判定する場合では、二つ以上のキーワードの出現位置を総当りで判定するしかなく、従って、キーワードの文書中での出現位置が増えるに従って、判定に要する計算量が膨大になるという課題があった。
  However, the conventional document search device described in 
この発明は上記のような課題を解決するためになされたもので、種々の検索条件に対しても検索時間の短縮化を図ることのできる文書検索装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a document search apparatus capable of shortening the search time even for various search conditions.
この発明に係る文書検索装置は、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得する処理と、複数のキーワード集合の出現位置が、所定の近傍条件を満たすか否かを判定する近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたものである。 The document search device according to the present invention obtains the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and whether the appearance positions of the plurality of keyword sets satisfy a predetermined neighborhood condition. And a proximity process determination unit that alternately executes a proximity condition determination process that determines whether or not, and outputs the determination result as a search result when the proximity condition is determined to be true.
この発明の文書検索装置は、キーワード集合照合部における出現位置の取得処理と、近傍条件判定部における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力するようにしたので、近傍条件が満たされた時点で検索結果を出すことができ、従って、キーワードの数や文書中のキーワードの出現位置が多い場合でも検索時間の短縮化を図ることができる。 The document search apparatus according to the present invention alternately executes the appearance position acquisition process in the keyword set matching unit and the neighborhood condition determination process in the neighborhood condition determination unit, and the determination result is obtained when the neighborhood condition is determined to be true. Since the search result is output, the search result can be output when the neighborhood condition is satisfied. Therefore, even when the number of keywords and the appearance positions of the keywords in the document are large, the search time can be shortened. be able to.
         
実施の形態1.
  図1は、この発明の実施の形態1による文書検索装置を示す構成図である。
  この文書検索装置は、1件以上の文書を蓄積したデーターベースから、検索条件に指定された近傍条件に適合した文書を出力する文書検索装置である。
 FIG. 1 is a block diagram showing a document search apparatus according to 
 This document search apparatus is a document search apparatus that outputs a document that meets a proximity condition specified as a search condition from a database that stores one or more documents.
      
         
  図において、文書検索装置は、検索条件入力部103、検索条件解析部104、検索処理実行部105、検索結果出力部106、キーワード集合照合部107、近傍条件判定部108、キーワード照合部109、データベース110、文書索引111からなる。
  In the figure, a document search apparatus includes a search 
         
  検索条件入力部103は、検索ユーザからの検索条件101の入力を受け付ける機能部である。検索条件101には、検索の対象とする二つ以上のキーワード集合の情報と、そのキーワード集合間の近傍条件などが指定されている。検索条件解析部104は、検索条件入力部103から入力された検索条件を解析し、例えば所定の近傍条件検索といった検索の実行プランを生成する機能部である。検索処理実行部105は、検索条件解析部104より出力された検索実行プランに従って検索処理を実行する機能部である。検索結果出力部106は、検索処理実行部105で得られた検索結果102を検索のユーザに対して出力する機能部である。
  The search 
         
  検索処理実行部105は、キーワード集合照合部107と、近傍条件判定部108を備えている。キーワード集合照合部107は、キーワード照合部109を繰り返し呼び出すことで、検索条件に指定されたキーワード集合に含まれるキーワードの、文書中での出現位置を取得する機能を有している。キーワード照合部109は、データベース110に蓄積された文書索引111を参照しながら、キーワードの文書中での出現位置を取得する機能を有している。また、近傍条件判定部108は、キーワード集合照合部107から出力された、二つ以上のキーワード集合の文書中で出現位置の情報を元に、検索条件に指定された近傍条件を判定する機能を有している。即ち、検索処理実行部105は、キーワード集合照合部107における出現位置の取得処理と、近傍条件判定部108における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力するよう構成されている。
  The search 
         
  尚、上記の文書検索装置はコンピュータで実現され、検索条件解析部104および検索処理実行部105は、それぞれの機能に対応したソフトウェアと、これらのソフトウェアを実行するためのCPUやメモリ等のハードウェアから構成されている。
  Note that the document search device described above is realized by a computer, and the search 
キーワード集合とは、一つ以上のキーワードを含む集合である。キーワードを一つも含まないキーワード集合は、そもそも文書中での出現位置が存在しないため、ここでは考慮しない。 A keyword set is a set including one or more keywords. A keyword set that does not contain any keywords does not have any appearance position in the document, and is not considered here.
あるキーワードkと同じ文字の並びが文書D中に存在するとき、キーワードkは文書D中に出現するという。キーワードkが文書D中に出現するとき、キーワードkの出現位置を、文書Dの先頭の文字からキーワードkの先頭の文字までの文字数で表わす。キーワードkは、文書D中に0回以上出現するため、キーワードkはkのD中での出現位置の集合とみなすこともできる。 The keyword k appears in the document D when the same character sequence as the keyword k exists in the document D. When the keyword k appears in the document D, the appearance position of the keyword k is represented by the number of characters from the first character of the document D to the first character of the keyword k. Since the keyword k appears 0 or more times in the document D, the keyword k can also be regarded as a set of appearance positions in D of k.
         
  図2は、文書とキーワードとの関係を示す説明図である。
  キーワードkの文書D中の出現位置の集合をkDと表わす。図2の例では、キーワードk=“キーワード”のとき、文書201中でのkの出現位置は、図中の202に示すようにkD={1,18,35}である。キーワードkの文字数を、キーワード長といい、LEN(k)と表わす。キーワードkの文書D中の出現位置を一つ取得する処理をSTRD(k)と表わす。また、kの末尾の文字の位置をENDD(k)と表わす。STRD(k)と、ENDD(k)の関係を以下に示す。
 A set of appearance position in the document D of keyword k represents a k D. In the example of FIG. 2, when the keyword k = “keyword”, the appearance position of k in the 
 
         
  二つのキーワードk1とk2(STRD(k1)<STRD(k2)とする)があるとき、このキーワード間の距離を、キーワードk1の末尾の文字とキーワードk2の先頭の文字の間の文字数で表わし、DISTD(k1,k2)と表わす。DISTD(k1,k2)を以下のように定義する。
 
         
  キーワード集合をSとすると、S={k1,k2,…,kn}(n≧1)である。キーワード集合Sの文書D中での出現位置を、S中のキーワードki(i=1〜n)の出現位置とする。SDをキーワード集合Sの文書中での出現位置の集合とすると、SD=k1 D∪k2 D∪…∪kn Dとなる。図2の例では、キーワード集合をS={“キーワード”,“出現”}としたとき、図2の203に示したようにSD={1,9,18,35,43}である。キーワード集合の文書中での出現位置の中で最も値の小さいものをSの最初の出現位置と呼ぶこととする。また、直前に取得したキーワード集合の出現位置以降で、文書中での最初の出現位置をキーワード集合の次の出現位置と呼ぶ。図2の例では、キーワード集合Sの最初の出現位置は1である。キーワード集合Sのその次の出現位置は9である。
  二つのキーワード集合間の距離は、その二つのキーワード集合に含まれるキーワード間の距離によって定義する。
When the keyword set is S, S = {k 1 , k 2 ,..., K n } (n ≧ 1). The appearance position of the keyword set S in the document D is defined as the appearance position of the keyword k i (i = 1 to n) in S. When S D is a set of appearance positions in the document of the keyword set S, S D = k 1 D ∪k 2 D ∪... ∪k n D. In the example of FIG. 2, when the keyword set is S = {“keyword”, “appearance”}, S D = {1, 9, 18, 35, 43} as shown by 203 in FIG. The smallest appearance value in the keyword set in the document is called the first appearance position of S. Also, the first appearance position in the document after the appearance position of the keyword set acquired immediately before is called the next appearance position of the keyword set. In the example of FIG. 2, the first appearance position of the keyword set S is 1. The next appearance position of the keyword set S is nine. 
 The distance between two keyword sets is defined by the distance between keywords included in the two keyword sets.
      
近傍条件とは、二つ以上のキーワード集合間の距離によって真偽を判定する検索条件である。 The neighborhood condition is a search condition for determining authenticity based on a distance between two or more keyword sets.
         
  図3は、本発明の文書検索装置における検索処理の流れ図である。
  先ず、ステップST301で、検索条件入力部103に検索条件101が入力されると、ステップST302で、検索条件解析部104により検索実行プランが生成される。次に、検索処理実行部105で、データベース110に蓄積された文書を1件ずつ、近傍条件に適合するか判定する。
FIG. 3 is a flowchart of search processing in the document search apparatus of the present invention. 
 First, when the search condition 101 is input to the search 
         
  先ず、ステップST303で、一つの文書が近傍条件に適合するか判定する。近傍条件に適合していたら(YES)、その文書を検索結果に追加する(ステップST304)。検索結果は、文書の識別子のみを保持しても良いし、他に付加的な情報を保持しても良い。検索結果に文書を追加したら、その次の文書に対してステップST303の近傍条件判定を実施する。ステップST303で、文書が近傍条件に適合していなければ(NO)、文書を検索結果に追加せずに、次の文書に対して近傍条件判定を実施する(ステップST303)。この様にして、全ての文書に対して1回ずつ近傍条件を判定し終えたら、ステップST305で、検索結果出力部106より検索結果102を出力する。
  First, in step ST303, it is determined whether one document meets the neighborhood condition. If the neighborhood condition is met (YES), the document is added to the search result (step ST304). The search result may hold only the document identifier or may hold additional information. When a document is added to the search result, the neighborhood condition determination in step ST303 is performed on the next document. If the document does not conform to the neighborhood condition in step ST303 (NO), the neighborhood condition is determined for the next document without adding the document to the search result (step ST303). In this way, when the neighborhood condition is determined once for all the documents, the search 
         
  図4は、図1の検索処理実行部105の処理(図3のステップST303)の流れ図である。
  ここでは、キーワード集合S1〜Snの近傍条件を判定するものとする。先ず、近傍条件判定部108は、キーワード集合照合部107から、各キーワード集合S1〜Snの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1〜knを取得する(ステップST401)。ここで取得する情報は、キーワード集合の出現位置とキーワードの長さであっても良い。
FIG. 4 is a flowchart of the process (step ST303 in FIG. 3) of the search 
 Here, it is assumed to determine the neighborhood condition of keyword set S 1 to S n. First, neighborhood 
         
  キーワード集合照合部107は、キーワード集合の出現位置取得要求がある度に、キーワード照合部109を呼び出しながら、文書の先頭から一つずつ順にキーワード集合の出現位置と、その位置のキーワード、もしくはキーワード長を出力する。
  The keyword 
         
  次に、近傍条件判定部108は、ステップST402で、取得したキーワード集合の位置が近傍条件に適合するか否かを判定する。ステップST402において、判定対象の文書が近傍条件に適合していれば(YES)、ステップST406に移行し、「適合した」を出力して判定処理を終了する。一方、ステップST402でキーワード集合の出現位置が近傍条件に適合していなければ(NO)、ステップST403に移行して、近傍条件を満たさなかったキーワード集合Si(i=1〜n)の文書中での次の出現位置を取得する。
Next, the neighborhood 
ステップST404では、ステップST403でキーワード集合の次の出現位置が取得できたかどうか判定し、取得できていた場合は(YES)、ステップST402に戻って、それらの出現位置が近傍条件に適合するか否かを判定する。ステップST404でキーワード集合の次の出現位置が取得できていなければ(NO)、その判定対象の文書中に、近傍条件に適合する出現位置はないということなので、ステップST405で「適合しない」を出力して終了する。 In step ST404, it is determined whether or not the next appearance position of the keyword set has been acquired in step ST403. If it has been acquired (YES), the process returns to step ST402, and whether or not these appearance positions meet the neighborhood condition. Determine whether. If the next appearance position of the keyword set has not been acquired in step ST404 (NO), it means that there is no appearance position that matches the neighborhood condition in the document to be determined, so that “not compatible” is output in step ST405. And exit.
         
  キーワード照合部109は、データベース110に記録された文書索引111を参照しながら、キーワードの文書中での出現位置を出力する。ここで、データベース110に記録されている文書索引111は、n−gram索引やサフィックスアレイといった、文字列とその文書中での出現位置を記録した索引でも良いし、キーワード照合部109が判定対象の文書を直接走査することで、キーワードの文書中での出現位置を取得するものであっても良い。即ち、判定対象の文書中でのキーワードの出現位置を取得できる機能を備えていればその実現手段はどのようなものであっても良い。
  The 
         
  以上のように、実施の形態1によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合の出現位置が、所定の近傍条件を満たすか否かを判定する近傍条件判定部108とを有し、キーワード集合照合部107における出現位置の取得処理と、近傍条件判定部108における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部105を備えたので、キーワードの数やキーワードの文書中での出現位置が増大しても、判定に要する計算量を抑えることができ、このような場合の検索時間の短縮化に寄与することができる。
  As described above, according to the first embodiment, the keyword 
例えば、キーワード「デジタル」と「カメラ」を同義語・異表記展開したキーワード集合{「デジタル」,「digital」,「ディジタル」}と、{「カメラ」,「camera」,「写真機」}の近傍条件を判定するといった場合でも、本実施の形態では、これらのキーワードをキーワード集合として直接判定することができ、従って、検索時間の短縮化を図ることができる。 For example, a keyword set {“digital”, “digital”, “digital”} and {“camera”, “camera”, “camera”} in which the keywords “digital” and “camera” are developed synonyms and different notations are used. Even in the case of determining the neighborhood condition, in the present embodiment, these keywords can be directly determined as a keyword set, and therefore the search time can be shortened.
         
実施の形態2.
  実施の形態2は、キーワード集合の順序指定あり近傍内条件を判定するようにしたものである。
 In the second embodiment, the in-neighbor conditions with keyword group order designation are determined.
      
         
  実施の形態2における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態2の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍内条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。
  Since the configuration of the second embodiment in the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the second embodiment is configured such that the neighborhood 
         
  ここで、キーワード集合の順序指定あり近傍内条件について説明する。キーワード集合の順序指定あり近傍内条件とは、キーワード集合が指定された順序で出現し、かつ前後のキーワード集合間の距離が指定された距離以下であるか否かを判定する近傍条件である。今、キーワード集合S1〜Snがこの順序で指定されたとする。また、そのキーワード集合間の距離dが指定されたとする。このとき、条件は以下のように判定される。
 
         
  図5は、実施の形態2における、図1の検索処理実行部105の処理(図3のステップST303)の流れ図である。
  検索処理実行部105は、検索条件解析部104から、キーワード集合S1〜Snとキーワード集合間の距離dおよび順序指定あり近傍内条件の判定指示が与えられると、近傍条件判定部108が、ステップST501でキーワード集合S1〜Snの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1〜knを、キーワード集合照合部107から取得する。次に、ステップST502において、近傍条件判定部108は、取得したキーワード集合の出現位置が、順序指定あり近傍内条件に適合しているか否かを判定する。即ち、i=1〜n−1に対して、DISTD(ki,ki+1)≦dを全て満たしているか否かを判定する。
FIG. 5 is a flowchart of the process (step ST303 in FIG. 3) of the search 
 Search 
ステップST502において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定あり近傍内条件に適合しているならば(YES)、ステップST506に移行し、「適合した」を出力して終了する。一方、ステップST502において、順序指定あり近傍内条件に適合していなければ(NO)、ステップST503に移行する。ステップST503では、DISTD(ki,ki+1)≦dを満たさなかったki、ki+1の組で、iが最も小さいものに対して、どちらのキーワードが文書中で先に出現しているか判定する。 In step ST502, if the appearance position of the acquired keyword set for the document to be determined matches the in-neighbor condition with order specification (YES), the process proceeds to step ST506, and “adapted” is output. And exit. On the other hand, if it is determined in step ST502 that the order designation and in-neighbor conditions are not met (NO), the process proceeds to step ST503. In step ST503, which keyword appears first in the document with respect to the smallest i in the set of k i and k i + 1 that did not satisfy DIST D (k i , k i + 1 ) ≦ d. judge.
ステップST503において、判定対象の文書中で、kiのほうがki+1より先に出現していれば(YES)、ステップST504でSiの次の出現位置と、その出現位置にあるキーワードkiを取得する。一方、ステップST503で、判定対象の文書中で、ki+1の方がkiより先に出現していれば(NO)、ステップST505に移行してSi+1の次の出現位置と、その出現位置にあるキーワードki+1を取得する。ステップST504もしくはステップST505で、キーワード集合の次の出現位置と、その出現位置にあるキーワードを取得したら、ステップST502に戻って、取得したキーワード集合の位置が順序指定あり近傍内条件に適合するか否かを判定する。 In step ST 503, in a document to be determined, if more of k i is long appeared earlier than k i + 1 (YES), the next occurrence position of S i in step ST 504, the keyword k i at that appearance positions get. On the other hand, if k i + 1 appears earlier than k i in the document to be determined in step ST503 (NO), the process proceeds to step ST505 and the next appearance position of S i + 1 and its appearance position. The keyword k i + 1 in is acquired. When the next appearance position of the keyword set and the keyword at the appearance position are acquired in step ST504 or step ST505, the process returns to step ST502, and whether or not the acquired position of the keyword set conforms to the in-neighbor conditions with specified order. Determine whether.
尚、図5の処理の流れ図では省略したが、ステップST501、ステップST504、ステップST505で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定あり近傍内条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。 Although omitted in the flowchart of the processing of FIG. 5, if the appearance position of the keyword set cannot be acquired in step ST501, step ST504, or step ST505, the order is specified in the determination target document and the near-in condition is set. Since there is no matching appearance position, “not fit” is output and the process ends.
         
  図6は、実施の形態2の図5に示した処理の流れによる、キーワード集合の順序指定あり近傍内条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2、S3がこの順序で与えられ、距離の指定がdであったとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2,p3}、S2 D={p4,p5,p6}、S3 D={p7,p8,p9}とする。それらの出現位置の関係は、図6の通りであるとする。また、キーワード集合S1、S2、S3としては、例えば、S1は{デジタル,digital,ディジタル}、S2は{カメラ,camera,写真機}といったように、それぞれのキーワード集合が複数のキーワードを含むものである。
FIG. 6 shows a determination path for the in-neighbor conditions with keyword group order designation according to the processing flow shown in FIG. 5 of the second embodiment. 
 Now, it is assumed that keyword sets S 1 , S 2 , S 3 are given in this order as search conditions, and the distance designation is d. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between the appearance positions is as shown in FIG. Further, as the keyword sets S 1 , S 2 , S 3 , for example, S 1 is {digital, digital, digital}, S 2 is {camera, camera, camera}, and each keyword set includes a plurality of keyword sets. Includes keywords.
      
このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(4)の処理は図6中の(1)〜(4)に対応している。 When such a search condition is given, the determination is executed as follows. The following processes (1) to (4) correspond to (1) to (4) in FIG.
(1)図5のステップST501でキーワード集合S1〜S3の文書D中での最初の出現位置p1、p4、p7が取得される。次にステップST502でこの出現位置が順序指定あり近傍内条件に適合しているか否かを判定する。図6の場合、キーワード集合S2がS1よりも先に出現しているため、順序指定あり近傍内条件に適合していない。よって、ステップST503に移行する。ステップST503で、キーワード集合S1、S2の文書D中での出現位置を判定し、S2の方が先に出現しているため、ステップST505で、キーワード集合S2の次の出現位置p5を取得する。 (1) The first appearance positions p 1 , p 4 , and p 7 in the document D of the keyword sets S 1 to S 3 are acquired in step ST501 of FIG. Next, in step ST502, it is determined whether or not the appearance position is in conformity with the in-neighbor conditions with the specified order. In the case of FIG. 6, since the keyword set S 2 appears before S 1, it does not conform to the in-neighbor conditions with order designation. Therefore, the process proceeds to step ST503. In step ST503, the appearance positions of the keyword sets S 1 and S 2 in the document D are determined. Since S 2 appears earlier, the next appearance position p of the keyword set S 2 in step ST505. Get 5 .
(2)今度は、S1、S3の出現位置p1、p7と、ステップST505で取得したp5に対してステップST502で順序指定あり近傍内条件の判定を実施する。今度はS1、S2間の距離がdより大きいため、順序指定あり近傍内条件に適合していない。よって、ステップST503に移行する。ステップST503で、S1の方がS2よりも先に文書D中に出現しているため、ステップST504でS1の次の出現位置p2を取得する。 (2) This time, in step ST502, the determination of the in-neighbor conditions with order designation is performed on the appearance positions p 1 and p 7 of S 1 and S 3 and p 5 acquired in step ST505. In this case, since the distance between S 1 and S 2 is larger than d, the in-neighbor condition is not satisfied with the order designation. Therefore, the process proceeds to step ST503. In step ST 503, towards S 1 it is because it appears in the document D earlier than S 2, to obtain the following appearance position p2 of S 1 in step ST 504.
(3)ステップST502で、出現位置p2、p5、p7に対して順序あり近傍内条件を判定する。今度はS3の方がS2よりも文書D中で先に出現しているため、ステップST505でS3の次の出現位置p8を取得する。 (3) in step ST 502, it determines the order has near the condition for the occurrence position p 2, p 5, p 7 . Now since the direction of S 3 have appeared previously in the document D than S 2, to get the next occurrence position p 8 of S 3 in step ST505.
(4)ステップST502で、出現位置p2、p5、p7に対して順序指定あり近傍内条件を判定し、条件に適合しているため、ステップST506で「適合した」を出力する。 (4) In step ST502, the in-neighbor conditions with order designation are determined for the appearance positions p 2 , p 5 , and p 7 , and since “matched” is output because “matched” is output in step ST506.
キーワードの文書中での出現位置の数は、文書の文字数Nに比例するとみなすことができる。即ち、キーワードの文書中での出現位置の数はオーダ記法でO(N)(オーダN)と表せる。キーワード集合に含まれるキーワード数をMとする。今、K個のキーワード集合間の順序指定あり近傍内条件を判定する場合を考える。 The number of appearance positions of the keyword in the document can be regarded as being proportional to the number N of characters in the document. That is, the number of appearance positions of the keyword in the document can be expressed as O (N) (order N) in the order notation. Let M be the number of keywords included in the keyword set. Consider a case where an in-neighbor condition with order specification between K keyword sets is determined.
         
  従来の特許文献1記載の方式では、キーワードの出現位置を、総当りによって順序指定あり近傍内条件を判定する。このとき、K個のキーワード間の条件判定に要する計算量はO(NK)であった。また、キーワード集合間の判定は、キーワード集合を展開して個々に条件を判定しなければならなかった。よって、組み合わせの数はMKとなる。よって、K個のキーワード集合間の順序指定あり近傍内条件の判定に要する計算量は、O((MN)K)となる。
In the conventional method described in 
これに対して、実施の形態2の順序指定あり近傍内条件の判定の場合を考える。キーワード集合の文書中での出現位置の数は、文書中の全文字数Nと、キーワード集合内のキーワード数Mに比例するとみなすことができる。即ち、O(MN)である。本実施の形態の判定方式では、キーワード集合の順序指定あり近傍内条件を、最大でも全てのキーワード集合の出現位置の和の回数で判定可能である。よって、K個のキーワード間の順序指定あり近傍内条件の判定に要する計算量は、O(KMN)である。 On the other hand, consider the case of determination of in-neighbor conditions with order designation in the second embodiment. The number of appearance positions in the document of the keyword set can be considered to be proportional to the total number N of characters in the document and the number of keywords M in the keyword set. That is, O (MN). In the determination method of the present embodiment, it is possible to determine the condition within the neighborhood with the specified keyword set order by the number of times of the sum of the appearance positions of all the keyword sets. Therefore, the amount of calculation required for determining the in-neighbor condition with order specification between K keywords is O (KMN).
このように、実施の形態2の文書検索装置では、キーワード集合間の順序指定あり近傍内条件を、従来の方式と比較して高速に判定することが可能である。 As described above, in the document search apparatus according to the second embodiment, it is possible to determine the in-neighbor conditions with the order designation between the keyword sets at a higher speed than in the conventional method.
尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、順序指定あり近傍内条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。 Here, the method of acquiring the appearance position of the keyword set in order from the beginning of the document and determining the in-neighbor conditions with the order designation has been shown, but even if the conditions are determined in order from the end to the beginning of the document, Similar effects can be obtained.
         
  以上のように、実施の形態2によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下である順序指定あり近傍内条件としたので、従来に比べて、順序指定あり近傍内条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the second embodiment, when all keyword sets appear in the document, the distance between the preceding and following keyword sets is specified as the vicinity condition of the determination process performed by the vicinity 
         
実施の形態3.
  実施の形態3は、キーワード集合の順序指定なし近傍内条件を判定するようにしたものである。
 In the third embodiment, the in-neighbor conditions without specifying the order of the keyword set are determined.
      
         
  実施の形態3における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。また、実施の形態3の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定なし近傍内条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。
  Since the configuration of the third embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the third embodiment is configured such that the neighborhood 
         
  ここで、キーワード集合の順序指定なし近傍内条件について説明する。キーワード集合の順序指定なし近傍内条件とは、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下であるか否かを判定する近傍条件である。今、キーワード集合S1〜Snとキーワード集合間の距離dが与えられたとき、順序指定なし近傍内条件は以下のように判定される。
 
         
  図7は、実施の形態3における、キーワード集合が二つの場合の、図1の検索処理実行部105の処理(図3のステップST303)の流れ図である。
  検索処理実行部105に対してキーワード集合S1、S2とキーワード集合間の距離dが与えられると、近傍条件判定部108は、ステップST701でキーワード集合S1、S2の、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1、k2を、キーワード集合照合部107から取得する。次に、近傍条件判定部108は、ステップST702において、取得したキーワード集合の出現位置が、順序指定あり近傍内条件に適合しているか否かを判定する。即ち、DISTD(k1,k2)≦dまたはDISTD(k2,k1)≦dを満たしているか否かを判定する。
FIG. 7 is a flowchart of processing (step ST303 in FIG. 3) of the search 
 When the distance d between the keyword sets S 1 and S 2 and the keyword set is given to the search 
ステップST702において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定なし近傍内条件に適合しているならば(YES)、ステップST706に移行し、「適合した」を出力して終了する。一方、ステップST702において、順序指定あり近傍内条件に適合していなければ(NO)、ステップST703に移行する。ステップST703では、k1とk2のどちらのキーワードが文書中で先に出現しているか判定する。判定対象の文書中で、k1のほうがk2より先に出現していれば(YES)、ステップST704でS1の次の出現位置と、その出現位置にあるキーワードk1を取得する。 If, in step ST702, the appearance position of the acquired keyword set for the document to be determined matches the in-neighbor conditions without order designation (YES), the process proceeds to step ST706, and “matched” is output. And exit. On the other hand, if it is determined in step ST702 that the in-neighbor conditions with specified order are not met (NO), the process proceeds to step ST703. In step ST703, it is determined whether either of the keyword of k 1 and k 2 have emerged earlier in the document. In the document to be determined, more of k 1 is if appearing before the k 2 (YES), the next occurrence position of S 1 in step ST704, acquires the keyword k 1 in its appearance position.
ステップST703で、判定対象の文書中で、k2のほうがk1より先に出現していれば(NO)、ステップST705でS2の次の出現位置と、その出現位置にあるキーワードk2を取得する。ステップST704もしくはステップST705で、キーワード集合の次の出現位置と、その出現位置にあるキーワードを取得したら、ステップST702に戻って、取得したキーワード集合の位置が順序指定あり近傍内条件に適合するか否かを判定する。 In step ST 703, in a document to be determined, if more of the k 2 is long appeared earlier than k 1 (NO), the next occurrence position of S 2 in step ST 705, the keyword k 2 at that appearance positions get. When the next appearance position of the keyword set and the keyword at the appearance position are acquired in step ST704 or step ST705, the process returns to step ST702, and whether or not the position of the acquired keyword set meets the in-neighbor conditions with specified order. Determine whether.
尚、図7の処理の流れ図では省略したが、ステップST701、ステップST704、ステップST705で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定なし近傍内条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。 Although not shown in the flowchart of the processing in FIG. 7, if the appearance position of the keyword set cannot be acquired in step ST701, step ST704, or step ST705, the near-in-condition without order designation is set in the determination target document. Since there is no matching appearance position, “not fit” is output and the process ends.
         
  図8は、実施の形態3の図7に示した処理の流れによる、二つのキーワード集合の順序指定なし近傍内条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2と距離dが与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2}、S2 D={p3,p4,p5}とする。それらの出現位置の関係は、図8の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(3)の処理は、図8中の(1)〜(3)に対応している。
FIG. 8 shows a path for determining the in-neighbor conditions without specifying the order of the two keyword sets, according to the processing flow shown in FIG. 7 of the third embodiment. 
 Assume that keyword sets S 1 and S 2 and a distance d are given as search conditions. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 } and S 2 D = {p 3 , p 4 , p 5 }. The relationship between the appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (3) correspond to (1) to (3) in FIG.
      
(1)図7のステップST701でS1、S2の文書D中での最初の出現位置p1、p3が取得される。次に、ステップST702で、この出現位置が順序指定なし近傍内条件に適合しているか否かを判定する。図8の場合、キーワード集合S2とS1間の距離がdより大きいため順序指定なし近傍内条件に適合していない。よって、ステップST703に移行する。ステップST703で、キーワード集合S1、S2の文書D中での出現位置を判定し、S2の方が先に出現しているため、ステップST705で、キーワード集合S2の次の出現位置p4を取得する。 (1) In step ST701 in FIG. 7, the first appearance positions p 1 and p 3 in the document D of S 1 and S 2 are acquired. Next, in step ST702, it is determined whether or not this appearance position meets the in-neighbor conditions without order designation. In the case of FIG. 8, since the distance between the keyword sets S 2 and S 1 is larger than d, it does not meet the in-neighbor condition without order designation. Therefore, the process proceeds to step ST703. In step ST703, the appearance positions of the keyword sets S 1 and S 2 in the document D are determined. Since S 2 appears earlier, the next appearance position p of the keyword set S 2 in step ST705. 4 is acquired.
(2)今度は、S1の出現位置p1と、ステップST705で取得したp4に対してステップST702で順序指定なし近傍内条件の判定を実施する。今度もS1、S2間の距離がdより大きいため、順序指定なし近傍内条件に適合していない。よって、ステップST703に移行する。ステップST703で、S1の方がS2よりも先に文書D中に出現しているため、ステップST704でS1の次の出現位置p2を取得する。 (2) This time, the appearance position p 1 of S 1, to implement the determination of the ordering without near the condition in step ST702 with respect to p 4 acquired in step ST 705. Again, since the distance between S 1 and S 2 is greater than d, it does not meet the in-neighbor condition without order designation. Therefore, the process proceeds to step ST703. In step ST 703, towards S 1 it is because it appears in the document D earlier than S 2, to get the next occurrence position p 2 of S 1 at step ST704.
(3)ステップST702で出現位置p2、p4に対して順序なし近傍内条件を判定し、条件に適合しているため、ステップST706に移行して「適合した」を出力する。 (3) In Step ST702, the in-order neighborhood condition is determined for the appearance positions p 2 and p 4 , and the condition is satisfied. Therefore, the process proceeds to Step ST706, and “Applicable” is output.
         
  次に、三つ以上のキーワード集合に対する検索処理を説明する。
  図9は、実施の形態3における、三つ以上のキーワード集合に対する、検索処理実行部105の処理(図3のステップST303)の流れ図である。
  検索処理実行部105は、キーワード集合S1〜Snとキーワード集合間の距離dが与えられると、ステップST901でキーワード集合S1〜Snの順序を一つ決定する。尚、最初の順序は任意である。次に、近傍条件判定部108は、ステップST902において、ステップST901で決められたキーワード集合の順序で、順序指定あり近傍内条件を判定する。この順序指定あり近傍内条件の判定処理は、実施の形態2と同様に実施される。
Next, a search process for three or more keyword sets will be described. 
 FIG. 9 is a flowchart of processing (step ST303 in FIG. 3) of the search 
 Search 
ステップST902において、判定対象の文書が、ステップST901で決められたキーワード集合の順序で順序指定あり近傍内条件に適合しているならば(YES)、ステップST905に移行し、「適合した」を出力する。一方、ステップST902で、順序指定あり近傍内条件に適合していなければ(NO)、ステップST903で、まだステップST902で判定していないキーワード集合の順序の組み合わせがあるか否か判定する。ステップST903において、まだ判定していないキーワード集合の順序の組み合わせがある場合(YES)、ステップST901で、まだ判定していないキーワード集合の順序を決定し、ステップST902で、その順序による順序指定あり近傍内条件を判定する。ステップST903で、全てのキーワード集合の順序の組み合わせに対して、順序指定あり近傍内条件の判定を実施したと判定された場合(NO)、ステップST904で「適合しない」を出力して終了する。 In step ST902, if the document to be determined conforms to the in-neighbor conditions with order designation in the order of the keyword set determined in step ST901 (YES), the process proceeds to step ST905, and “conforms” is output. To do. On the other hand, if it is determined in step ST902 that the specified neighborhood condition is not satisfied (NO), it is determined in step ST903 whether there is a combination of the order of keyword sets that has not yet been determined in step ST902. In step ST903, if there is a combination of the order of keyword sets that have not been determined yet (YES), the order of keyword sets that have not been determined yet is determined in step ST901, and in step ST902, the neighborhood with the order specified by that order. Determine internal conditions. If it is determined in step ST903 that the determination of the in-neighbor condition with specified order has been performed for the combinations of the order of all keyword sets (NO), “not fit” is output in step ST904, and the process ends.
         
  この順序指定なし近傍内条件の判定処理で、近傍条件判定部108はキーワード集合照合部107より取得したキーワード集合の出現位置の情報を、図示しないメモリ上に記憶しておいてもよい。そうすることで、一度取得したキーワード集合の出現位置を再度取得する場合に、キーワード集合照合部107を呼び出さなくて良い。
  In the determination process of the in-neighbor condition without order designation, the vicinity 
         
  文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。先ず、2個のキーワード集合間の順序指定なし近傍内条件を判定する場合を考える。従来の特許文献1の方式の、キーワードの出現位置を総当りによって順序指定なし近傍内条件を判定するものでは、2個のキーワード集合間の条件の判定に要する計算量は、O((MN)2)となる。一方、実施の形態3の順序指定なし近傍内条件の判定の場合は、2個のキーワード間の順序指定あり近傍内条件の判定に要する計算量は、O(2MN)である。
Let N be the number of characters in the document and M be the number of keywords included in the keyword set. First, let us consider a case where an in-neighbor condition without order specification between two keyword sets is determined. In the conventional method of 
         
  次にK個のキーワード集合間の順序指定なし近傍内条件を判定する場合を考える。ここでは、一つのキーワード集合の文書中での出現位置の数をNとする。従来の特許文献1の方式では、K個のキーワード集合間の順序指定なし近傍内条件の判定に要する計算量は、O(NK)となる。
Next, consider a case in which an in-neighbor condition without order specification between K keyword sets is determined. Here, the number of appearance positions in the document of one keyword set is N. In the conventional method of 
本実施の形態2の順序指定あり近傍内条件の判定に要する計算量はO(KN)である。K個のキーワード間の順序指定なし近傍内条件の場合は、キーワード集合の順序の組み合わせを変更しながら、順序指定あり近傍内条件を判定する。K個のキーワード集合の順序の組み合わせは、K!(Kの階乗)通りある。よって、K個のキーワード集合間の順序指定なし近傍内条件の判定に要する計算量は、O(K!KN)である。この計算量は、KがNより小さければ、従来方式よりも少ない計算量である。 The amount of calculation required for determining the in-neighbor condition with the order designation in the second embodiment is O (KN). In the case of an in-neighbor condition without order specification between K keywords, the in-neighbor condition with order designation is determined while changing the combination of the order of the keyword set. The combination of the order of K keyword sets is K! There is (K factorial). Therefore, the amount of calculation required for determining the in-neighbor condition without ordering between the K keyword sets is O (K! KN). This calculation amount is less than the conventional method if K is smaller than N.
         
  以上のように、実施の形態3によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以下である順序指定なし近傍内条件としたので、従来に比べて、順序指定なし近傍内条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the third embodiment, when all keyword sets appear in the document, the distance between the preceding and following keyword sets is specified as the vicinity condition of the determination process performed by the vicinity 
         
実施の形態4.
  実施の形態4は、キーワード集合の順序指定あり近傍等条件を判定するようにしたものである。
 In the fourth embodiment, conditions such as neighborhoods with keyword group order designation are determined.
      
         
  実施の形態4における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態4の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍等条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。
  The configuration of the fourth embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, and will be described with reference to FIG. The document search apparatus according to the fourth embodiment is configured such that the proximity 
         
  ここで、キーワード集合の順序指定あり近傍等条件について説明する。キーワード集合の順序指定あり近傍等条件とは、キーワード集合が指定された順序で出現し、かつ前後のキーワード集合間の距離が真に指定された距離であるか否かを判定する近傍条件である。今、キーワード集合S1〜Snがこの順序で指定されたとする。また、そのキーワード集合間の距離dが指定されたとする。このとき、条件は以下のように判定される。
 
         
  図10は、実施の形態4における、検索処理実行部105の処理(図3のステップST303)の流れ図である。
  検索処理実行部105は、キーワード集合S1〜Snとキーワード集合間の距離dが与えられると、近傍条件判定部108は、ステップST1001でキーワード集合S1〜Snの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1〜knを、キーワード集合照合部107から取得する。次に、近傍条件判定部108は、ステップST1002において、取得したキーワード集合の出現位置が、順序指定あり近傍等条件に適合しているか否かを判定する。即ち、i=1〜n−1に対して、DISTD(ki,ki+1)=dを全て満たしているか否かを判定する。
FIG. 10 is a flowchart of the process (step ST303 in FIG. 3) of the search 
 Search 
ステップST1002において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定あり近傍等条件に適合しているならば(YES)、ステップST1003に移行し、「適合した」を出力して終了する。一方、ステップST1002において、判定対象の文書に対して、取得したキーワード集合の出現位置が、順序指定あり近傍等条件に適合していなければ(NO)、ステップST1004に移行する。 In step ST1002, if the appearance position of the acquired keyword set conforms to the conditions such as neighborhood with order designation for the determination target document (YES), the process proceeds to step ST1003, and “conforms” is output. And exit. On the other hand, in step ST1002, if the appearance position of the acquired keyword set does not conform to the conditions such as neighborhood with order designation for the determination target document (NO), the process proceeds to step ST1004.
ステップST1004では、DISTD(ki,ki+1)=dを満たさなかったki、ki+1の組で、iが最も小さいものに対して、どちらのキーワード集合が、文書中でより先に出現しているか判定する。Siが文書中で先に出現していた場合(YES)、ステップST1005でDISTD(ki,ki+1)がd未満か否かを判定する。DISTD(ki,ki+1)がd未満の場合(YES)、ステップST1007でキーワード集合Si+1の次の出現位置と、その出現位置にあるキーワードki+1を取得する。DISTD(ki,ki+1)がdより大きい場合(NO)、ステップST1006でキーワード集合Siの次の文書中での出現位置と、その出現位置にあるキーワードkiを取得する。 In Step ST1004, which keyword set appears earlier in the document with respect to the combination of k i and k i + 1 that did not satisfy DIST D (k i , k i + 1 ) = d and i is the smallest. Judge whether you are doing. If S i appears first in the document (YES), it is determined in step ST1005 whether DIST D (k i , k i + 1 ) is less than d. When DIST D (k i , k i + 1 ) is less than d (YES), in step ST1007, the next appearance position of the keyword set S i + 1 and the keyword k i + 1 at the appearance position are acquired. If DIST D (k i , k i + 1 ) is larger than d (NO), in step ST1006, the appearance position in the next document of the keyword set S i and the keyword k i at the appearance position are acquired.
ステップST1004で、Si+1が文書中で先に出現していた場合(NO)、ステップST1007でキーワード集合Si+1の次の出現位置と、その出現位置にあるキーワードki+1を取得する。ステップST1006またはステップST1007でキーワード集合の次の出現位置と、その出現位置にあるキーワードを取得したら、ステップST1002に戻り、取得したキーワード集合の位置が順序指定あり近傍等条件に適合するか否かを判定する。 In step ST1004, when S i + 1 appears first in the document (NO), in step ST1007, the next appearance position of the keyword set S i + 1 and the keyword k i + 1 at the appearance position are acquired. When the next appearance position of the keyword set and the keyword at the appearance position are acquired in step ST1006 or step ST1007, the process returns to step ST1002, and it is determined whether or not the position of the acquired keyword set conforms to the conditions such as neighborhood with specified order judge.
尚、図10の処理の流れ図では省略したが、ステップST1001、ステップST1006、ステップST1007のキーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定あり近傍等条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。 Although omitted in the flowchart of the processing of FIG. 10, if the appearance position of the keyword set in step ST1001, step ST1006, and step ST1007 cannot be obtained, the order is specified in the determination target document and the conditions such as neighborhood are met. Since there is no appearance position to be output, “not fit” is output and the process ends.
         
  図11は、実施の形態4の図10に示した処理の流れによる、キーワード集合の順序指定あり近傍等条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2、S3がこの順序で与えられ、距離の指定がdであったとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2,p3}、S2 D={p4,p5,p6}、S3 D={p7,p8,p9}とする。それらの出現位置の関係は、図11の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(5)の処理は、図11中の(1)〜(5)に対応しているものである。
FIG. 11 shows a path for determining a condition such as a neighborhood with keyword group order designation according to the processing flow shown in FIG. 10 of the fourth embodiment. 
 Now, it is assumed that keyword sets S 1 , S 2 , S 3 are given in this order as search conditions, and the distance designation is d. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between their appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (5) correspond to (1) to (5) in FIG.
      
(1)図11のステップST1001でS1〜S3の文書D中での最初の出現位置p1、p4、p7が取得される。次に、ステップST1002でこの出現位置が順序指定あり近傍等条件に適合しているか否かを判定する。図11の場合、キーワード集合S2が、S1よりも先に出現しているため、順序指定あり近傍等条件に適合していない。よって、ステップST1004に移行する。ステップST1004で、キーワード集合S1、S2の文書D中での出現位置を判定し、S2の方が先に出現しているため、ステップST1007で、キーワード集合S2の次の出現位置p5を取得する。 (1) In step ST1001 of FIG. 11, the first appearance positions p 1 , p 4 , and p 7 in the document D of S 1 to S 3 are acquired. Next, in step ST1002, it is determined whether or not this appearance position is in conformity with a condition such as a neighborhood with order designation. For Figure 11, keyword set S 2 is, because of the appearance before the S 1, does not conform to the order specified there near such conditions. Therefore, the process proceeds to step ST1004. In step ST1004, the appearance positions of the keyword sets S 1 and S 2 in the document D are determined. Since S 2 appears earlier, the next appearance position p of the keyword set S 2 in step ST1007. Get 5 .
(2)ステップST1002で、出現位置p1、p5、p7に対して順序指定あり近傍等条件を判定する。今度はS1、S2間の距離がdより大きいため、順序指定あり近傍等条件に適合していない。よって、ステップST1004に移行する。ステップST1004で、S1の方がS2よりも先に文書D中に出現しているため、ステップST1005でS1とS2との間の距離がd未満であるか否かを判定する。図11の場合、S1、S2間の距離がdより大きいので、ステップST1006でS1の次の出現位置p2を取得する。 (2) In step ST1002, conditions such as neighborhood with order designation are determined for the appearance positions p 1 , p 5 , and p 7 . This time, since the distance between S 1 and S 2 is larger than d, it does not conform to the conditions such as neighborhood with order designation. Therefore, the process proceeds to step ST1004. In step ST 1004, since the direction of S 1 is has appeared in the document D earlier than S 2, it is determined whether the distance between the S 1 and S 2 is less than d in step ST1005. In the case of FIG. 11, since the distance between S 1 and S 2 is larger than d, the next appearance position p 2 of S 1 is acquired in step ST1006.
(3)ステップST1002で、出現位置p2、p5、p7に対して順序指定あり近傍等条件を判定する。今度はS3の方がS2よりも文書D中で先に出現しているため、ステップST1007でS3の次の出現位置p8を取得する。 (3) In step ST1002, conditions such as neighborhood with order designation are determined for the appearance positions p 2 , p 5 , and p 7 . Since S 3 appears earlier in document D than S 2 , the next appearance position p 8 of S 3 is acquired in step ST 1007.
(4)ステップST1002で、出現位置p2、p5、p8に対して順序指定あり近傍等条件を判定する。S2、S3間の距離がd未満なので、順序指定あり近傍等条件に適合しない。よって、ステップST1004に移行する。ステップST1004で、S2の方がS3よりも先に文書中に出現しているため、ステップST1005でS2、S3間の距離がd未満であるか否かを判定する。S2、S3間の距離がd未満なので、ステップST1007でS3の次の出現位置p9を取得する。 (4) In step ST1002, conditions such as neighborhoods with specified order are determined for the appearance positions p 2 , p 5 , and p 8 . Since the distance between S 2 and S 3 is less than d, it does not meet the conditions such as neighborhood with specified order. Therefore, the process proceeds to step ST1004. In step ST 1004, since the direction of S 2 have appeared in the document before the S 3, the distance between S 2, S 3 at step ST1005 determines whether less than d. Since the distance between S 2 and S 3 is less than d, the next appearance position p 9 of S 3 is acquired in step ST1007.
(5)ステップST1002で、出現位置p2、p5、p9に対して順序指定あり近傍等条件を判定し、条件に適合するため、ステップST1003で「適合した」を出力して終了する。 (5) In step ST1002, conditions such as neighborhood with order designation are determined for the appearance positions p2, p5, and p9, and in order to meet the conditions, “matched” is output in step ST1003 and the process ends.
         
  文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来の特許文献1記載の方式では、K個のキーワード集合間の順序指定あり近傍等条件の判定に要する計算量は、O((MN)K)となる。一方、実施の形態4の順序指定なし近傍等条件の判定の場合は、K個のキーワード間の順序指定あり近傍等条件の判定に要する計算量は、実施の形態2と同様にO(KMN)である。
Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method described in 
このように、実施の形態4の文書検索装置では、キーワード集合間の順序指定あり近傍等条件を、従来の方式と比較して高速に判定することが可能である。 As described above, in the document search apparatus according to the fourth embodiment, it is possible to determine the conditions such as the neighborhood with specified order between keyword sets at a higher speed than in the conventional method.
尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、順序指定あり近傍等条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。 In addition, here, the method of acquiring the appearance position of the keyword set in order from the top of the document and determining the conditions such as the neighborhood with the order designation is shown, but even if the conditions are determined in order from the end to the top of the document, Similar effects can be obtained.
         
  以上のように、実施の形態4によれば、近傍条件判定部108が行う判定処理の近傍条件として、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離に等しい順序指定あり近傍等条件としたので、従来に比べて、順序指定あり近傍等条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the fourth embodiment, as a neighborhood condition in the judgment process performed by the neighborhood 
         
実施の形態5.
  実施の形態5は、キーワード集合の順序指定無し近傍等条件を判定するようにしたものである。
Embodiment 5 FIG. 
 In the fifth embodiment, a condition such as the neighborhood without specifying the order of keyword sets is determined.
      
         
  実施の形態5における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態5の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍等条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。
  The configuration of the fifth embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, and therefore will be described with reference to FIG. The document search apparatus according to the fifth embodiment is configured such that the proximity 
         
  ここで、キーワード集合の順序指定なし近傍等条件について説明する。キーワード集合の順序指定なし近傍条件とは、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が真に指定された距離であるか否かを判定する近傍条件である。今、キーワード集合S1〜Snとキーワード集合間の距離がdに対して、順序指定なし近傍等条件は以下のように判定される。
 
         
  実施の形態5における、検索処理実行部105の処理(図3のステップST303)の流れは、図9のステップST902でキーワード集合間の順序指定あり近傍等条件を判定するように構成したものと同等であるため、ここでの説明は省略する。
  The flow of processing (step ST303 in FIG. 3) of the search 
         
  今、一つのキーワード集合の文書中での出現位置の数をNとする。従来の特許文献1記載の方式では、K個のキーワード集合間の順序指定なし近傍等条件の判定に要する計算量は、O(NK)となる。一方、本実施の形態の場合は、K個のキーワード間の順序指定なし近傍等条件の判定に要する計算量は、実施の形態3と同様にO(K!KN)である。この計算量は、KがNより小さければ、従来方式よりも少ない計算量である。
Now, let N be the number of appearance positions in a document of one keyword set. In the conventional method described in 
         
  以上のように、実施の形態5によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離に等しい順序指定なし近傍等条件としたので、従来に比べて、順序指定なし近傍等条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the fifth embodiment, when all keyword sets appear in the document, the distance between the previous and next keyword sets is specified as the vicinity condition of the determination process performed by the vicinity 
         
実施の形態6.
  実施の形態6は、キーワード集合の順序指定あり近傍外条件を判定するようにしたものである。
Embodiment 6 FIG. 
 In the sixth embodiment, an out-of-neighbor condition with a specified order of keyword sets is determined.
      
         
  実施の形態6における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態6の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定あり近傍外条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。
  Since the configuration of the sixth embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the sixth embodiment is configured so that the proximity 
         
  ここで、キーワード集合の順序指定あり近傍外条件について説明する。キーワード集合の順序指定あり近傍外条件とは、キーワード集合が指定された順序で出現し、かつ前後のキーワード集合間の距離が指定された距離以上であるか否かを判定する近傍条件である。今、キーワード集合S1〜Snがこの順序で指定されたとする。また、そのキーワード集合間の距離dが指定されたとする。このとき、条件は以下のように判定される。
 
         
  図12は、実施の形態6における、検索処理実行部105の処理(図3のステップST303)の流れ図である。
  検索処理実行部105は、キーワード集合S1〜Snとキーワード集合間の距離dが与えられると、近傍条件判定部108は、ステップST1201でキーワード集合S1の、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1を、キーワード集合照合部107から取得する。その後は、以下の処理をiが1〜n−1について繰り返す。
FIG. 12 is a flowchart of the process (step ST303 in FIG. 3) of the search 
 Search 
ステップST1202では、キーワード集合Si+1の判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードki+1を取得する。次に、ステップST1203で、取得したキーワード集合SiとSi+1の出現位置が、順序指定あり近傍等条件に適合しているか否かを判定する。即ち、DISTD(ki,ki+1)≧dを満たしているか否かを判定する。 In step ST1202, the first appearance position in the determination target document of the keyword set S i + 1 and the keyword k i + 1 at the appearance position are acquired. Next, in step ST1203, it is determined whether or not the appearance positions of the acquired keyword sets S i and S i + 1 match a condition such as neighborhood with order designation. That is, it is determined whether to satisfy DIST D (k i, k i + 1) of ≧ d.
ステップST1203で判定対象の文書に対して、条件に適合していない場合(NO)、ステップST1205でSi+1の次の出現位置を取得し、ステップST1203で取得したキーワード集合間の順序指定あり近傍外条件を判定する。ステップST1203で条件に適合していた場合(YES)、ステップST1202で次のiに対してキーワード集合Si+1の最初の出現位置と、その出現位置にあるキーワードki+1を取得する。この処理を、iが1〜n−1について繰り返し、全てのiについて順序指定あり近傍等条件に適合した場合、ステップST1204で「適合した」を出力して終了する。 If the document does not meet the condition in step ST1203 (NO), the next appearance position of S i + 1 is acquired in step ST1205, and there is an order designation between the keyword sets acquired in step ST1203. Determine the conditions. If the condition is met in step ST1203 (YES), the first appearance position of the keyword set S i + 1 for the next i and the keyword k i + 1 at the appearance position are acquired for the next i in step ST1202. This process is repeated for i ranging from 1 to n−1, and if all i satisfy the conditions such as the neighborhood with order designation, “adapted” is output in step ST1204 and the process ends.
尚、図12の処理の流れ図では省略したが、ステップST1201、ステップST1205で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に順序指定あり近傍等条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。 Although not shown in the flowchart of the processing in FIG. 12, if the appearance position of the keyword set cannot be acquired in step ST1201 and step ST1205, the order is specified in the document to be judged, and the appearance conforms to the conditions such as the neighborhood. Since there is no position, it outputs “not fit” and ends.
         
  図13は、実施の形態6の図12に示した処理の流れによる、キーワード集合の順序指定あり近傍外条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2、S3がこの順序で与えられ、距離の指定がdであったとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2,p3}、S2 D={p4,p5,p6}、S3 D={p7,p8}とする。それらの出現位置の関係は、図13の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(5)の処理は、図13中の(1)〜(5)に対応している。
FIG. 13 shows a determination path for the near-neighbor condition with keyword group order designation according to the processing flow shown in FIG. 12 of the sixth embodiment. 
 Now, it is assumed that keyword sets S 1 , S 2 , S 3 are given in this order as search conditions, and the distance designation is d. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 }. The relationship between the appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (5) correspond to (1) to (5) in FIG.
      
(1)図12のステップST1201でS1の文書D中での最初の出現位置p1が取得される。次に、ステップST1202でS2の文書中での最初の出現位置p4を取得する。ステップST1203でこの出現位置が順序指定あり近傍外条件に適合しているか否かを判定する。図13の場合、キーワード集合S2が、S1よりも先に出現しているため、順序指定あり近傍外条件に適合していない。よって、ステップST1205に移行する。ステップST1205で、キーワード集合S2の次の出現位置p5を取得する。 (1) first occurrence p 1 in the document D in S 1 in step ST1201 of FIG. 12 is obtained. Next, to obtain the first occurrence p 4 in a document S 2 in step ST 1202. In step ST1203, it is determined whether or not the appearance position is in conformity with an out-of-neighbor condition with a specified order. In the case of FIG. 13, the keyword set S 2 appears before S 1 , so that it does not meet the out-of-neighbor condition with order designation. Therefore, the process proceeds to step ST1205. In step ST1205, acquires the next occurrence position p5 of the keyword set S 2.
(2)ステップST1203で、出現位置p1、p5に対して順序指定あり近傍外条件を判定する。今度は、S1、S2間の距離がdより小さいため、順序指定あり近傍外条件に適合していない。よって、ステップST1205に移行し、キーワード集合S2の次の出現位置p6を取得する。 (2) In step ST1203, an out-of-neighbor condition with an order is determined for the appearance positions p 1 and p 5 . This time, since the distance between S 1 and S 2 is smaller than d, it is not suitable for the near-outside condition with order designation. Therefore, the process proceeds to step ST1205, acquires the next occurrence position p 6 of keyword set S 2.
(3)ステップST1203で、出現位置p1、p6に対して順序指定あり近傍外条件を判定する。今度は順序指定あり近傍外条件に適合しているため、ステップST1202でキーワード集合S3の文書中での最初の出現位置p7を取得する。 (3) In step ST1203, an out-of-neighbor condition is specified with respect to the appearance positions p 1 and p 6 . Now because they comply with the vicinity outside the conditions there specified order, to obtain the first occurrence p 7 in a document keyword set S3 in step ST 1202.
(4)ステップST1203で、出現位置p6、p7に対して順序指定あり近傍外条件を判定する。キーワード集合S3が、S2よりも先に出現しているため、順序指定あり近傍外条件に適合していない。よって、ステップST1205でキーワード集合S3の次の出現位置p8を取得する。 (4) In step ST1203, an out-of-neighbor condition with an order is determined for the appearance positions p 6 and p 7 . Since the keyword set S 3 appears before S 2 , it does not meet the out-of-neighbor condition with the order specified. Therefore, to get the next occurrence position p 8 of keyword set S 3 at step ST1205.
(5)ステップST1203で、出現位置p6、p8に対して順序指定あり近傍外条件を判定する。ここで条件に適合し、かつ全てのキーワード集合について判定したので、ステップST1206で「適合した」を出力して終了する。 (5) In step ST1203, an out-of-neighbor condition with order designation is determined for the appearance positions p 6 and p 8 . Here, since the conditions are met and all keyword sets have been determined, “matched” is output in step ST1206, and the process ends.
文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来方式の、キーワードの出現位置を総当りによって順序指定あり近傍外条件を判定するものでは、K個のキーワード集合間の順序指定あり近傍外条件の判定に要する計算量は、O((MN)K)となる。一方、本実施の形態の順序指定あり近傍外条件の判定の場合は、実施の形態2と同様にO(KMN)である。 Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method for determining an out-of-neighbor condition with an order specification by brute force, the amount of calculation required for determining an out-of-neighbor condition with an order specification between K keyword sets is O ((MN) K ). On the other hand, in the case of determining the out-of-neighbor condition with the order designation according to the present embodiment, it is O (KMN) as in the second embodiment.
尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、順序指定あり近傍外条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。 Here, the method of acquiring the appearance position of the keyword set in order from the beginning of the document and determining the out-of-neighbor condition with the order designation has been shown, but even if the condition is determined in order from the end to the beginning of the document, Similar effects can be obtained.
         
  以上のように、実施の形態6によれば、近傍条件判定部108が行う判定処理の近傍条件として、キーワード集合が指定された順序で出現し、かつ、前後のキーワード集合間の距離が指定された距離以上である順序指定あり近傍外条件としたので、従来に比べて、順序指定あり近傍外条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the sixth embodiment, as a neighborhood condition in the judgment process performed by the neighborhood 
         
実施の形態7.
  実施の形態7は、キーワード集合の順序指定無し近傍外条件を判定するようにしたものである。
Embodiment 7 FIG. 
 In the seventh embodiment, an out-of-neighbor condition without specifying a keyword set order is determined.
      
         
  実施の形態7における図面上の構成は、図1に示した実施の形態1と同様であるため、図1を援用して説明する。実施の形態5の文書検索装置は、実施の形態1の文書検索装置の近傍条件判定部108で、キーワード集合の順序指定無し近傍外条件を判定できるように構成したものである。また、検索処理の全体の流れは図3に示したものと同等であるため、ここでの説明は省略する。
  Since the configuration of the seventh embodiment on the drawing is the same as that of the first embodiment shown in FIG. 1, description will be made with reference to FIG. The document search apparatus according to the fifth embodiment is configured such that the neighborhood 
         
  ここで、キーワード集合の順序指定なし近傍外条件について説明する。キーワード集合の順序指定なし近傍外条件とは、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以上であるか否かを判定する近傍条件である。今、キーワード集合S1〜Snとキーワード集合間の距離がdに対して、順序指定なし近傍外条件は以下のように判定される。
 
         
  実施の形態7における、図1の検索処理実行部105の処理(図3のステップST303)の流れは、図9のステップST902でキーワード集合間の順序指定無し近傍外条件を判定するように構成したものと同等であるため、ここでの説明は省略する。
  In the seventh embodiment, the flow of the processing of the search 
         
  一つのキーワード集合の文書中での出現位置の数をNとする。従来の特許文献1記載の方式の、キーワードの出現位置を総当りによって、順序指定無し近傍外条件を判定するものでは、K個のキーワード集合間の順序指定無し近傍外条件の判定に要する計算量は、O(NK)となる。一方、本実施の形態の場合は、K個のキーワード間の順序指定無し近傍外条件の判定に要する計算量は、実施の形態3と同様にO(K!KN)である。この計算量は、KがNより小さければ、従来方式よりも少ない計算量である。
Let N be the number of appearance positions in a document of one keyword set. In the conventional method described in 
         
  以上のように、実施の形態7によれば、近傍条件判定部108が行う判定処理の近傍条件として、全てのキーワード集合が文書中に出現したとき、前後のキーワード集合間の距離が指定された距離以上である順序指定なし近傍外条件としたので、従来に比べて、順序指定なし近傍外条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the seventh embodiment, when all the keyword sets appear in the document, the distance between the preceding and following keyword sets is specified as the vicinity condition of the determination process performed by the vicinity 
         
実施の形態8.
  実施の形態8は、キーワード集合の文脈条件を判定するようにしたものである。
Embodiment 8 FIG. 
 In the eighth embodiment, the context condition of the keyword set is determined.
      
         
  図14は、実施の形態8の文書検索装置を示す構成図である。
  図示の文書検索装置は、図1に示す検索処理実行部105の近傍条件判定部108を文脈条件判定部112に置き換えたものである。それ以外の構成は、図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。文脈条件判定部112は、検索処理実行部105aに設けられ、複数のキーワード集合が与えられたとき、その全てのキーワード集合が同じ文書の構成単位中に出現するか否かを判定する機能を有するものである。
FIG. 14 is a block diagram showing the document search apparatus according to the eighth embodiment. 
 The illustrated document search apparatus is obtained by replacing the neighborhood 
検索処理における全体の流れは、図3のステップST303の近傍条件に適合しているか否かの判定処理を、文脈条件の判定処理に置き換えたものと同等であるため、ここでの説明は省略する。 The entire flow in the search process is equivalent to the process of determining whether or not the neighborhood condition in step ST303 in FIG. 3 is matched with the context condition determination process, and thus description thereof is omitted here. .
         
  ここで、キーワード集合の文脈条件について説明する。キーワード集合の文脈条件とは、二つ以上のキーワード集合が与えられたとき、その全てのキーワード集合が同じ文書の構成単位中に出現するか否かを判定する条件である。ここで、文書の構成単位とは、文書中の文、段落、章、節、ページのような文書を構成する要素のことである。キーワード集合S1〜Snが指定されたとする。このとき、条件は以下のように判定される。ここでは、文書Dの構成単位をcompDとし、その構成単位の先頭の位置をSTRD(compD)、末尾の位置をENDD(compD)とする。構成単位の先頭位置、末尾位置は、それぞれ文書の先頭からの文字数で表されるとする。
 
         
  図15は、実施の形態8における検索処理実行部105aの処理の流れ図である。
  検索処理実行部105aは、キーワード集合S1〜Snが与えられると、先ず、ステップST1501で判定対象の文書の全ての文書構成単位の先頭位置と末尾位置の情報を取得する。次に、文脈条件判定部112は、ステップST1502でキーワード集合S1〜Snの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1〜knを、キーワード集合照合部107から取得する。
FIG. 15 is a flowchart of processing of the search 
 Search 
ステップST1503では、取得したキーワード集合の出現位置が、文脈条件に適合しているか否かを判定する。即ち、全てのi=1〜nとある文書の構成単位compD j(j=1〜m)に対して、STRD(compD j)≦STRD(ki)、ENDD(ki)≦ENDD(compD j)を満たしているか否かを判定する。ステップST1503で判定対象の文書に対して、取得したキーワード集合の出現位置が、文脈条件に適合しているならば(YES)、ステップST1507に移行し、「適合した」を出力して終了する。一方、ステップST1503で、判定対象の文書に対して、取得したキーワード集合の出現位置が、文脈条件に適合していなければ(NO)、ステップST1504で、文書中でのキーワードの末尾の出現位置が最も後ろのkiが、二つ以上の文書の構成単位に跨っていないか判定する。即ち、あるjに対してSTRD(ki)≦ENDD(compD j)≦ENDD(ki)であるか否かを判定する。 In step ST1503, it is determined whether or not the appearance position of the acquired keyword set matches the context condition. That is, STR D (comp D j ) ≦ STR D (k i ), END D (k i ) with respect to all document constituent units comp D j (j = 1 to m) where i = 1 to n. It is determined whether or not ≦ END D (comp D j ) is satisfied. If the appearance position of the acquired keyword set conforms to the context condition for the document to be determined in step ST1503 (YES), the process proceeds to step ST1507, “conforms” is output, and the process ends. On the other hand, if the appearance position of the acquired keyword set does not match the context condition for the determination target document in step ST1503 (NO), the appearance position of the end of the keyword in the document is determined in step ST1504. rearmost k i is determined or not span construction unit of two or more documents. That is, it is determined whether STR D (k i ) ≦ END D (comp D j ) ≦ END D (k i ) for a certain j .
ステップST1504において、跨っていた場合(YES)、ステップST1505でSiの次の出現位置を取得し、ステップST1506に移行する。ステップST1504で、kiが二つ以上の文書の構成単位に跨っていない場合(NO)、ステップST1506に移行する。ステップST1506では、キーワードの末尾の文書中での出現位置が最も後ろのkiと同じ文書の構成単位に含まれない、全てのキーワード集合の次の出現位置を取得する。ステップST1506でキーワード集合の次の出現位置を取得したら、ステップST1503に戻り、取得したキーワード集合の出現位置が文脈条件に適合するか否かを判定する。 In step ST1504, if it was over (YES), obtains the next occurrence position of S i in step ST 1505, the process proceeds to step ST1506. In Step ST1504, if k i is not across the structural unit of two or more documents (NO), there moves to step ST1506. In step ST1506, the next appearance position of all keyword sets that does not fall within the same document constituent unit as the last k i in the last document of the keyword is acquired. If the next appearance position of a keyword set is acquired by step ST1506, it will return to step ST1503 and it will be determined whether the appearance position of the acquired keyword set is suitable for context conditions.
尚、図15の処理の流れ図では省略したが、ステップST1502、ステップST1505、ステップST1506で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に文脈条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。 Although omitted in the flowchart of the processing in FIG. 15, if the appearance position of the keyword set cannot be obtained in step ST1502, step ST1505, and step ST1506, the appearance position that matches the context condition in the determination target document. Since it means that there is no, output “not fit” and exit.
         
  また、ステップST1501で、文書の構成単位の先頭位置と末尾位置を取得するとしたが、文書の構成単位の先頭・末尾位置の情報は、文書をデータベース110に登録するときに、文書から自動的に抽出してデータベース110に記録しておいても良いし、検索時に判定対象の文書を走査して取得してくるようにしても良い。どちらの場合も、文書の構成単位が文であるときは、句点の直後の文字の位置を先頭位置、次の句点の位置を末尾位置とすることで、自動的に文書から抽出できる。文書の構成単位が段落の場合は、句点の代わりに改行文字を、構成単位の区切り文字とすればよい。
  In step ST1501, the start position and the end position of the document unit are acquired. However, the information on the start and end positions of the document unit is automatically acquired from the document when the document is registered in the 
         
  図16は、実施の形態8の図15に示した処理の流れによる、キーワード集合の文脈条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2、S3が与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2,p3}、S2 D={p4,p5,p6}、S3 D={p7,p8,p9}とする。それらの出現位置の関係は、図16の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(3)の処理は図16中の(1)〜(3)に対応している。
FIG. 16 shows a determination path for keyword context context conditions according to the processing flow shown in FIG. 15 of the eighth embodiment. 
 Assume that keyword sets S 1 , S 2 , and S 3 are given as search conditions. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between their appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (3) correspond to (1) to (3) in FIG.
      
         
(1)図15のステップST1501で、文書Dの全ての構成単位の先頭位置と末尾位置の情報を取得する。次に、ステップST1502で、S1〜S3の文書D中での最初の出現位置p1、p4、p7が取得される。ステップST1503で、取得した出現位置が文脈条件に適合しているか否かを判定する。図16の場合、キーワード集合S1、S3が、構成単位1602に、S2が構成単位1601に含まれるため、文脈条件に適合しない。よって、ステップST1504を経てステップST1506に移行する。ステップST1506では、p1が文書中で最も後ろの位置にあるため、キーワード集合S1が含まれる構成単位1602に含まれていないS2の次の出現位置p5を取得する。
(1) In step ST1501 in FIG. 15, information on the start position and end position of all the structural units of the document D is acquired. Next, in step ST1502, the first appearance positions p 1 , p 4 , and p 7 in the document D of S 1 to S 3 are acquired. In step ST1503, it is determined whether or not the acquired appearance position meets the context condition. In the case of FIG. 16, the keyword sets S 1 and S 3 are included in the 
         
(2)ステップST1503で、出現位置p1、p5、p7に対して文脈条件の判定を実施する。今度はS1、S3は構成単位1602に、S2は構成単位1604に含まれているため、文脈条件に適合しない。ステップST1506で、p5が文書中で最も後ろに位置するため、構成単位1604に含まれないキーワード集合S1とS2の次の出現位置p2、p8を取得する。
(2) In step ST1503, the context condition is determined for the appearance positions p 1 , p 5 , and p 7 . This time, S 1 and S 3 are included in the 
         
(3)ステップST1503で、出現位置p2、p5、p8に対して文脈条件を判定する。今度は、S1、S2、S3が、同じ構成単位1604に含まれるため、文脈条件に適合する。よって、ステップST1507で「適合した」を出力して終了する。
(3) In step ST1503, context conditions are determined for the appearance positions p 2 , p 5 , and p 8 . This time, S 1 , S 2 , and S 3 are included in the same 
         
  文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来の特許文献1記載の方式では、K個のキーワード集合間の文脈条件の判定に要する計算量は、O((MN)K)となる。一方、本実施の形態の文脈条件の判定の場合は、実施の形態2と同様にO(KMN)である。
Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method described in 
尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、文脈条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。 Here, the method of determining the context condition by acquiring the appearance position of the keyword set in order from the beginning of the document has been shown, but the same effect can be obtained by determining the condition in order from the end of the document toward the beginning. can get.
         
  以上のように、実施の形態8によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合が、同一文書の構成単位中に出現することを示す文脈条件を満たすか否かを判定する文脈条件判定部112とを有し、キーワード集合照合部107における出現位置の取得処理と、文脈条件判定部112における文脈条件判定処理とを交互に実行し、文脈条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部105aを備えたので、従来に比べて、文脈条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the eighth embodiment, the keyword 
         
実施の形態9.
  実施の形態9は、キーワード集合の範囲条件を判定するようにしたものである。
Embodiment 9 FIG. 
 In the ninth embodiment, the range condition of the keyword set is determined.
      
         
  図17は、実施の形態9の文書検索装置を示す構成図である。
  図示の文書検索装置は、図1に示す検索処理実行部105の近傍条件判定部108を範囲条件判定部113に置き換えたものである。それ以外の構成は、図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。範囲条件判定部113は、検索処理実行部105bに設けられ、複数のキーワード集合と、一つの文書範囲が与えられたとき、その全てのキーワード集合が同じ文書範囲中に出現するか否かを判定する機能を有するものである。
FIG. 17 is a configuration diagram illustrating the document search apparatus according to the ninth embodiment. 
 The illustrated document search apparatus is obtained by replacing the proximity 
検索処理における全体の流れは、図3のステップST303の近傍条件に適合しているか否かの判定処理を、範囲条件の判定処理に置き換えたものと同等であるため、ここでの説明は省略する。 The overall flow in the search process is the same as that obtained by replacing the determination process of whether or not the neighborhood condition in step ST303 in FIG. .
         
  ここで、キーワード集合の範囲条件について説明する。キーワード集合の範囲条件とは、二つ以上のキーワード集合と、一つの文書範囲が与えられたとき、その全てのキーワード集合が同じ文書範囲中に出現するか否かを判定する条件である。ここで、文書範囲とは、要約、前書き、後書き、本文などのように、文書中のあるまとまりを構成する範囲のことである。キーワード集合S1〜Snと文書範囲が指定されたとする。このとき、範囲条件は以下のように判定される。ここでは、文書D中の範囲をrangeDとし、その文書範囲の先頭の位置をSTRD(rangeD)、末尾の位置をENDD(rangeD)とする。
 
         
  図18は、実施の形態9における、検索処理実行部105bの処理の流れ図である。
  検索処理実行部105bは、キーワード集合S1〜Snと文書範囲rangeDが与えられると、先ず、ステップST1801で判定対象の文書の範囲の先頭位置と末尾位置の情報を取得する。次に、範囲条件判定部113は、ステップST1802でキーワード集合S1〜Snの、判定対象の文書中での最初の出現位置と、その出現位置にあるキーワードk1〜knを、キーワード集合照合部107から取得する。ステップST1803では、取得したキーワード集合の出現位置が、範囲条件に適合しているか否かを判定する。即ち、全てのi=1〜nと文書範囲rangeDに対して、STRD(rangeD)≦STRD(ki)、ENDD(ki)≦ENDD(rangeD)を満たしているか否かを判定する。
FIG. 18 is a flowchart of the process of the search 
 Search 
ステップST1803で判定対象の文書に対して、取得したキーワード集合の出現位置が、範囲条件に適合しているならば(YES)、ステップST1805に移行し、「適合した」を出力して終了する。一方、ステップST1803で、判定対象の文書に対して、取得したキーワード集合の出現位置が、範囲条件に適合していなければ(NO)、ステップST1804で、範囲条件を満たしていない全てのキーワード集合の次の出現位置を取得する。ステップST1804でキーワード集合の次の出現位置を取得したら、ステップST1803で、取得したキーワード集合の出現位置が範囲条件に適合するか否かを判定する。 If the appearance position of the acquired keyword set conforms to the range condition for the document to be determined in step ST1803 (YES), the process proceeds to step ST1805, “conforms” is output, and the process ends. On the other hand, if the appearance position of the acquired keyword set does not match the range condition for the determination target document in step ST1803 (NO), in step ST1804, all keyword sets that do not satisfy the range condition are detected. Get the next occurrence position. When the next appearance position of the keyword set is acquired in step ST1804, it is determined in step ST1803 whether or not the appearance position of the acquired keyword set meets the range condition.
尚、図18の処理の流れ図では省略したが、ステップST1802、ステップST1804で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に範囲条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。また、ステップST1803でENDD(rangeD)<ENDD(ki)となるキーワードがあった場合も、「適合しない」を出力して終了する。 Although omitted in the flowchart of the processing in FIG. 18, if the appearance position of the keyword set cannot be acquired in steps ST1802 and ST1804, there is no appearance position that meets the range condition in the document to be determined. So, output “not fit” and exit. Also, even if there is a keyword to be in step ST1803 END D (range D) < END D (k i), to terminate with a "nonconforming".
         
  図18のステップST1801で、文書範囲の先頭位置と末尾位置を取得するとしたが、文書範囲の先頭・末尾位置の情報は、文書をデータベース110に登録するときに、文書から自動的に抽出してデータベース110に記録しておいても良いし、検索時に判定対象の文書を走査して取得してくるようにしても良い。どちらの場合も、文書範囲の抽出ルールを予め決めておく必要がある。
  In step ST1801 of FIG. 18, the start position and end position of the document range are acquired, but information on the start and end positions of the document range is automatically extracted from the document when the document is registered in the 
         
  図19は、実施の形態9の図18に示した処理の流れよる、キーワード集合の範囲条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2、S3が与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2,p3}、S2 D={p4,p5,p6}、S3 D={p7,p8,p9}とする。それらの出現位置の関係は、図19の通りであるとする。このような検索条件が与えられたとき、以下のようにして判定が実行される。尚、以下の(1)〜(3)の処理は、図19中の(1)〜(3)に対応しているものである。
FIG. 19 shows a determination path for keyword set range conditions according to the processing flow shown in FIG. 18 of the ninth embodiment. 
 Assume that keyword sets S 1 , S 2 , and S 3 are given as search conditions. The appearance position of each keyword set in the document D to be determined is S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6 }, S 3 D = {P 7 , p 8 , p 9 }. The relationship between their appearance positions is as shown in FIG. When such a search condition is given, the determination is executed as follows. The following processes (1) to (3) correspond to (1) to (3) in FIG.
      
(1)図18のステップST1801で、文書Dの指定された範囲の先頭位置と末尾位置の情報を取得する。次に、ステップST1802で、S1〜S3の文書D中での最初の出現位置p1、p4、p7が取得される。ステップST1803で、取得した出現位置が範囲条件に適合しているか否かを判定する。図19の場合、いずれのキーワード集合も指定された範囲に含まれないため、範囲条件に適合しない。よって、ステップST1804では、S1、S2、S3の次の出現位置p2、p5、p8を取得する。 (1) In step ST1801 in FIG. 18, information on the start position and end position of the designated range of the document D is acquired. Next, in step ST1802, the first appearance positions p 1 , p 4 , and p 7 in the document D of S 1 to S 3 are acquired. In step ST1803, it is determined whether or not the acquired appearance position meets the range condition. In the case of FIG. 19, any keyword set is not included in the specified range, and therefore does not meet the range condition. Therefore, in step ST1804, acquires the S 1, S 2, the next occurrence position of S 3 p 2, p 5, p 8.
(2)ステップST1803で、出現位置p2、p5、p8に対して範囲条件の判定を実施する。今度はS1、S2が指定された文書範囲に含まれないため、範囲条件に適合しない。ステップST1804で、S1とS2の次の出現位置p3、p6を取得する。 (2) In step ST1803, the range condition is determined for the appearance positions p 2 , p 5 , and p 8 . This time, since S 1 and S 2 are not included in the designated document range, the range condition is not met. In step ST1804, the next appearance positions p 3 and p 6 of S 1 and S 2 are acquired.
(3)ステップST1803で、出現位置p3、p6、p8に対して文脈条件を判定する。今度は、S1、S2、S3が、指定された文書範囲に含まれるため、範囲条件に適合する。よって、ステップST1805で「適合した」を出力して終了する。 (3) In step ST1803, context conditions are determined for the appearance positions p 3 , p 6 , and p 8 . This time, S 1 , S 2 , and S 3 are included in the designated document range, and therefore meet the range condition. Therefore, “applicable” is output in step ST1805, and the process ends.
         
  文書の文字数をN、キーワード集合に含まれるキーワード数をMとする。従来の特許文献1記載の方式では、K個のキーワード集合間の範囲条件の判定に要する計算量は、O(MKKN)となる。一方、本実施の形態の文脈条件の判定の場合は、実施の形態2と同様にO(KMN)である。
Let N be the number of characters in the document and M be the number of keywords included in the keyword set. In the conventional method described in 
このように、実施の形態9の文書検索装置では、キーワード集合間の範囲条件を、従来の方式と比較して高速に判定することが可能である。 As described above, in the document search apparatus according to the ninth embodiment, it is possible to determine the range condition between keyword sets at a higher speed than in the conventional method.
尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、範囲条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。 Here, the method of acquiring the appearance position of the keyword set in order from the beginning of the document and determining the range condition has been shown, but the same effect can be obtained by determining the condition in order from the end of the document toward the beginning. can get.
         
  以上のように、実施の形態9によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合が、特定の文書範囲中に出現することを示す範囲条件を満たすか否かを判定する範囲条件判定部113とを有し、キーワード集合照合部107における出現位置の取得処理と、範囲条件判定部113における範囲条件判定処理とを交互に実行し、範囲条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたので、従来に比べて、範囲条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the ninth embodiment, the keyword 
         
実施の形態10.
  実施の形態10は、キーワード集合の複合条件を判定するようにしたものである。
Embodiment 10 FIG. 
 In the tenth embodiment, a composite condition of a keyword set is determined.
      
         
  図20は、実施の形態10の文書検索装置を示す構成図である。
  図示の文書検索装置は、図1に示す検索処理実行部105の近傍条件判定部108を複合条件判定部114に置き換えたものである。それ以外の構成は、図1と同様であるため、対応する部分に同一符号を付してその説明を省略する。複合条件判定部114は、検索処理実行部105cに設けられ、二つ以上のキーワード集合が与えられたとき、その全てのキーワード集合が、上記実施の形態2〜実施の形態7のいずれかの近傍条件、実施の形態8の文脈条件、実施の形態9の範囲条件、およびそれらを論理演算で組み合わせた論理条件に適合するか否かを判定する機能を有するものである。
FIG. 20 is a configuration diagram illustrating the document search apparatus according to the tenth embodiment. 
 The illustrated document search apparatus is obtained by replacing the proximity 
検索処理における全体の流れは、図3のステップST303の近傍条件に適合しているか否かの判定処理を、複合条件の判定処理に置き換えたものと同等であるため、ここでの説明は省略する。 Since the entire flow in the search process is equivalent to the process of determining whether or not the neighborhood condition in step ST303 in FIG. 3 is adapted to the complex condition determination process, the description here is omitted. .
ここで、キーワード集合の複合条件について説明する。キーワード集合の複合条件とは、二つ以上のキーワード集合が与えられたとき、その全てのキーワード集合が、近傍条件、文脈条件、範囲条件、およびそれらを論理演算(AND/OR/NOT等)で組み合わせた論理条件に適合するか否かを判定する条件である。複合条件に範囲条件の判定を含む場合は、検索条件として一つの文書範囲も与える。 Here, the compound condition of the keyword set will be described. The compound condition of a keyword set is that when two or more keyword sets are given, all of the keyword sets are neighborhood conditions, context conditions, range conditions, and logical operations (AND / OR / NOT etc.). This is a condition for determining whether or not the combined logical condition is met. When the composite condition includes determination of a range condition, a single document range is also given as a search condition.
         
  図21は、実施の形態10における検索処理実行部105cの処理の流れ図である。
  今、検索条件として、キーワード集合の順序指定あり近傍内条件と、文脈条件と、範囲条件とを論理条件ANDで結合した複合条件が与えられたとする。検索処理実行部105cは、キーワード集合と、キーワード集合間の距離と、一つの文書範囲が指定されると、キーワード集合照合部107によって、ステップST2101で、判定対象の文書の、全ての構成単位と、指定された文書範囲の先頭と末尾の位置を取得する。次に、キーワード集合照合部107は、ステップST2102で全てのキーワード集合の最初の出現位置を取得する。そして、複合条件判定部114は、ステップST2103で、取得したキーワード集合の出現位置が範囲条件に適合するか判定する。
FIG. 21 is a flowchart of processing of the search 
 Now, it is assumed that a compound condition obtained by combining a condition within a neighborhood with a specified keyword set order, a context condition, and a range condition with a logical condition AND is provided as a search condition. When the keyword set, the distance between the keyword sets, and one document range are designated, the search 
ステップST2103において、範囲条件に適合した場合(YES)、ステップST2104に移行し、取得したキーワード集合の出現位置が文脈条件に適合するか判定する。ステップST2104で、文脈条件に適合した場合(YES)、ステップST2105で、取得したキーワード集合の出現位置が近傍条件に適合するか判定する。ステップST2105で、近傍条件に適合した場合、ステップST2106で、「適合した」を出力して終了する。 In step ST2103, when the range condition is met (YES), the process proceeds to step ST2104, and it is determined whether the appearance position of the acquired keyword set matches the context condition. If the context condition is satisfied in step ST2104 (YES), it is determined in step ST2105 whether the appearance position of the acquired keyword set is compatible with the neighborhood condition. If it is determined in step ST2105 that the neighborhood condition is met, “matched” is output in step ST2106, and the process ends.
一方、ステップST2103、ステップST2104、ステップST2105の各条件判定で、条件に適合しなかった場合(NO)は、ステップST2107で、キーワード集合の次の出現位置を取得する。ステップST2107で、出現位置を取得するキーワード集合は、判定で適合しなかった条件によって異なる。範囲条件に適合しなかった場合は、実施の形態9に従ってキーワード集合の出現位置を取得する。文脈条件に適合しなかった場合は、実施の形態8に従ってキーワード集合の出現位置を取得する。近傍条件に適合しなかった場合は、実施の形態2乃至実施の形態7のいずれかに従ってキーワード集合の出現位置を取得する。ステップST2107で、キーワード集合の出現位置を取得したら、ステップST2103に戻って、再び範囲条件を判定する。 On the other hand, when the condition is not satisfied in each condition determination in step ST2103, step ST2104, and step ST2105 (NO), the next appearance position of the keyword set is acquired in step ST2107. In step ST2107, the keyword set from which the appearance position is acquired differs depending on conditions that are not matched in the determination. If the range condition is not met, the appearance position of the keyword set is acquired according to the ninth embodiment. If the context condition is not met, the appearance position of the keyword set is acquired according to the eighth embodiment. If the neighborhood condition is not met, the appearance position of the keyword set is acquired according to any one of the second to seventh embodiments. If the appearance position of a keyword set is acquired in step ST2107, it will return to step ST2103 and will determine a range condition again.
図21の処理の流れ図では省略したが、ステップST2102、ステップST2107で、キーワード集合の出現位置が取得できなかった場合は、その判定対象の文書中に範囲条件に適合する出現位置はないということなので、「適合しない」を出力して終了する。また、ステップST2103で、キーワード集合の文書中での出現位置が、文書範囲より後ろであった場合も「適合しない」を出力して終了する。 Although omitted in the flowchart of the processing of FIG. 21, when the appearance position of the keyword set cannot be acquired in steps ST2102 and ST2107, it means that there is no appearance position that satisfies the range condition in the document to be determined. , "Not fit" is output and the process ends. Also, in step ST2103, if the appearance position of the keyword set in the document is behind the document range, “not fit” is output and the process ends.
         
  図22は、実施の形態10の図21に示した処理の流れによる、キーワード集合の複合条件の判定のパスを示したものである。
  今、検索条件としてキーワード集合S1、S2、S3が与えられたとする。各キーワード集合の、判定対象の文書D中での出現位置を、S1 D={p1,p2,p3}、S2 D={p4,p5,p6,p7}、S3 D={p8,p9,p10}とする。それらの出現位置の関係は、図22の通りであるとする。尚、これらキーワード集合S1、S2、S3の複合条件を満たす具体的な動作は、実施の形態9における範囲条件、実施の形態8における文脈条件、および実施の形態2〜実施の形態7のいずれかによる近傍条件の各条件を全て満たす動作であるため、ここでの説明は省略する。
FIG. 22 shows a determination path for a keyword set compound condition according to the processing flow shown in FIG. 21 of the tenth embodiment. 
 Assume that keyword sets S 1 , S 2 , and S 3 are given as search conditions. The appearance position of each keyword set in the document D to be determined is represented by S 1 D = {p 1 , p 2 , p 3 }, S 2 D = {p 4 , p 5 , p 6, p 7 }, Let S 3 D = {p 8 , p 9 , p 10 }. The relationship between the appearance positions is as shown in FIG. Note that specific operations that satisfy the compound conditions of the keyword sets S 1 , S 2 , and S 3 are the range conditions in the ninth embodiment, the context conditions in the eighth embodiment, and the second to seventh embodiments. Since this is an operation that satisfies all the conditions of the proximity condition by any of the above, description here is omitted.
      
範囲条件に適合する文書中の領域は、近傍条件や文脈条件と比べて局所的である。よって、論理条件ANDで結合された複合条件は、範囲条件から判定することで、より早く条件に適合する領域を絞り込むことができる。論理条件ORで結合された複合条件の場合は、条件に適合する領域が広いものを先に判定することで、より早く判定結果を取得することができる。 The region in the document that meets the range condition is local compared to the neighborhood condition or context condition. Therefore, the complex condition combined with the logical condition AND can be narrowed down the area that matches the condition earlier by determining from the range condition. In the case of a compound condition combined with a logical condition OR, a determination result can be acquired earlier by determining a wide area that meets the condition first.
尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得して、複合条件を判定する方法を示したが、文書の末尾から先頭に向かって順に条件を判定しても、同様の効果が得られる。 Here, the method of determining the compound condition by acquiring the appearance position of the keyword set in order from the beginning of the document has been shown, but the same effect can be obtained by determining the condition in order from the end to the beginning of the document. can get.
         
  以上のように、実施の形態10によれば、複数のキーワード集合の文書中での出現位置をそれぞれのキーワード集合の出現位置順に取得するキーワード集合照合部107と、キーワード集合照合部107で取得した複数のキーワード集合が、所定の近傍条件、同一文書の構成単位中に出現することを示す文脈条件、特定の文書範囲中に出現することを示す範囲条件、およびこれら条件の論理条件を組み合わせた複合条件を満たすか否かを判定する複合条件判定部114とを有し、キーワード集合照合部107における出現位置の取得処理と、複合条件判定部114における複合条件判定処理とを交互に実行し、複合条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部105cを備えたので、従来に比べて、複合条件の判定に要する計算量を削減することができ、このような検索処理における検索時間を短縮することができる。
  As described above, according to the tenth embodiment, the keyword 
         
実施の形態11.
  実施の形態11は、上記各実施の形態1乃至10において、キーワード集合照合部107で、キーワード集合の文書中での出現位置を高速に取得するようにしたものである。
Embodiment 11 FIG. 
 In the eleventh embodiment, in the first to tenth embodiments, the keyword 
         
  実施の形態11の図面上の構成は、各実施の形態1〜11のいずれかと同様であるため、その図示およびキーワード集合照合部107以外の構成の説明は省略する。実施の形態11のキーワード集合照合部107は、キーワード集合として直前に出力した出現位置にあるキーワードの次の出現位置のみを取得し、その取得した出現位置と、他のキーワードの出現位置とを比較し、最も小さいものをキーワード集合の次の出現位置として出力するよう構成されている。
  Since the configuration of the eleventh embodiment on the drawing is the same as that of any of the first to eleventh embodiments, the description of the configuration other than the illustration and the keyword 
         
  次に、実施の形態11における、キーワード集合照合部107の動作について説明する。
  キーワード集合照合部107は、キーワード集合の文書中での最初の出現位置取得要求があると、キーワード集合中の全てのキーワードについて、キーワード照合部109からその最初の出現位置を取得する。キーワード照合部109は、キーワードの出現位置取得要求がある度に、キーワードの出現位置を文書の先頭から順番に一つずつ出力する。例えば、図2の例で説明すると、キーワード集合{キーワード,出現}では、“キーワード”の最初の出現位置である1と、“出現”の最初の出現位置である9を出力する。
Next, the operation of the keyword 
 When there is a first appearance position acquisition request in the keyword set document, the keyword 
         
  キーワード集合照合部107は、キーワード集合中のどのキーワードについても、その出現位置が取得できなかった場合、「ヒットしない」を出力して終了する。一方、キーワード集合中の一つ以上のキーワードについて、その出現位置が取得できたら、その得られた出現位置の中で、文書中で最も早く出現するものを出力して終了する。図2の例では、各キーワードの最初の出現位置は[1,9]であるため、1をキーワード集合の出現位置として出力する。このとき、必要に応じて、その出現位置にあるキーワードやそのキーワード長もあわせて出力するようにしても良い。そして、キーワード集合照合部107は、終了時に出力した出現位置にあるキーワード(図2の例では「キーワード」)と、全てのキーワードについて取得した出現位置の情報(図2の例では[1,9])を内部で記憶しておく。
  If the appearance position of any keyword in the keyword set cannot be acquired, the keyword 
         
  図23は、2回目以降のキーワード集合の出現位置の取得処理の流れである。
  キーワード集合照合部107は、2回目以降のキーワード集合の出現位置の取得要求があった場合、ステップST2301で、前回出力した出現位置にあるキーワードについて、キーワード照合部109から次の出現位置を取得する。ステップST2302で、そのキーワードの出現位置が取得できたか否かを判定する。
FIG. 23 is a flow of the process for acquiring the appearance position of the keyword set for the second and subsequent times. 
 When there is a request for obtaining the appearance position of the keyword set for the second and subsequent times, the keyword 
ステップST2302において、取得できていた場合(YES)、ステップST2303で、ステップST2301で取得してキーワードの出現位置と、前回以前のキーワード集合照合処理で取得したキーワードの出現位置の中で、最も文書中で早く出現するものを出力する。例えば、図2の例では、前回出力した出現位置にあるキーワードは“キーワード”であるため、ステップST2302において、“キーワード”の次の出現位置である18を取得する。次に、ステップST2303において、その他のキーワードである“出現”の出現位置9とを比較し、最も小さいものとして9をキーワード集合{キーワード,出現}の次の出現位置として出力する。 In step ST2302, if it has been acquired (YES), in step ST2303, it is the most in-document among the keyword appearance position acquired in step ST2301 and the keyword appearance position acquired in the previous keyword set matching process. Output what appears earlier. For example, in the example of FIG. 2, since the keyword at the appearance position output last time is “keyword”, in step ST2302, 18 that is the next appearance position of “keyword” is acquired. Next, in step ST2303, the appearance position 9 of the other keyword “appearance” is compared, and 9 is output as the next appearance position of the keyword set {keyword, appearance} as the smallest one.
ステップST2302で、出現位置が取得できなかった場合(NO)、ステップST2304に移行する。ステップST2304では、前回以前のキーワード集合照合処理で取得したキーワードの出現位置の情報があるか否かを判定する。出現位置の情報があった場合(YES)、ステップST2303に移行する。ステップST2304で、出現位置の情報がなかった場合(NO)、ステップST2305で、「ヒットしない」を出力して終了する。例えば、図2の例では、キーワード集合の出現位置として35を出力した後、次の出現位置要求があった場合、その出現位置35にある“キーワード”の次の出現位置は取得できないため、他のキーワードである“出現”の出現位置43をキーワード集合の次の出現位置として出力する。その後は、ステップST2304において、次の出現位置の候補が存在しないため、「ヒットしない」を出力する。 If the appearance position cannot be acquired in step ST2302, the process proceeds to step ST2304. In step ST2304, it is determined whether or not there is information on the appearance position of the keyword acquired in the keyword set matching process before the previous time. If there is information on the appearance position (YES), the process proceeds to step ST2303. When there is no appearance position information in step ST2304 (NO), in step ST2305, “no hit” is output and the process ends. For example, in the example of FIG. 2, when 35 is output as the appearance position of the keyword set and the next appearance position is requested, the next appearance position of the “keyword” at the appearance position 35 cannot be acquired. Is output as the next appearance position of the keyword set. After that, in step ST2304, since there is no candidate for the next appearance position, “no hit” is output.
         
  キーワード照合部109の処理の詳細については触れなかったが、キーワード照合部109は、キーワードの出現位置取得要求に対して、そのキーワードが文書の先頭から何文字目に出現しているかの情報を返すことができれば、どのような方式で実現しても良い。即ち、記憶装置に文字や文字列と、その文書中での出現位置の組の情報を索引として記録しておいても良いし、出現位置取得要求があったときに文書を直接走査して、キーワードの出現位置を取得しても良い。
  Although the details of the processing of the 
         
  以上のように、キーワード集合照合部107を構成したので、キーワード集合の出現位置取得要求がある度に、一つのキーワードについて出現位置を取得するだけで、キーワード集合の出現位置を出力することができる。このように、キーワード集合中の全てのキーワードについて、全ての出現位置を取得することなく、必要最小限のキーワード照合の実行でキーワード集合の出現位置を取得できる。
  As described above, since the keyword 
         
  尚、ここでは文書の先頭から順にキーワード集合の出現位置を取得する方式について示したが、実施の形態1乃至実施の形態10の条件判定の方法によっては、文書の末尾から順にキーワード集合の出現位置を取得することも可能である。その場合は、キーワード照合部109を、文書の末尾から順番に一つずつ出力するように構成する。また、ステップST2303では、キーワードの出現位置の中で、文書中で最も後ろに出現するものを出力すればよい。
  Here, the method for acquiring the appearance position of the keyword set in order from the beginning of the document has been described. However, depending on the condition determination method in the first to tenth embodiments, the appearance position of the keyword set in order from the end of the document. It is also possible to obtain. In that case, the 
         
  以上のように、実施の形態11によれば、キーワード集合照合部107を、キーワード集合として直前に出力した出現位置にあるキーワードの次の出現位置のみを取得し、その取得した出現位置と、他のキーワードの出現位置とを比較し、最も小さいものをキーワード集合の次の出現位置として出力するよう構成したので、キーワード集合の文書中での出現位置を高速に取得することができる。
  As described above, according to the eleventh embodiment, the keyword 
        
101 検索条件、105,105a,105b,105c 検索処理実行部、107 キーワード集合照合部、108 近傍条件判定部、110 データベース、112 文脈条件判定部、113 範囲条件判定部、114 複合条件判定部。 101 Search conditions, 105, 105a, 105b, 105c Search processing execution unit, 107 Keyword set collation unit, 108 Neighborhood condition determination unit, 110 Database, 112 Context condition determination unit, 113 Range condition determination unit, 114 Compound condition determination unit
Claims (11)
前記キーワード集合照合部における出現位置の取得処理と、前記近傍条件判定部における近傍条件判定処理とを交互に実行し、近傍条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。 A keyword set matching unit that obtains the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and the appearance positions of the plurality of keyword sets obtained by the keyword set matching unit satisfy a predetermined neighborhood condition. A neighborhood condition determination unit that determines whether or not to satisfy,
A search that alternately executes an appearance position acquisition process in the keyword set matching unit and a neighborhood condition determination process in the neighborhood condition determination unit, and outputs the determination result as a search result when the neighborhood condition is determined to be true. A document search apparatus comprising a processing execution unit.
前記キーワード集合照合部における出現位置の取得処理と、前記文脈条件判定部における文脈条件判定処理とを交互に実行し、文脈条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。 A keyword set collation unit that acquires the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and a plurality of keyword sets obtained by the keyword set collation unit appear in a constituent unit of the same document A context condition determination unit that determines whether or not a context condition indicating that
Retrieval in which appearance position acquisition processing in the keyword set matching unit and context condition determination processing in the context condition determination unit are alternately executed, and when the context condition is determined to be true, the determination result is output as a search result A document search apparatus comprising a processing execution unit.
前記キーワード集合照合部における出現位置の取得処理と、前記範囲条件判定部における範囲条件判定処理とを交互に実行し、範囲条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。 A keyword set matching unit that obtains the appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and a plurality of keyword sets obtained by the keyword set matching unit appear in a specific document range. A range condition determination unit that determines whether or not a range condition indicating that,
Retrieval in which appearance position acquisition processing in the keyword set matching unit and range condition determination processing in the range condition determination unit are alternately executed, and when the range condition is determined to be true, the determination result is output as a search result A document search apparatus comprising a processing execution unit.
前記キーワード集合照合部における出現位置の取得処理と、前記複合条件判定部における複合条件判定処理とを交互に実行し、複合条件が真と判定された時点でその判定結果を検索結果として出力する検索処理実行部を備えたことを特徴とする文書検索装置。 A keyword set matching unit that obtains appearance positions of a plurality of keyword sets in a document in the order of the appearance positions of the keyword sets, and a plurality of keyword sets obtained by the keyword set matching unit include a predetermined neighborhood condition, A composite condition determining unit that determines whether or not a composite condition that combines a context condition that indicates occurrence in a structural unit, a range condition that indicates that it appears in a specific document range, and a logical condition of these conditions is combined; Have
A search that alternately executes an appearance position acquisition process in the keyword set matching unit and a complex condition determination process in the complex condition determination unit, and outputs the determination result as a search result when the complex condition is determined to be true. A document search apparatus comprising a processing execution unit.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2004156399A JP2005339150A (en) | 2004-05-26 | 2004-05-26 | Document search device | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2004156399A JP2005339150A (en) | 2004-05-26 | 2004-05-26 | Document search device | 
Publications (1)
| Publication Number | Publication Date | 
|---|---|
| JP2005339150A true JP2005339150A (en) | 2005-12-08 | 
Family
ID=35492659
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2004156399A Pending JP2005339150A (en) | 2004-05-26 | 2004-05-26 | Document search device | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP2005339150A (en) | 
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2016133817A (en) * | 2015-01-15 | 2016-07-25 | 富士通株式会社 | Similarity determination apparatus, similarity determination method and similarity determination program | 
| US9747529B2 (en) | 2012-03-19 | 2017-08-29 | Mitsubishi Electric Corporation | Sequence program creation device | 
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPS63257030A (en) * | 1987-04-15 | 1988-10-24 | Hitachi Ltd | String search circuit | 
| JPH04293161A (en) * | 1991-03-20 | 1992-10-16 | Hitachi Ltd | Method and device for retrieving document | 
| JP2000112953A (en) * | 1998-09-30 | 2000-04-21 | Fujitsu Kiden Ltd | Literature retrieval method and its system | 
| US20020143758A1 (en) * | 2001-03-29 | 2002-10-03 | Aref Walid G. | Method for keyword proximity searching in a document database | 
- 
        2004
        - 2004-05-26 JP JP2004156399A patent/JP2005339150A/en active Pending
 
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPS63257030A (en) * | 1987-04-15 | 1988-10-24 | Hitachi Ltd | String search circuit | 
| JPH04293161A (en) * | 1991-03-20 | 1992-10-16 | Hitachi Ltd | Method and device for retrieving document | 
| JP2000112953A (en) * | 1998-09-30 | 2000-04-21 | Fujitsu Kiden Ltd | Literature retrieval method and its system | 
| US20020143758A1 (en) * | 2001-03-29 | 2002-10-03 | Aref Walid G. | Method for keyword proximity searching in a document database | 
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| US9747529B2 (en) | 2012-03-19 | 2017-08-29 | Mitsubishi Electric Corporation | Sequence program creation device | 
| JP2016133817A (en) * | 2015-01-15 | 2016-07-25 | 富士通株式会社 | Similarity determination apparatus, similarity determination method and similarity determination program | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| KR100785928B1 (en) | Photo retrieval method and photo retrieval system using multi-modal information | |
| KR100309062B1 (en) | A method and device for extracting characteristic string, A method and device for searching relevant documents using the above method and device, A memory media having a program for extracting characteristic string, and A memory media having a program for searching relevant documents | |
| JP4806178B2 (en) | Annotation management in pen-based computing systems | |
| KR101448325B1 (en) | A system that facilitates delivering improved query results, a computer implemented method and a computer implemented system that facilitate providing contextual query results | |
| US10185748B1 (en) | Combining natural language and keyword search queries for personal content collections | |
| KR20080066496A (en) | A method for providing search results and a system for performing the method | |
| US20100092088A1 (en) | Methods and data structures for improved searchable formatted documents including citation and corpus generation | |
| US20130254190A1 (en) | Search device, search method, and computer program product | |
| US9087118B2 (en) | Information search apparatus, and information search method, and computer product | |
| JP4724051B2 (en) | Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof | |
| KR100701132B1 (en) | Information processing device and information processing method | |
| KR101868936B1 (en) | Keyword extracting and refining system, and method thereof | |
| US20140280050A1 (en) | Term searching based on context | |
| JP5406313B2 (en) | Document ranking determination system and method based on contribution score | |
| JPH10289240A (en) | Image processing apparatus and control method thereof | |
| JP2005339150A (en) | Document search device | |
| US9405749B2 (en) | Methods and data structures for improved searchable formatted documents including citation and corpus generation | |
| CN100412864C (en) | Full text retrieval system and method | |
| US20110131206A1 (en) | Methods and Apparatus for Presenting Search Results with Indication of Relative Position of Search Terms | |
| KR100933269B1 (en) | Search method and system using color keyword | |
| JPH10289241A (en) | Image processing apparatus and control method thereof | |
| JP2001005830A (en) | Information processing apparatus and method, computer readable memory | |
| CN113868447A (en) | Picture retrieval method, electronic device and computer-readable storage medium | |
| JP2009037359A (en) | Data registration search method, data registration search program, and database system | |
| JP2009199164A (en) | Document management device, document management method and recording medium | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070405 | |
| RD04 | Notification of resignation of power of attorney | Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071015 | |
| RD04 | Notification of resignation of power of attorney | Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080715 | |
| A131 | Notification of reasons for refusal | Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 | |
| A02 | Decision of refusal | Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100622 |