JP2012074087A - Document retrieval system, document retrieval program, and document retrieval method - Google Patents
Document retrieval system, document retrieval program, and document retrieval method Download PDFInfo
- Publication number
- JP2012074087A JP2012074087A JP2012006778A JP2012006778A JP2012074087A JP 2012074087 A JP2012074087 A JP 2012074087A JP 2012006778 A JP2012006778 A JP 2012006778A JP 2012006778 A JP2012006778 A JP 2012006778A JP 2012074087 A JP2012074087 A JP 2012074087A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- translation
- score
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013519 translation Methods 0.000 claims abstract description 210
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 181
- 238000012545 processing Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、キーワードを用いて文書を検索する文書検索システムおよび文書検索方法に関し、とくに翻訳されたキーワードを用いるものに関する。また、この発明は、そのような文書検索システムとしてコンピュータを機能させる文書検索プログラムに関する。 The present invention relates to a document search system and a document search method for searching for a document using a keyword, and more particularly to a method using a translated keyword. The present invention also relates to a document search program that causes a computer to function as such a document search system.
       
  文書検索システムにおいて、文書データベースが複数の言語による文書を含んでいる場合、検索に用いるキーワードとして、入力されたキーワードを他言語に翻訳するシステムが知られている。このようなシステムの例は、特許文献1に記載される。特許文献1には、日本語で指定されたキーワードを英語に翻訳し、日本語の文献については日本語を用いて検索を行い、英語の文献については英語を用いて検索を行うことが記載されている。
  In a document search system, when a document database includes documents in a plurality of languages, a system that translates an input keyword into another language as a keyword used for search is known. An example of such a system is described in US Pat. 
        
         
  しかしながら、従来の技術では、複数の言語を用いて検索を行った場合、検索結果として出力された文書の優先順位を適切に決定できないという問題があった。
  一般的に単語は多義的であるため、母語によって入力されたキーワードを他言語に翻訳する際には必ずしも最適な選択がなされるとは限らない。このため、検索結果の文書リストにおいて文書の優先順位を決定する際に、たとえば翻訳されたキーワードを含む文書について優先順位を適切に決定できない場合がある。
However, in the conventional technique, when a search is performed using a plurality of languages, there is a problem that the priority order of documents output as a search result cannot be determined appropriately. 
 In general, since words are ambiguous, an optimal selection is not always made when a keyword input in a native language is translated into another language. For this reason, when determining the priority order of the document in the document list of the search result, for example, the priority order may not be appropriately determined for the document including the translated keyword.
      
         
  この発明はこのような問題点を解消するためになされたものであり、入力されたキーワードおよび翻訳されたキーワードを用いて文書の検索を行う際に、検索結果として出力された文書の優先順位を適切に決定できる文書検索システムおよび文書検索方法を提供することを目的とする。
  さらに、この発明は、そのような文書検索システムとしてコンピュータを機能させる文書検索プログラムを提供することを目的とする。
The present invention has been made to solve such problems, and when searching for a document using an input keyword and a translated keyword, the priority order of the document output as a search result is set. An object of the present invention is to provide a document search system and a document search method that can be appropriately determined. 
 A further object of the present invention is to provide a document search program that causes a computer to function as such a document search system.
      
         
  この発明に係る文書検索システムは、キーワードを用いて文書を検索する文書検索装置と、翻訳サービス装置と、検索の対象となる複数の文書を記憶する、文書データベースとを含む、文書検索システムであって、
  文書検索装置は、1つ以上のキーワードを入力キーワードとして受け取るキーワード受付手段と、入力キーワードのそれぞれに対応して、入力キーワードが他言語に翻訳された翻訳キーワードを、複数の他言語について取得するキーワード翻訳手段と、入力キーワードおよび翻訳キーワードのそれぞれについてキーワードスコアを決定するキーワードスコア決定手段と、入力キーワードおよび翻訳キーワードに基づいて文書を検索し、複数の検索結果文書を取得する文書検索手段と、検索結果文書のそれぞれについて、キーワードスコアに基づいて文書スコアを算出する文書スコア算出手段と、検索結果文書のそれぞれと、対応する文書スコアとを関連付けて出力する検索結果出力手段とを備え、翻訳サービス装置は、入力キーワードのそれぞれに対応して、順位を有する複数の翻訳キーワードを生成し、翻訳サービス装置は、翻訳キーワードの掲載順に基づいて翻訳キーワードの順位を表し、キーワードスコア決定手段は、入力キーワードのそれぞれと、翻訳キーワードのそれぞれとのすべての組合せについて、順位に基づいて翻訳スコアを決定し、キーワードスコア決定手段は、翻訳キーワードのそれぞれについて、関連する翻訳スコアのすべてに基づいてキーワードスコアを決定し、入力キーワードのキーワードスコアは、その入力キーワードに対応する翻訳キーワードのキーワードスコアのいずれよりも高い。
A document search system according to the present invention is a document search system including a document search device that searches for a document using a keyword, a translation service device, and a document database that stores a plurality of documents to be searched. And 
 The document search apparatus includes a keyword receiving unit that receives one or more keywords as input keywords, and a keyword that acquires, for each of the input keywords, translation keywords obtained by translating the input keywords into other languages for a plurality of other languages. A translation means; a keyword score determination means for determining a keyword score for each of the input keyword and the translation keyword; a document search means for searching a document based on the input keyword and the translation keyword and obtaining a plurality of search result documents; and a search A translation service device comprising: a document score calculating unit that calculates a document score based on a keyword score for each result document; and a search result output unit that outputs each search result document in association with a corresponding document score. That of the input keyword Correspondingly, a plurality of translated keywords having a ranking are generated, the translation service device represents the ranking of the translated keywords based on the posting order of the translated keywords, and the keyword score determining means includes each of the input keywords, The translation score is determined based on the ranking for all combinations with each of the keywords, and the keyword score determining means determines the keyword score based on all of the related translation scores for each of the translation keywords, and the keyword of the input keyword The score is higher than any of the keyword scores of the translation keywords corresponding to the input keyword.
      
         
  文書データベースは、文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶し、翻訳サービス装置は、翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶し、翻訳サービス装置は、入力キーワードに対応する所定の言語を表す言語情報を記憶し、文書スコア算出手段は、文書の文書スコアを算出する際に、入力キーワードおよび翻訳キーワードのうち言語情報が当該文書の言語情報と一致するもののキーワードスコアを適用してもよい。
  文書検索システムは、翻訳キーワードを用いるか否かの指定を受け付け、文書スコア算出手段は、指定に応じて、入力キーワードおよび翻訳キーワードに基づいて文書スコアを算出するか、または翻訳キーワードに関わらず入力キーワードのみに基づいて文書スコアを算出するかを切り替えてもよい。
  文書スコア算出手段は、さらに、入力キーワードおよび翻訳キーワードのそれぞれが検索結果文書に出現する回数に基づいて文書スコアを算出してもよい。
  文書スコア算出手段は、さらに、検索結果文書に対する文字認識処理における認識率に基づいて文書スコアを算出してもよい。
  文書検索手段は、キーワード受付手段が2つ以上の入力キーワードを受け取った場合に、OR検索によって文書を検索する機能と、AND検索によって文書を検索する機能とを備え、文書検索手段は、OR検索において、入力キーワードのいずれかまたは翻訳キーワードのいずれかが出現する文書を検索し、文書検索手段は、AND検索において、すべての入力キーワードについて「その入力キーワードおよびその入力キーワードに対応する各翻訳キーワードのうち少なくとも一つが出現する」という条件を満たす文書を検索してもよい。
The document database stores language information indicating in which language the document is expressed in association with each document, and the translation service device indicates in which language the translation keyword is expressed for each translation keyword. And the translation service device stores language information representing a predetermined language corresponding to the input keyword, and the document score calculating means calculates the document score of the document. Of the input keyword and the translation keyword, the keyword score of the language information that matches the language information of the document may be applied. 
 The document search system accepts designation of whether or not to use the translation keyword, and the document score calculation means calculates the document score based on the input keyword and the translation keyword according to the designation, or inputs regardless of the translation keyword Whether to calculate the document score based only on the keyword may be switched. 
 The document score calculation means may further calculate the document score based on the number of times each of the input keyword and the translation keyword appears in the search result document. 
 The document score calculation means may further calculate the document score based on the recognition rate in the character recognition process for the search result document. 
 The document search means has a function of searching for a document by OR search and a function of searching for a document by AND search when the keyword receiving means receives two or more input keywords. In the AND search, the document search means searches for all the input keywords “for the input keyword and each translation keyword corresponding to the input keyword” in the AND search. A document that satisfies the condition that “at least one of them appears” may be searched.
      
また、この発明に係る文書検索プログラムは、コンピュータを、上述の文書検索システムとして機能させる。 A document search program according to the present invention causes a computer to function as the above-described document search system.
また、この発明に係る文書検索方法は、上述の文書検索システムが文書を検索する文書検索方法である。 A document search method according to the present invention is a document search method in which the above-described document search system searches for a document.
この発明に係る文書検索方法および文書検索システムは、入力されたキーワードおよび翻訳されたキーワードのそれぞれについてキーワードスコアを決定し、このキーワードスコアに基づいて文書スコアを算出するので、検索結果として出力された文書の優先順位を適切に決定することができる。 Since the document search method and the document search system according to the present invention determine the keyword score for each of the input keyword and the translated keyword and calculate the document score based on the keyword score, the document score is output as a search result. Document priorities can be appropriately determined.
      
この発明は、日本語、英語、フランス語、中国語など、さまざまな言語で書かれた文書を含む文書データベースからの検索において、ある言語でキーワードを入力した時に、入力したキーワードを翻訳エンジンによって他国語に変換し、入力したキーワードと、他国語に変換した結果のキーワードとを同時に用いて検索を行う。キーワードにスコアを付与することによってキーワード間の優先順位を付け、この優先順位を、文書の検索結果の優先順位に反映させて出力する。このようにして、多言語に対応する文書検索方式が実現される。 In the present invention, when a keyword is input in a certain language in a search from a document database including documents written in various languages such as Japanese, English, French, and Chinese, the input keyword is converted into another language by a translation engine. A search is performed using the input keyword and the keyword converted into another language at the same time. Priorities among keywords are given by assigning scores to the keywords, and the priorities are reflected in the priorities of search results of documents and output. In this way, a document search method corresponding to multiple languages is realized.
       
  以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
  図1は、この発明に係る文書検索システム100の構成を示す。文書検索システム100は、キーワードを用いて文書を検索するために用いられるシステムである。
  文書検索システム100は、キーワードを用いて文書を検索する文書検索装置10を含む。
Embodiments of the present invention will be described below with reference to the accompanying drawings. 
 
 FIG. 1 shows a configuration of a 
 The 
       
  文書検索装置10は情報処理装置であり、周知のコンピュータとしての構成を有する。
  文書検索装置10は、使用者がキーワードを入力するために用いる入力装置30を備える。この入力装置30は、たとえばマウスやキーボード等である。また、文書検索装置10は、検索処理の結果を使用者に対して表示する表示装置40を備える。表示装置40は、たとえばディスプレイやプリンタ等である。また、文書検索装置10は、演算を行う演算装置20を備える。演算装置20はたとえばCPU(中央処理装置)である。
  また、図示しないが、文書検索装置10は、情報を格納する記憶手段としてメモリおよびHDD(ハードディスクドライブ)を含む。また、文書検索装置10は、他の情報処理装置との間で情報の送受信を行うためのネットワークインタフェースを備える。
The 
 The 
 Although not shown, the 
       
  文書検索装置10の記憶手段には、文書検索装置10および演算装置20の動作を規定する文書検索プログラムが格納されている。演算装置20は、この文書検索プログラムを実行することによって、図1に示すキーワード受付手段21、キーワード翻訳手段22、キーワードスコア決定手段23、文書検索手段24、文書スコア算出手段25、および検索結果出力手段26として機能するが、それぞれの機能の詳細については後述する。
  また、演算装置20が文書検索プログラムまたは別のプログラムを実行することによって、コンピュータである文書検索装置10は、本明細書に記載するその他の機能を実現する。
The storage unit of the 
 In addition, the 
       
  文書検索システム100は、文書検索装置10と通信可能に接続された翻訳サービス装置110を含む。翻訳サービス装置110はキーワードの翻訳を行うものである。翻訳サービス装置110は、ある言語によって表された語句を受け取り、これを他の言語に翻訳して出力する。すなわち、入力されたキーワード(入力キーワード)に基づいて、その入力キーワードが他言語に翻訳されたキーワード(翻訳キーワード)を生成する機能を有する。なお、ここでいう「翻訳」とは、ある言語によるキーワードから別の言語によるキーワードへの変換と捉えることもできる。
  翻訳サービス装置110は複数の言語への翻訳を行うものである。たとえば、日本語による入力キーワードに対して、英語による翻訳キーワードと、フランス語による翻訳キーワードとを生成して出力する。
The 
 The 
       
  また、翻訳サービス装置110は、1つの入力キーワードに対して、順位を有する複数の翻訳キーワードを生成する。すなわち、ある単語に対して、たとえば対応する訳語がそれぞれ用いられる頻度に応じ、最も頻繁に用いられる訳語から順に順位を付与し、翻訳キーワードのリストを生成する。このリストは、たとえば翻訳キーワードを順位に従って並べることによって各翻訳キーワードの順位を表すものであるが、翻訳キーワードと順位を表す数値等とを対応付けることによって各翻訳キーワードの順位を表してもよい。
  翻訳サービス装置110の構成は周知のものを用いることができる。たとえば、翻訳サービス装置110は多数の語句に対してそれぞれ一つ以上の訳語を関連付ける辞書ファイルを格納しており、この辞書ファイルを参照して翻訳を行う。
In addition, the 
 A well-known configuration can be used for the 
       
  文書検索システム100は、文書検索装置10と通信可能に接続された文書データベース120を含む。文書データベース120は、文書検索装置10による検索処理の対象となる複数の文書を記憶する。
  文書データベース120は、1つ以上のキーワードの入力を受け取り、記憶している文書のうちから、キーワードのいずれかを含むものをすべて抽出し、抽出した文書またはそのリストを出力する。
The 
 The 
       
  以上のように構成される文書検索システム100の動作を、図2のフローチャートおよび図3〜図7のデータ例を用いて説明する。
  図2は、文書検索システム100における文書検索装置10の動作を説明するフローチャートである。まずキーワード受付手段21は、検索に用いる1つ以上の入力キーワードを、入力装置30を介して使用者から受け取る(ステップS1、キーワード受付ステップ)。この例では、「先生」「教師」という2つの日本語による入力キーワードが受け取られたものとする。
The operation of the 
 FIG. 2 is a flowchart for explaining the operation of the 
       
  次に、キーワード翻訳手段22は、翻訳サービス装置110を利用し、入力キーワードを翻訳して翻訳キーワードとする(ステップS2、キーワード翻訳ステップ)。このステップS2において、キーワード翻訳手段22は入力キーワードを翻訳サービス装置110に渡し、翻訳サービス装置110は受け取った入力キーワードのそれぞれについて翻訳キーワードを生成してキーワード翻訳手段22に返す。このようにしてキーワード翻訳手段22は翻訳キーワードを取得する。
  Next, the keyword translation means 22 uses the 
       
  図3は、入力キーワードと翻訳キーワードとの対応関係の例を示す。この例では、翻訳キーワードは、図3(a)に示すように英語によるものと、図3(b)に示すようにフランス語によるものとの2種類を含んでいる。図3(a)の表において、「先生」という入力キーワードに対しては、順位1を有する「teacher」、順位2を有する「instructor」および順位3を有する「master」という3つの英語による翻訳キーワードが対応付けられている。このように、翻訳サービス装置110は、入力キーワードのそれぞれについて、順位付けられた複数の翻訳キーワードを対応付けて記憶している。
  FIG. 3 shows an example of the correspondence between input keywords and translation keywords. In this example, there are two types of translation keywords, one in English as shown in FIG. 3 (a) and one in French as shown in FIG. 3 (b). In the table of FIG. 3A, for the input keyword “teacher”, there are three English translation keywords “teacher” having 
       
  また、図3(b)の表において、同じく「先生」という入力キーワードに対して、順位1を有する「professeur」および順位2を有する「instructeur」という2つのフランス語による翻訳キーワードが対応付けられている。このように、キーワード翻訳手段22は、入力キーワードの言語以外の複数の言語について、翻訳キーワードを取得する。
  なお、文書検索装置10は、入力キーワード、取得した翻訳キーワード、および図3に示す対応関係を、表等の形式によって記憶手段に記憶してもよい。
In the table of FIG. 3B, the input keyword “teacher” is also associated with two French translation keywords “professeur” having 
 Note that the 
次に、キーワードスコア決定手段23は、入力キーワードおよび翻訳キーワードのそれぞれについて、キーワードスコアを決定する(ステップS3、キーワードスコア決定ステップ)。ここで、キーワードスコア決定手段23は、図4および図5に示す対応関係に基づいてキーワードスコアを決定する。 Next, the keyword score determination means 23 determines a keyword score for each of the input keyword and the translation keyword (step S3, keyword score determination step). Here, the keyword score determining means 23 determines the keyword score based on the correspondence relationship shown in FIGS.
       
  図4は、翻訳キーワードの順位と、その順位に基づく翻訳スコアとの対応関係の例を示す。キーワードスコア決定手段23は、この翻訳スコアに基づいて、各翻訳キーワードのキーワードスコアを決定する。文書検索装置10は、その記憶手段に、図4に示す対応関係を表等の形式によってあらかじめ記憶しており、また、この対応関係は文書検索装置10の使用者または管理者が適宜変更することができる。
  入力キーワードに対しては、常に一定である所定のスコア、たとえば100が与えられる(なお、このスコアは後述するように翻訳スコアとは一部扱いが異なるので、図4ではカッコを付して示す)。また、翻訳キーワードに対しては、その順位に応じて異なる翻訳スコアが与えられる。与えられるスコアは順位が1つ下がるごとに所定値ずつ、たとえば10ずつ低下し、順位1に対しては90、順位2に対しては80、順位3に対しては70となる。
FIG. 4 shows an example of the correspondence between the ranking of translation keywords and the translation score based on the ranking. The keyword score determination means 23 determines the keyword score of each translation keyword based on this translation score. The 
 A predetermined score that is always constant, for example, 100 is given to the input keyword (note that this score is treated in part differently from the translation score, as will be described later, and is shown in parentheses in FIG. ). Also, different translation scores are given to the translation keywords depending on the ranking. The score to be given decreases by a predetermined value, for example, by 10 every time the rank is lowered, and becomes 90 for 
       
  このスコアの値が大きいほど、そのキーワードを含む文書が検索結果において重視される(すなわち、検索結果においてその文書の順位が高くなる)ことを意味する。このように、キーワードスコア決定手段23は、翻訳キーワードの順位に基づいて翻訳キーワードのキーワードスコアを決定する。
  なお、この順位と翻訳スコアとの関係は、図4に示すものに限らない。順位1に対する翻訳スコアは、入力キーワードに対するキーワードスコアより低い値であればよい。また、順位2以下に対する翻訳スコアは、順位の低下につれて(すなわち、この例では順位を表す数が大きくなるにつれて)単調に減少する関数によるものであればよい。
A larger score value means that a document including the keyword is more important in the search result (that is, the document rank is higher in the search result). Thus, the keyword score determination means 23 determines the keyword score of a translation keyword based on the order of a translation keyword. 
 The relationship between the ranking and the translation score is not limited to that shown in FIG. The translation score for 
       
  翻訳サービス装置110は、一般的に訳語として用いられる頻度に応じて翻訳キーワードの順位付けを行う。ここで、構文や文脈等の情報を考慮しない場合、ある語句に対して辞書等に記載される複数の訳語のうち、実際に訳語として用いられる頻度が大きい訳語は、より適切な訳語ということができる。より適切な訳語を含む文書は、そうでない訳語のみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、順位がより高い翻訳キーワードは、より確からしいキーワードということができる。キーワードスコア決定手段23は、各翻訳キーワードの順位に基づいて翻訳スコアを決定するので、より確からしい翻訳キーワードの翻訳スコアをより高くすることができ、より的確な検索結果を得ることができる。
  なお、翻訳サービス装置110は、各キーワードについて、厳密に統計的な分析によって使用頻度に応じた順位付けを行うものである必要はない。一般的な辞書等は、通常、訳語の使用頻度等をある程度考慮してその掲載順を決定しているので、一般的な辞書として周知のものを用いれば、検索結果の精度向上にある程度の効果を得ることができる。
The 
 Note that the 
       
  図5は、各キーワードについての、順位に基づく翻訳スコアと、最終的に各キーワードに対して与えられるキーワードスコアとの対応関係の例を示す。
  キーワードスコア決定手段23は、入力キーワードに対しては、上述のように、常に100というキーワードスコアを与える。翻訳キーワードに対しては、まず、入力キーワードのそれぞれと、翻訳キーワードのそれぞれとのすべての組合せについて、順位に基づいて翻訳スコアを決定する。図5では、2つの入力キーワードと、5つの翻訳キーワードとの組合せ(合計10通り)のすべてについて、順位に基づく翻訳スコアが与えられている。
FIG. 5 shows an example of the correspondence relationship between the translation score based on the ranking and the keyword score finally given to each keyword for each keyword. 
 The keyword score determining means 23 always gives a keyword score of 100 to the input keyword as described above. For translation keywords, first, for all combinations of each input keyword and each translation keyword, a translation score is determined based on the ranking. In FIG. 5, the translation score based on the ranking is given for all combinations (two types in total) of two input keywords and five translation keywords.
    
       
  たとえば、図3(a)に示すように、翻訳キーワード「master」は、入力キーワード「先生」に対しては順位3を有するので、図4において順位3に対応する翻訳スコア70が与えられる。また、この翻訳キーワード「master」は、入力キーワード「教師」に対しては順位2を有するので、図4において順位2に対応する翻訳スコア80が与えられる。なお、ある翻訳キーワードがいずれかの入力キーワードに対して順位を有しない場合、すなわちその翻訳キーワードがその入力キーワードを翻訳したものでない場合には、その組合せに対する翻訳スコアは0とする。ただし、この場合の翻訳スコアは0でなくともよく、その入力キーワードに対応する他の翻訳キーワードの翻訳スコアのいずれよりも小さい値であればよい。
  For example, as shown in FIG. 3A, the translation keyword “master” has a rank 3 for the input keyword “teacher”, and therefore a 
       
  このようにして決定された翻訳スコアに基づき、さらにキーワードスコア決定手段23は、翻訳キーワードのそれぞれについて最終的なキーワードスコアを決定する。図5の例では、その翻訳キーワードに与えられた翻訳スコアの平均をもって、その翻訳キーワードのキーワードスコアとしている。
  このように、キーワードスコア決定手段23は、翻訳キーワードのそれぞれについて、関連する翻訳スコアのすべてに基づいてキーワードスコアを決定する。
  なお、文書検索装置10は、その記憶手段に、図5に示す対応関係を、表等の形式によって記憶してもよい。
Based on the translation score thus determined, the keyword score determination means 23 further determines a final keyword score for each translation keyword. In the example of FIG. 5, the average of translation scores given to the translation keyword is used as the keyword score of the translation keyword. 
 Thus, the keyword score determination means 23 determines a keyword score based on all the related translation scores for each translation keyword. 
 Note that the 
       
  ここで、入力キーワードに与えられるキーワードスコアは、上述のように常に100である。また、翻訳スコアはすべて90以下(すなわち、順位1に対する翻訳スコア以下)であるので、その平均をとったキーワードスコア(翻訳キーワードのキーワードスコア)は、常に90以下となる。したがって、母語による入力キーワードに与えられるキーワードスコアは、他言語による翻訳キーワードに与えられるキーワードスコアのいずれよりも高い値となる。
  母語による入力キーワードは、誤訳や不適切な訳のおそれがないので、入力キーワードを含む文書は、翻訳キーワードのみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、入力キーワードはより確からしいキーワードということができる。このように、より確からしい入力キーワードのスコアを高く設定して重視し、相対的に翻訳キーワードのスコアを低く設定することによって、より的確な検索結果を得ることができる。
Here, the keyword score given to the input keyword is always 100 as described above. Further, since all translation scores are 90 or less (that is, translation scores for rank 1), the average keyword score (keyword score of translation keyword) is always 90 or less. Therefore, the keyword score given to the input keyword in the native language is higher than any of the keyword scores given to the translation keywords in other languages. 
 Since the input keyword in the native language has no fear of mistranslation or inappropriate translation, the document including the input keyword is more likely to be desired by the user than the document including only the translation keyword. That is, the input keyword can be said to be a more probable keyword. In this way, a more accurate search result can be obtained by setting a higher score for a more certain input keyword and placing importance on it, and setting a relatively low score for the translation keyword.
    
       
  また、この例における翻訳キーワード「master」のように、ある翻訳キーワードが複数の入力キーワードに対応する場合、その翻訳キーワードを含む文書は、他の翻訳キーワードのみを含む文書よりも、使用者が望むものである可能性が高い。すなわち、そのような翻訳キーワードはより確からしいキーワードということができる。
  ここで、キーワードスコア決定手段23は、ある翻訳キーワードに関連する翻訳スコアのすべてに基づいてキーワードスコアを決定することにより、複数の入力キーワードに同時に対応している翻訳キーワードのキーワードスコアを上昇させることができる。たとえば、図5の翻訳キーワード「master」は、入力キーワード「先生」「教師」両方に対応するものであり、それぞれに対応して0でない翻訳スコアを有する。ところが、翻訳キーワード「instructor」は、入力キーワード「先生」には対応するが「教師」には対応せず、「教師」に対する翻訳スコアは0となる。この結果、翻訳キーワード「master」のキーワードスコアがより高くなる。このように、より確からしい翻訳キーワードのスコアを高く設定して重視し、相対的に翻訳キーワードのスコアを低く設定することによって、より的確な検索結果を得ることができる。
In addition, when a certain translation keyword corresponds to a plurality of input keywords, such as the translation keyword “master” in this example, a document including that translation keyword is more desirable by the user than a document including only other translation keywords. There is a high possibility that That is, such a translation keyword can be said to be a more reliable keyword. 
 Here, the keyword score determination means 23 determines the keyword score based on all of the translation scores related to a certain translation keyword, thereby increasing the keyword score of translation keywords corresponding to a plurality of input keywords at the same time. Can do. For example, the translation keyword “master” in FIG. 5 corresponds to both the input keywords “teacher” and “teacher”, and has a translation score other than 0 corresponding to each. However, the translation keyword “instructor” corresponds to the input keyword “teacher” but does not correspond to “teacher”, and the translation score for “teacher” is 0. As a result, the keyword score of the translation keyword “master” becomes higher. In this way, a more accurate search result can be obtained by setting a higher score for a more reliable translation keyword and placing importance on it, and setting a relatively lower score for the translation keyword.
    
       
  次に、文書検索手段24は、文書検索システム100を利用して、入力キーワードおよび翻訳キーワードに基づいて文書を検索し、検索結果文書として複数の文書を取得する(ステップS4、文書検索ステップ)。このステップS4において、文書検索手段24は、入力キーワードおよび翻訳キーワードを文書データベース120に渡し、文書データベース120は、記憶している文書のうちから、入力キーワードおよび翻訳キーワードのいずれかを含むものをすべて抽出し、抽出した文書を検索結果文書として文書検索手段24に返す。
  ここで、文書検索手段24は、母語による入力キーワードと、他言語による翻訳キーワードとを用いて検索を行うので、複数の言語による文書を含む文書データベース120からの検索でも、一度の検索で結果を得ることができる。
Next, the document search means 24 uses the 
 Here, the document search means 24 performs a search using an input keyword in a native language and a translation keyword in another language, so even a search from the 
       
  なお、ステップS4において取得される検索結果文書は、その文書の本文データを識別する情報(タイトル、日時、作成者等)を含むものであるが、必ずしもその本文データを含まないものであってもよい。検索結果文書が本文データを含まない場合には、本文データそのものは使用者による別途の要求に応じて文書データベース120から出力されるものであってもよい。
  The search result document acquired in step S4 includes information (title, date, creator, etc.) for identifying the text data of the document, but may not necessarily include the text data. When the search result document does not include text data, the text data itself may be output from the 
       
  また、検索結果文書のそれぞれには、その本文データ中に各キーワードが出現する回数を表す情報が関連付けられる。
  図6はこのような情報の例を示す。この例では、検索結果文書として文書A〜文書Jが抽出されている。たとえば文書Aには翻訳キーワード「teacher」が12回、翻訳キーワード「instructor」が10回、翻訳キーワード「master」が6回、それぞれ出現しており、文書Aについて全キーワードの出現回数を合計すると28回となることが表される。文書データベース120は、このように、検索結果文書のそれぞれについて、各入力キーワードおよび各翻訳キーワードが出現する回数を計測し、これを検索結果文書のそれぞれに関連付けて文書検索手段24に返す。なお、図6では、検索結果文書は各キーワードが出現する回数の順にソートされている。
  なお、文書検索装置10は、その記憶手段に、図6に示す対応関係を、表等の形式によって記憶してもよい。
Each search result document is associated with information indicating the number of times each keyword appears in the text data. 
 FIG. 6 shows an example of such information. In this example, documents A to J are extracted as search result documents. For example, in the document A, the translation keyword “teacher” appears 12 times, the translation keyword “instructor” appears 10 times, and the translation keyword “master” appears 6 times. It is expressed that it becomes times. In this way, the 
 Note that the 
       
  なお、図6の例ではキーワードが出現する回数を用いているが、この代わりにキーワードが出現する回数に文字認識による認識率を加味したものを用いてもよい。
  文書中の文字列が文字コードによって表される文書(テキストデータやワードプロセッサプログラム用のデータ等)では、文字コードの照合処理を用いてキーワードの出現回数を正確に数えることができる。これに対し、文字列が画像データによって表される文書の場合には、文字認識処理を行って画像を文字コードに変換する必要があるが、この文字認識処理の精度が高いとは限らない。そこで、文字認識処理の際に、その文書について所定の基準で文字認識を行うことができた度合を認識率として評価し、この認識率を加味してもよい。たとえば、認識率に応じてキーワードの出現回数を表す値を減少させてもよい。具体的には、認識率が100%である文書についてはキーワードの出現回数をそのまま用い、認識率が50%である文書についてはキーワードの出現回数を半分にして用いることができる。
  ここで、認識率の算出方法は従来の文字認識処理において周知の方法であればどのようなものを用いてもよい。
In the example of FIG. 6, the number of times the keyword appears is used, but instead, the number of times the keyword appears may be added to the recognition rate by character recognition. 
 In a document in which a character string in a document is represented by a character code (text data, data for a word processor program, etc.), the number of occurrences of a keyword can be accurately counted using character code matching processing. On the other hand, in the case of a document in which a character string is represented by image data, it is necessary to perform character recognition processing to convert the image into a character code. However, the accuracy of this character recognition processing is not necessarily high. Therefore, at the time of character recognition processing, the degree of character recognition that can be performed on the document according to a predetermined standard may be evaluated as a recognition rate, and this recognition rate may be taken into account. For example, the value representing the number of appearances of the keyword may be decreased according to the recognition rate. Specifically, the number of occurrences of a keyword can be used as it is for a document with a recognition rate of 100%, and the number of appearances of a keyword can be halved for a document with a recognition rate of 50%. 
 Here, any method for calculating the recognition rate may be used as long as it is a known method in the conventional character recognition processing.
    
       
  次に、文書スコア算出手段25は、検索結果文書のそれぞれについて、キーワードスコア決定手段23によって決定されたキーワードスコア(図5参照)と、入力キーワードおよび翻訳キーワードのそれぞれが出現する回数(図6参照)とに基づき、文書スコアを算出する(ステップS5、文書スコア算出ステップ)。
  このステップS5において、文書スコアは、たとえば、各キーワードのキーワードスコアと、そのキーワードがその検索結果文書に出現する回数とを乗算し、これをすべてのキーワードについて合計することによって算出される。この文書スコアは、その検索結果文書が、使用者が望むものである可能性(確からしさ)を表すものということができる。
Next, the document score calculation means 25, for each search result document, the keyword score determined by the keyword score determination means 23 (see FIG. 5), and the number of times each of the input keyword and translation keyword appears (see FIG. 6). ) To calculate the document score (step S5, document score calculation step). 
 In this step S5, the document score is calculated, for example, by multiplying the keyword score of each keyword by the number of times that the keyword appears in the search result document, and adding up all the keywords. It can be said that this document score represents the possibility (probability) that the search result document is desired by the user.
    
       
  図7はこの算出方法による算出結果の例を示す。文書Aには、キーワードスコア90を持つ翻訳キーワード「teacher」が12回出現しており、乗算の結果は90×12=1080となる。同様にして、翻訳キーワード「instructor」に対する乗算の結果は400となり、翻訳キーワード「master」に対する乗算の結果は450となる。また、これ以外の入力キーワードおよび翻訳キーワードは文書Aには出現しておらず、乗算の結果は0となる。文書Aの文書スコアは、これらの値をすべて合計した値すなわち1930となる。
  なお、文書検索装置10は、その記憶手段に、図7に示す対応関係を、表等の形式によって記憶してもよい。
  なお、文字列が画像データによって表される文書については、文書スコア算出手段25は、キーワードスコアおよび出現回数に加え、さらに検索結果文書に対する文字認識処理における認識率に基づいて文書スコアを算出してもよい。
FIG. 7 shows an example of a calculation result obtained by this calculation method. In the document A, the translated keyword “teacher” having the 
 Note that the 
 For a document in which a character string is represented by image data, the document score calculation means 25 calculates a document score based on the recognition rate in the character recognition process for the search result document in addition to the keyword score and the number of appearances. Also good.
    
       
  ここで、キーワードスコアはキーワードごとに異なる値なので、キーワードの出現回数が多い文書の文書スコアが必ずしも高くなるとは限らない。たとえば、検索結果文書のうちキーワードの出現回数が最も多いものは文書A(28回、図6参照)であるが、文書スコアが最も高いものは文書C(2500、図7参照)であり、これらの順位が入れ替わっている。この理由は、文書Cに出現するキーワードはすべて入力キーワードであるためキーワードごとのキーワードスコアが比較的高く、逆に文書Aに出現するキーワードはすべて翻訳キーワードであるためキーワードごとのキーワードスコアが比較的低くなるためである。また、各翻訳キーワード間でもキーワードスコアが異なるので、より確からしい翻訳キーワードが重視される。
  このように、文書スコア算出手段25は、各検索結果文書の文書スコアを算出する際に各キーワードの質まで考慮するので、単にキーワードの出現回数によって文書スコアを算出するような方法と比較して、より的確な評価を行うことができる。
Here, since the keyword score is different for each keyword, the document score of a document with many occurrences of the keyword does not necessarily increase. For example, the search result document having the highest number of occurrences of the keyword is the document A (28 times, see FIG. 6), but the document having the highest document score is the document C (2500, see FIG. 7). The order of has changed. This is because the keywords appearing in the document C are all input keywords, so the keyword score for each keyword is relatively high. Conversely, all the keywords appearing in the document A are translation keywords, so the keyword score for each keyword is relatively high. This is because it becomes lower. In addition, since the keyword scores are different among the translation keywords, more probable translation keywords are emphasized. 
 In this way, the document score calculation means 25 considers the quality of each keyword when calculating the document score of each search result document, so that it is compared with a method in which the document score is simply calculated based on the number of occurrences of the keyword. More accurate evaluation can be performed.
    
       
  次に、検索結果出力手段26は、検索結果文書(すなわち文書A〜文書J)と、それぞれについて文書スコア算出手段25によって算出された文書スコアとを関連付けて出力する(ステップS6、検索結果出力ステップ)。この出力は、表示装置40を介して、使用者に対して行われ、これによって使用者は検索結果を知ることができる。この際、検索結果出力手段26は、文書スコアが高いものから順に検索結果文書に順位を付け、この順位に従って出力を行う。
  Next, the search result output means 26 associates and outputs the search result documents (namely, documents A to J) and the document scores calculated by the document score calculation means 25 for each of them (step S6, search result output step). ). This output is made to the user via the 
       
  以上説明するように、この発明の実施の形態1に係る文書検索装置10、文書検索装置10が実行する文書検索方法、および文書検索システム100は、入力されたキーワードおよび翻訳されたキーワードのそれぞれについてキーワードスコアを決定し、このキーワードスコアに基づいて文書スコアを算出するので、検索結果として出力された文書の優先順位を適切に決定することができる。
  As described above, the 
       
  上述の実施の形態1では、入力キーワードを表す言語は日本語であり、翻訳キーワードを表す言語は英語およびフランス語であるが、これらは他の言語であってもよく、たとえば中国語を含んでもよい。入力キーワードを表す言語は使用者が用いる言語に合わせて設定してもよく、翻訳キーワードを表す他言語は文書データベース120に含まれる文書の言語に合わせて設定してもよい。
  翻訳キーワードを表す言語は単一の言語(たとえば英語のみ)であってもよい。また、翻訳サービス装置110は入力キーワードに対して単一の翻訳キーワードを出力するものであってもよく、また、複数の翻訳キーワードを順位付けずに出力するものであってもよい。このような構成であっても、入力キーワードと翻訳キーワードとの間でキーワードスコアが異なるものであれば、従来の検索よりも的確な結果を得ることができる。
In the first embodiment described above, the language representing the input keyword is Japanese, and the languages representing the translation keyword are English and French, but these may be other languages, for example, Chinese. . The language representing the input keyword may be set according to the language used by the user, and the other language representing the translation keyword may be set according to the language of the document included in the 
 The language representing the translation keyword may be a single language (for example, only English). Further, the 
       
  また、実施の形態1の例ではOR検索(論理和検索)が実行されており、複数の入力キーワードおよび複数の翻訳キーワードのうちいずれか一つが出現する文書はすべて検索結果文書として取得される。これとは異なり、AND検索(論理積検索)を実行することもできる。
  この場合、図2のステップS4において、文書検索手段24は、入力キーワードおよび翻訳キーワードを文書データベース120に渡し、AND検索を行うことを指示する。文書データベース120は、記憶している文書のうちから、次の条件iおよびiiを満たす文書をすべて抽出し、抽出した文書を検索結果文書として文書検索手段24に返す。
  ‐条件i:入力キーワード「先生」について、その入力キーワード自体およびこれに対応する翻訳キーワード「teacher」、「instructor」、「master」、「professeur」、「instructeur」のうち少なくとも一つが出現する
  ‐条件ii:入力キーワード「教師」について、その入力キーワード自体およびこれに対応する翻訳キーワード「teacher」、「master」、「professeur」のうち少なくとも一つが出現する
  言い換えると、文書検索手段24および文書データベース120は、入力キーワードのそれぞれについて、当該入力キーワードおよびこれに対応する翻訳キーワードをOR条件によって連結することによって、入力キーワードごとのキーワードグループを作成し、このキーワードグループをすべてAND条件によって連結して最終的な検索条件を作成する。
In the example of the first embodiment, OR search (logical sum search) is performed, and all documents in which any one of a plurality of input keywords and a plurality of translation keywords appear are acquired as search result documents. Unlike this, an AND search (logical product search) can also be executed. 
 In this case, in step S4 of FIG. 2, the document search means 24 passes the input keyword and the translation keyword to the 
 -Condition i: For the input keyword "teacher", at least one of the input keyword itself and the corresponding translation keywords "teacher", "instructor", "master", "professeur", "instructeur" appears ii: For the input keyword “teacher”, at least one of the input keyword itself and the corresponding translation keywords “teacher”, “master”, “professeur” appears. In other words, the document search means 24 and the 
       
  この条件による検索の結果として、たとえば実施の形態1において検索結果文書として図6に示される文書のうち、文書Hは、入力キーワード「教師」もこれに対応する翻訳キーワード「teacher」、「master」、「professeur」も含まないので、条件iiを満たさず、抽出されない。また、文書Jも同様に条件iiを満たさず、抽出されない。
  なお、この例では、翻訳キーワード「teacher」、「master」および「professeur」は、2つの入力キーワード「先生」「教師」のどちらにも対応する翻訳キーワードとなっているので、これらの翻訳キーワードのいずれかが出現する文書は抽出されることになる。たとえば文書Eは翻訳キーワード「teacher」は含み、この翻訳キーワードは条件iおよび条件iiの両方を満たすので、文書Eは抽出される。
  このようなAND検索の場合でも、ステップS5以降の処理はOR検索と同様に行うことができる。すなわち、実施の形態1と同様にして文書スコアが算出され検索結果が出力される。ただし、この例では文書Hおよび文書JはステップS4において抽出されないので、ステップS5以降の処理は文書Hおよび文書Jに対しては実行されない。
As a result of the search under this condition, for example, among the documents shown in FIG. 6 as the search result document in the first embodiment, the document H is the input keyword “teacher” and the corresponding translation keywords “teacher” and “master”. , “Professeur” is not included, so the condition ii is not satisfied and extraction is not performed. Similarly, the document J does not satisfy the condition ii and is not extracted. 
 In this example, the translation keywords “teacher”, “master”, and “professeur” are translation keywords corresponding to both of the two input keywords “teacher” and “teacher”. A document in which either appears will be extracted. For example, the document E includes the translation keyword “teacher”, and since this translation keyword satisfies both the condition i and the condition ii, the document E is extracted. 
 Even in the case of such an AND search, the processing after step S5 can be performed similarly to the OR search. That is, the document score is calculated and the search result is output as in the first embodiment. However, in this example, since the document H and the document J are not extracted in step S4, the processes after step S5 are not executed for the document H and the document J.
    
また、実施の形態1では文書検索手段24による検索の際に必ず翻訳キーワードを用いる検索が行われるが、これは切り替え可能であってもよく、たとえば翻訳キーワードを用いず入力キーワードのみを用いて検索を行うことを使用者が適宜指定可能であってもよい。このようにすると、必要に応じ、入力キーワードのみを用いた従来の文書検索と同等の処理を行うこともできる。 In the first embodiment, the search using the translation keyword is always performed at the time of the search by the document search means 24. However, this may be switchable. For example, the search is performed using only the input keyword without using the translation keyword. It may be possible for the user to designate as appropriate. In this way, if necessary, it is possible to perform a process equivalent to a conventional document search using only input keywords.
       
  文書データベース120は、検索対象となる文書のそれぞれについて、その文書がどの言語で表されたものかを示す言語情報を関連付けて記憶してもよく、翻訳サービス装置110も同様に、翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶してもよい。この場合、入力キーワードは常に母語に相当する所定の言語によるものとして扱えばよい。
  たとえば、日本語のあるキーワードを中国語に翻訳しても同一の表記(同一のキャラクターコードによって表される文字列)となる場合がある。このようなキーワードについては、日本語による文書に対しては入力キーワードのキーワードスコアを適用し、中国語による文書に対しては翻訳キーワードのキーワードスコアを適用することができる。すなわち、入力キーワードおよび翻訳キーワードのうち、異なる言語で同一の表記となるキーワードについては、検索結果文書の文書スコアを算出する際に、その検索結果文書と言語情報が一致するもののキーワードスコアを用いてもよい。
  このようにすると、複数の言語で同一の表記となるキーワードが含まれていた場合であっても、各キーワードの確からしさを適切に評価することができる。
The 
 For example, even if a Japanese keyword is translated into Chinese, the same notation (a character string represented by the same character code) may be obtained. For such keywords, the keyword score of the input keyword can be applied to a document in Japanese, and the keyword score of a translation keyword can be applied to a document in Chinese. That is, for keywords that have the same notation in different languages among input keywords and translation keywords, the keyword score of the search result document that matches the language information is used when calculating the document score of the search result document. Also good. 
 In this way, even if keywords having the same notation in a plurality of languages are included, the likelihood of each keyword can be appropriately evaluated.
    
       
  また、実施の形態1では、検索結果文書にキーワードが出現する回数は文書データベース120が計測するが、これは他の構成要素が計測してもよい。たとえば、検索結果文書の本文データが文書データベース120から文書検索装置10に渡され、文書検索装置10の文書検索手段24または文書スコア算出手段25が計測してもよい。
  In the first embodiment, the 
       
  翻訳サービス装置110および文書データベース120は、キーワードの翻訳および文書の検索に関して文書検索装置10との間で適切な情報の送受信ができるものであればどのようなものでもよいが、たとえばそれぞれコンピュータによって構成されてもよく、また、それぞれの記憶手段に格納されたプログラムを実行することによって、翻訳サービス装置110および文書データベース120としての機能を実現するものであってもよい。この場合、文書検索装置10のプログラム、翻訳サービス装置110のプログラム、および文書データベース120のプログラムが、文書検索プログラムとして、これらのコンピュータを文書検索システム100として機能させることになる。
  The 
       
  実施の形態1のハードウエア構成では、単一のコンピュータである文書検索装置10にはキーワード受付手段21、キーワード翻訳手段22、キーワードスコア決定手段23、文書検索手段24、文書スコア算出手段25および検索結果出力手段26が含まれ、これとは別に、それぞれ単一のコンピュータとして翻訳サービス装置110および文書データベース120が設けられる。しかしながら、ハードウエア構成はこれとは異なるものであってもよい。たとえば、文書検索装置10を構成するコンピュータが翻訳サービス装置110としての機能や文書データベース120としての機能を兼ね備えてもよい。
  In the hardware configuration of the first embodiment, the 
Claims (8)
翻訳サービス装置と、
検索の対象となる複数の前記文書を記憶する、文書データベースと
を含む、文書検索システムであって、
前記文書検索装置は、
1つ以上のキーワードを入力キーワードとして受け取るキーワード受付手段と、
前記入力キーワードのそれぞれに対応して、前記入力キーワードが他言語に翻訳された翻訳キーワードを、複数の他言語について取得するキーワード翻訳手段と、
前記入力キーワードおよび前記翻訳キーワードのそれぞれについてキーワードスコアを決定するキーワードスコア決定手段と、
前記入力キーワードおよび前記翻訳キーワードに基づいて文書を検索し、複数の検索結果文書を取得する文書検索手段と、
前記検索結果文書のそれぞれについて、前記キーワードスコアに基づいて文書スコアを算出する文書スコア算出手段と、
前記検索結果文書のそれぞれと、対応する前記文書スコアとを関連付けて出力する検索結果出力手段と
を備え、
前記翻訳サービス装置は、前記入力キーワードのそれぞれに対応して、順位を有する複数の前記翻訳キーワードを生成し、
前記翻訳サービス装置は、前記翻訳キーワードの掲載順に基づいて前記翻訳キーワードの順位を表し、
前記キーワードスコア決定手段は、前記入力キーワードのそれぞれと、前記翻訳キーワードのそれぞれとのすべての組合せについて、前記順位に基づいて翻訳スコアを決定し、
前記キーワードスコア決定手段は、前記翻訳キーワードのそれぞれについて、関連する前記翻訳スコアのすべてに基づいて前記キーワードスコアを決定し、
前記入力キーワードの前記キーワードスコアは、その入力キーワードに対応する前記翻訳キーワードの前記キーワードスコアのいずれよりも高い、
文書検索システム。 A document search device for searching for documents using keywords;
A translation service device;
A document search system including a document database for storing a plurality of documents to be searched,
The document search device includes:
Keyword accepting means for receiving one or more keywords as input keywords;
Corresponding to each of the input keywords, keyword translation means for acquiring a translation keyword obtained by translating the input keyword into another language for a plurality of other languages;
Keyword score determining means for determining a keyword score for each of the input keyword and the translated keyword;
Document search means for searching for a document based on the input keyword and the translation keyword and obtaining a plurality of search result documents;
Document score calculation means for calculating a document score based on the keyword score for each of the search result documents;
Search result output means for associating and outputting each of the search result documents and the corresponding document score,
The translation service device generates a plurality of translation keywords having a rank corresponding to each of the input keywords,
The translation service device represents the ranking of the translation keywords based on the posting order of the translation keywords,
The keyword score determining means determines a translation score based on the rank for all combinations of each of the input keywords and each of the translation keywords,
The keyword score determining means determines the keyword score based on all of the related translation scores for each of the translation keywords,
The keyword score of the input keyword is higher than any of the keyword scores of the translation keyword corresponding to the input keyword.
Document search system.
前記翻訳サービス装置は、前記翻訳キーワードのそれぞれについて、その翻訳キーワードがどの言語で表されたものかを示す言語情報を関連付けて記憶し、
前記翻訳サービス装置は、前記入力キーワードに対応する所定の言語を表す言語情報を記憶し、
前記文書スコア算出手段は、前記文書の前記文書スコアを算出する際に、前記入力キーワードおよび前記翻訳キーワードのうち前記言語情報が当該文書の前記言語情報と一致するものの前記キーワードスコアを適用する、請求項1に記載の文書検索システム。 The document database stores, in association with each of the documents, language information indicating in which language the document is expressed,
The translation service device associates and stores language information indicating in which language the translation keyword is expressed for each of the translation keywords,
The translation service device stores language information representing a predetermined language corresponding to the input keyword,
The document score calculation means applies the keyword score of the input keyword and the translation keyword when the language information matches the language information of the document when calculating the document score of the document. Item 2. The document search system according to Item 1.
前記文書スコア算出手段は、前記指定に応じて、
前記入力キーワードおよび前記翻訳キーワードに基づいて前記文書スコアを算出するか、または
前記翻訳キーワードに関わらず前記入力キーワードのみに基づいて前記文書スコアを算出するか
を切り替える、請求項1または2に記載の文書検索システム。 The document search system accepts designation as to whether or not to use the translation keyword,
In response to the designation, the document score calculation means
The document score is calculated based on the input keyword and the translation keyword, or the document score is calculated based on only the input keyword regardless of the translation keyword. Document search system.
前記文書検索手段は、前記OR検索において、前記入力キーワードのいずれかまたは前記翻訳キーワードのいずれかが出現する文書を検索し、
前記文書検索手段は、前記AND検索において、すべての前記入力キーワードについて「その入力キーワードおよびその入力キーワードに対応する各翻訳キーワードのうち少なくとも一つが出現する」という条件を満たす文書を検索する、請求項1〜5のいずれか一項に記載の文書検索システム。 The document search means comprises a function of searching for a document by OR search and a function of searching for a document by AND search when the keyword receiving means receives two or more input keywords,
The document search means searches for a document in which either the input keyword or the translation keyword appears in the OR search,
The document search means searches for documents satisfying a condition that “at least one of the input keyword and each translation keyword corresponding to the input keyword appears” for all the input keywords in the AND search. The document search system according to any one of 1 to 5.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2012006778A JP4945015B2 (en) | 2012-01-17 | 2012-01-17 | Document search system, document search program, and document search method | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2012006778A JP4945015B2 (en) | 2012-01-17 | 2012-01-17 | Document search system, document search program, and document search method | 
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2009514574A Division JPWO2010109594A1 (en) | 2009-03-24 | 2009-03-24 | Document search device, document search system, document search program, and document search method | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JP2012074087A true JP2012074087A (en) | 2012-04-12 | 
| JP4945015B2 JP4945015B2 (en) | 2012-06-06 | 
Family
ID=46170092
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2012006778A Expired - Fee Related JP4945015B2 (en) | 2012-01-17 | 2012-01-17 | Document search system, document search program, and document search method | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP4945015B2 (en) | 
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP5559911B1 (en) * | 2013-06-17 | 2014-07-23 | ソフトバンクモバイル株式会社 | Information retrieval apparatus and program | 
| WO2017188606A3 (en) * | 2016-04-27 | 2018-09-07 | 삼성전자 주식회사 | Terminal device and method for providing additional information | 
| CN112597268A (en) * | 2020-12-22 | 2021-04-02 | 南京邮电大学 | Retrieval filtering threshold value selection method for cloud environment ciphertext retrieval efficiency optimization | 
| CN112749316A (en) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | Translation quality determination method and device, storage medium and processor | 
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH05151253A (en) * | 1991-11-29 | 1993-06-18 | Canon Inc | Document retrieving device | 
| JP2006344010A (en) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | Document retrieval device | 
- 
        2012
        - 2012-01-17 JP JP2012006778A patent/JP4945015B2/en not_active Expired - Fee Related
 
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH05151253A (en) * | 1991-11-29 | 1993-06-18 | Canon Inc | Document retrieving device | 
| JP2006344010A (en) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | Document retrieval device | 
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP5559911B1 (en) * | 2013-06-17 | 2014-07-23 | ソフトバンクモバイル株式会社 | Information retrieval apparatus and program | 
| WO2017188606A3 (en) * | 2016-04-27 | 2018-09-07 | 삼성전자 주식회사 | Terminal device and method for providing additional information | 
| US10977450B2 (en) | 2016-04-27 | 2021-04-13 | Samsung Electronics Co., Ltd. | Terminal device and method for providing additional information | 
| CN112749316A (en) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | Translation quality determination method and device, storage medium and processor | 
| CN112597268A (en) * | 2020-12-22 | 2021-04-02 | 南京邮电大学 | Retrieval filtering threshold value selection method for cloud environment ciphertext retrieval efficiency optimization | 
| CN112597268B (en) * | 2020-12-22 | 2022-09-20 | 南京邮电大学 | A retrieval filtering threshold selection method for optimization of ciphertext retrieval efficiency in cloud environment | 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP4945015B2 (en) | 2012-06-06 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| US12386872B2 (en) | Language detection of user input text for online gaming | |
| US10394851B2 (en) | Methods and systems for mapping data items to sparse distributed representations | |
| US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
| US9147007B2 (en) | Query expression conversion apparatus, query expression conversion method, and computer program product | |
| JP5710581B2 (en) | Question answering apparatus, method, and program | |
| US20140074886A1 (en) | Taxonomy Generator | |
| JP2010225135A (en) | Disambiguation method and system | |
| US9754022B2 (en) | System and method for language sensitive contextual searching | |
| JP6705318B2 (en) | Bilingual dictionary creating apparatus, bilingual dictionary creating method, and bilingual dictionary creating program | |
| US8812504B2 (en) | Keyword presentation apparatus and method | |
| WO2010109594A1 (en) | Document search device, document search system, document search program, and document search method | |
| JP2011118689A (en) | Retrieval method and system | |
| CN111373386A (en) | Similarity index value calculation device, similarity retrieval device, and similarity index value calculation program | |
| US20140074860A1 (en) | Disambiguator | |
| US20190188647A1 (en) | Multiple element job classification | |
| JP4945015B2 (en) | Document search system, document search program, and document search method | |
| US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
| JP2006178599A (en) | Document retrieval device and method | |
| US20140358522A1 (en) | Information search apparatus and information search method | |
| JP4567025B2 (en) | Text classification device, text classification method, text classification program, and recording medium recording the program | |
| US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
| US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
| JP3486406B2 (en) | Patent information search device | |
| JP5691558B2 (en) | Example sentence search device, processing method, and program | |
| JP6934621B2 (en) | Methods, equipment, and programs | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120117 | |
| A871 | Explanation of circumstances concerning accelerated examination | Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20120117 | |
| TRDD | Decision of grant or rejection written | ||
| A975 | Report on accelerated examination | Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20120206 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120302 | |
| R150 | Certificate of patent or registration of utility model | Ref document number: 4945015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| LAPS | Cancellation because of no payment of annual fees |