JP2007140639A - Data display device, data display method, and data display program - Google Patents
Data display device, data display method, and data display program Download PDFInfo
- Publication number
- JP2007140639A JP2007140639A JP2005330009A JP2005330009A JP2007140639A JP 2007140639 A JP2007140639 A JP 2007140639A JP 2005330009 A JP2005330009 A JP 2005330009A JP 2005330009 A JP2005330009 A JP 2005330009A JP 2007140639 A JP2007140639 A JP 2007140639A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- data
- document
- screen
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、データ表示技術に関し、特に、あるキーワードを含む文書群において、出現頻度の高い他のキーワードを一見して把握できるような表示を行うデータ表示装置、データ表示方法およびデータ表示プログラムに関する。 The present invention relates to a data display technique, and more particularly, to a data display device, a data display method, and a data display program that perform display so that other keywords with high appearance frequency can be understood at a glance in a document group including a certain keyword.
従来から、文書中に含まれるキーワードの頻度を算出し、算出された頻度を表示する技術は存在した。 Conventionally, there has been a technique for calculating the frequency of keywords included in a document and displaying the calculated frequency.
         
  また、例えば、データを表形式で表示する技術について、下記の非特許文献1に記載されている。
 
しかし、上記従来技術は、文書群中に含まれるキーワードの出現頻度に基づいて、各キーワードに対して優先度を設定し、より優先度の高いキーワードを含む文書の順に、各文書の文書データをソートして表示することは行っていない。 However, in the above prior art, priority is set for each keyword based on the appearance frequency of the keyword included in the document group, and the document data of each document is stored in the order of the document including the higher priority keyword. It is not sorted and displayed.
従って、従来技術では、例えば、あるキーワードを含む文書群において、出現頻度の高い他のキーワードを一見して把握できるような表示を行うことはできない。従来技術では、あるキーワードを含む文書中にどのキーワードが共起して出現するかといった、キーワード間の共起関係を把握することができない。 Therefore, in the related art, for example, in a document group including a certain keyword, it is not possible to display such that other keywords with high appearance frequency can be grasped at a glance. In the prior art, it is impossible to grasp the co-occurrence relationship between keywords such as which keywords co-occur in a document including a certain keyword.
本発明は、上記従来技術の問題点を解決し、あるキーワードを含む文書群において、出現頻度の高い他のキーワードを一見して把握できるような表示を行うデータ表示装置、データ表示方法およびデータ表示プログラムの提供を目的とする。 The present invention solves the above-mentioned problems of the prior art, and in a document group including a certain keyword, a data display device, a data display method, and a data display for performing display so that other keywords with high appearance frequency can be grasped at a glance The purpose is to provide a program.
上記課題を解決するため、本発明は、データ表示装置であって、複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、前記算出された頻度に基づいて、前記各キーワードのスコアを算出するスコア算出手段と、前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段とを備え、前記表示手段は、さらに、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示することを特徴とする。 In order to solve the above-described problems, the present invention provides a data display device that extracts a keyword included in a document group composed of a plurality of documents, and the document for each of the extracted keywords. Frequency calculation means for calculating the frequency of appearance in the group, score calculation means for calculating the score of each keyword based on the calculated frequency, and the calculated score as the priority of each keyword A data sorting means for sorting the document data of the documents constituting the document group in the order of the documents including the set higher priority keywords, and displaying the sorted document data on the screen as display data On the same screen as the screen on which the document data is displayed on the screen, the keywords are displayed as display data in descending order of priority. Display means for displaying a screen, and the display means further displays on the screen information indicating whether a document corresponding to each document data displayed on the screen includes each keyword displayed on the screen as display data. It is characterized by that.
また、本発明は、データ表示装置であって、入力された、文書群中の文書と各文書に含まれるキーワードとに基づいて、各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、前記算出された頻度に基づいて、前記各キーワードのスコアを算出するスコア算出手段と、前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段とを備え、前記表示手段は、さらに、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示することを特徴とする。 In addition, the present invention is a data display device, and based on an input document in a document group and a keyword included in each document, a frequency for calculating the frequency of occurrence of each keyword in the document group A calculating means; a score calculating means for calculating a score of each keyword based on the calculated frequency; and the calculated score is set as a priority of each keyword, and the set priority is more A data sorting means for sorting document data of documents constituting the document group in order of documents including a high keyword, and a screen on which the document data is displayed on the screen while displaying the sorted document data as display data. Display means for displaying each of the keywords as display data in descending order of priority on the same screen. In, characterized in that the screen displays information document for each document data said screen display indicates whether contains the keywords that are the screen display as display data.
また、本発明は、前記のデータ表示装置において、さらに、キーワードを選択するキーワード選択手段と、前記キーワード抽出手段によって抽出された各キーワードの、前記選択されたキーワードを含む文書群中に出現する頻度である内部頻度を算出する内部頻度算出手段と、前記内部頻度算出手段が算出した内部頻度に基づいて、前記各キーワードの内部スコアを算出する内部スコア算出手段とを備え、前記データソート手段は、前記算出された内部スコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートすることを特徴とする。 In the data display device, the present invention further includes a keyword selection unit that selects a keyword, and a frequency at which each keyword extracted by the keyword extraction unit appears in a document group including the selected keyword. Internal frequency calculation means for calculating the internal frequency and internal score calculation means for calculating the internal score of each keyword based on the internal frequency calculated by the internal frequency calculation means, and the data sorting means The calculated internal score is set as the priority of each keyword, and the document data of the documents constituting the document group is sorted in the order of the document including the keyword with the higher priority set. To do.
また、本発明は、前記のデータ表示装置において、さらに、前記内部頻度算出手段は、前記キーワード選択手段によって複数のキーワードが選択された場合に、前記キーワード抽出手段によって抽出された各キーワードの、前記選択された複数のキーワードの全てを含む文書群中に出現する頻度を、前記内部頻度として算出することを特徴とする。 In the data display device according to the present invention, the internal frequency calculation unit may further include: the plurality of keywords selected by the keyword selection unit; The frequency of appearing in a document group including all of the plurality of selected keywords is calculated as the internal frequency.
また、本発明は、前記のデータ表示装置において、前記スコア算出手段は、前記キーワード抽出手段によって抽出された各キーワードの文字数と、前記頻度算出手段によって算出された頻度とに基づいて、前記各キーワードのスコアを算出し、前記データソート手段は、前記頻度算出手段によって算出された頻度と前記スコア算出手段によって算出されたスコアとに基づいて、前記各キーワードの優先度を設定し、前記内部頻度算出手段によって算出された内部頻度と前記内部スコア算出手段によって算出された内部スコアとに基づいて、前記各キーワードの優先度を更新し、更新された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書データをソートすることを特徴とする。 Further, according to the present invention, in the data display device, the score calculation unit is configured to calculate each keyword based on the number of characters of each keyword extracted by the keyword extraction unit and the frequency calculated by the frequency calculation unit. The data sorting means sets the priority of each keyword based on the frequency calculated by the frequency calculating means and the score calculated by the score calculating means, and calculates the internal frequency. Based on the internal frequency calculated by the means and the internal score calculated by the internal score calculating means, the priority of each keyword is updated, and the document including the keyword with the higher priority is updated in the order of the document. The document data constituting the document group is sorted.
また、本発明は、前記のデータ表示装置において、前記表示手段は、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを何個含んでいるかを示す情報を表示データとして画面表示することを特徴とする。 In the data display device according to the present invention, the display unit may display information indicating how many keywords displayed on the screen include a document corresponding to each document data displayed on the screen. As a screen display.
また、本発明は、前記のデータ表示装置において、前記表示手段は、前記頻度算出手段によって算出された頻度が予め定められた閾値未満であるキーワードを含む文書については、その文書が前記頻度が前記閾値未満であるキーワードを含むことを示す情報を、前記頻度が予め定められた閾値以上であるキーワードを画面表示する表示領域とは別の表示領域に表示データとして画面表示することを特徴とする。 Further, in the data display device according to the present invention, for the document including a keyword whose frequency calculated by the frequency calculating unit is less than a predetermined threshold, the document has the frequency Information indicating that a keyword that is less than a threshold value is included is displayed on the screen as display data in a display area that is different from a display area that displays a keyword whose frequency is equal to or higher than a predetermined threshold value.
また、本発明は、前記のデータ表示装置において、さらに、前記表示手段によって画面表示される表示データを指定する表示データ指定手段を備え、前記表示手段は、前記表示データ指定手段によって指定された表示データのみを画面表示することを特徴とする。 The data display device may further include display data designating means for designating display data to be displayed on the screen by the display means, wherein the display means is a display designated by the display data designating means. Only the data is displayed on the screen.
また、本発明は、前記のデータ表示装置において、前記データソート手段は、前記文書群を構成する文書の文書データを、各文書に関連する日付について降順または昇順にソートすることを特徴とする。 In the data display device according to the present invention, the data sorting unit sorts the document data of the documents constituting the document group in descending or ascending order with respect to dates related to each document.
また、本発明は、データ表示方法であって、複数の文書から構成される文書群中に含まれるキーワードを抽出するステップと、前記抽出された各キーワードの、前記文書群中に出現する頻度を算出するステップと、前記算出された頻度に基づいて、前記各キーワードのスコアを算出するステップと、前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするステップと、前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示するステップと、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示するステップとを有することを特徴とする。 The present invention is also a data display method, comprising: extracting a keyword included in a document group composed of a plurality of documents; and a frequency at which each of the extracted keywords appears in the document group. A step of calculating, a step of calculating a score of each keyword based on the calculated frequency, and setting the calculated score as a priority of each keyword, and the set priority is higher Sorting document data of documents constituting the document group in order of documents including keywords, displaying the sorted document data on the screen as display data, and the same screen as the screen on which the document data is displayed on the screen In the above, displaying each of the keywords as display data in order of the priority, and displaying each sentence displayed on the screen Document corresponding to the data is characterized by a step of screen display information indicating that contains each keyword that is the screen display as display data.
また、本発明は、データ表示装置が備えるコンピュータに実行させるためのプログラムであって、前記コンピュータを、複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、前記算出された頻度に基づいて、前記各キーワードのスコアを算出するスコア算出手段と、前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段として機能させるためのプログラムであって、前記表示手段は、さらに、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示することを特徴とする。 Further, the present invention is a program for causing a computer included in a data display device to execute a program, wherein the computer extracts a keyword included in a document group composed of a plurality of documents, and the extraction Frequency calculation means for calculating the frequency of each keyword appearing in the document group, score calculation means for calculating the score of each keyword based on the calculated frequency, and the calculated score A data sorting unit configured to sort document data of documents constituting the document group in the order of documents including a keyword having a higher priority set and set as the priority of each keyword; and the sorted document data Is displayed as display data on the same screen as the screen on which the document data is displayed on the screen. A program for causing a keyword to function as a display unit that displays a screen as display data in descending order of priority, wherein the display unit further displays a document corresponding to each document data displayed on the screen. Information indicating whether or not each keyword is included is displayed on the screen as display data.
本発明のデータ表示装置は、文書群中に含まれるキーワードの出現頻度に基づいて、各キーワードに対して優先度を設定し、より優先度の高いキーワードを含む文書の順に、各文書の文書データをソートして画面表示する。 The data display device of the present invention sets the priority for each keyword based on the appearance frequency of the keyword included in the document group, and the document data of each document in the order of the document including the higher priority keyword. Sort and display on the screen.
また、本発明は、文書データが画面表示される画面と同一画面上において、各キーワードを、優先度の高い順に画面表示するとともに、画面表示された各文書データに対応する文書が、画面表示された各キーワードを含んでいるかを示す情報を画面表示する。 Further, the present invention displays each keyword on the same screen as the screen on which the document data is displayed on the screen in order of priority, and displays the document corresponding to each document data displayed on the screen on the screen. Information indicating whether each keyword is included is displayed on the screen.
従って、本発明によれば、あるキーワードを含む文書群において、出現頻度の高い他のキーワードを一見して把握できるような表示を行うことができる。また、本発明によれば、あるキーワードを含む文書中にどのキーワードが共起して出現するかといった、キーワード間の共起関係を容易に把握することが可能となる。 Therefore, according to the present invention, in a document group including a certain keyword, it is possible to display such that other keywords with high appearance frequency can be grasped at a glance. Further, according to the present invention, it is possible to easily grasp the co-occurrence relationship between keywords, such as which keywords co-occur in a document including a certain keyword.
また、本発明によれば、表示された各文書データに含まれるキーワードを見ることによって、各文書の概略の内容を推測することが可能となる。 Further, according to the present invention, it is possible to estimate the outline of each document by looking at the keywords included in each displayed document data.
また、本発明は、例えば、ユーザが、優先度の高い順に画面表示されたキーワードを選択すれば、選択されたキーワードを含む文書群中に出現する各キーワードの頻度に基づいて算出される内部スコアに基づいて、キーワードの優先度を設定し、設定された優先度がより高いキーワードを含む文書の順に、文書群を構成する文書の文書データをソートし直す。従って、本発明によれば、ユーザは、ユーザが思い付いたキーワードを自ら入力する必要がなく、画面表示されたキーワードを選択するだけで、文書データをソートし直すことが可能となる。特に、画面表示されたキーワードは、優先度の高い順に並んでいるため、ユーザは、画面上において、優先度の高いキーワードから順に各キーワードを見ていくことで、ユーザにとって有用なキーワードを容易に見つけて、選択することが可能となる。 Further, according to the present invention, for example, if the user selects keywords displayed on the screen in descending order of priority, the internal score calculated based on the frequency of each keyword appearing in the document group including the selected keyword. Based on the above, the priority of the keyword is set, and the document data of the documents constituting the document group is re-sorted in the order of the document including the keyword having the higher priority set. Therefore, according to the present invention, it is not necessary for the user to input the keyword that the user has come up with, and it is possible to sort the document data only by selecting the keyword displayed on the screen. In particular, since the keywords displayed on the screen are arranged in the order of priority, the user can easily find keywords useful to the user by viewing each keyword in order from the keyword with the highest priority on the screen. It will be possible to find and select.
         
  以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明のシステム構成の一例を示す図である。データ表示装置1は、文書群中の文書の文書データをソートして画面表示する処理装置である。
  Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of the present invention. The 
         
  データ表示装置1は、キーワード抽出部11、頻度算出部12、スコア算出部13、データソート部14、表示部15、キーワード選択部16、内部頻度算出部17、内部スコア算出部18、書誌データデータベース(DB)19、表示データ指定部20を備える。
  The 
         
  キーワード抽出部11は、書誌データDB19に蓄積されている文書群に含まれるキーワードを抽出する。キーワード抽出部11によるキーワードの抽出手法については、後述する。
  The 
         
  頻度算出部12は、キーワード抽出部11によって抽出された各キーワードの、書誌データDB19に蓄積されている文書群中に出現した頻度を算出する。ここで、キーワードの頻度とは、例えば、キーワードが出現する文書の数を意味する。例えば、キーワード「日本語」を含む文書数が20である場合には、算出されるキーワード「日本語」の頻度は20である。また、本発明の実施の形態においては、文書群でのキーワードの出現回数をキーワードの頻度とする構成を採ることもできる。
  The 
         
  スコア算出部13は、キーワード抽出部11が抽出した各キーワードの文字数と頻度算出部12が算出した頻度とに基づいて、各キーワードのスコアを算出する。各キーワードのスコアは、例えば、各キーワードの文字数に頻度を乗じた値として算出される。
  The 
         
  本発明の実施の形態においては、キーワード抽出部11が抽出した各キーワードの文字数を用いずに、頻度算出部12によって算出された頻度に基づいて、所定の計算式を用いて、各キーワードのスコアを算出する構成を採ってもよい。
  In the embodiment of the present invention, the score of each keyword is calculated using a predetermined calculation formula based on the frequency calculated by the 
         
  例えば、スコア算出部13は、以下に示すような、TF/IDF法を用いたスコアの算出方法またはOkapiのウェイティング法を用いて、各キーワードのスコアを算出する。
  For example, the 
         
  (TF/IDF法を用いたスコアの算出方法)
  一般に、重要なキーワードを含む文書の検索には、主にTF/IDF法が用いられる。ここで、TFとは、一般に、ある文書でのあるキーワードの出現回数を意味し、IDFとは、一般に、予め用意された多数の文書のうち、上記キーワードが出現する文書数の逆数を意味する。
(Score calculation method using TF / IDF method) 
 In general, the TF / IDF method is mainly used for searching for documents containing important keywords. Here, TF generally means the number of occurrences of a keyword in a document, and IDF generally means the reciprocal of the number of documents in which the keyword appears among a number of documents prepared in advance. .
      
一般に、TF/IDF法では、以下の式で算出されるScore(D)が高い文書を検索結果として出力する。 In general, in the TF / IDF method, a document having a high Score (D) calculated by the following formula is output as a search result.
         
  Score(D)=Σ(tf(w,D)×log(N/df(w)))
  上記の式において、wは、ユーザが入力するキーワード、Σは、tf(w,D)×log(N/df(w))をw∈Wで加算することを意味する。Wは、ユーザが入力するキーワードの集合を意味する。また、tf(w,D)は、文書Dでのwの出現回数であり、df(w)は、全文書においてwが出現した文書の数であり、Nは、文書の総数である。
Score (D) = Σ (tf (w, D) × log (N / df (w))) 
 In the above formula, w is a keyword input by the user, and Σ means that tf (w, D) × log (N / df (w)) is added by w∈W. W means a set of keywords input by the user. Tf (w, D) is the number of occurrences of w in the document D, df (w) is the number of documents in which w appears in all documents, and N is the total number of documents.
      
         
  TF/IDF法の本発明への適用に当たっては、例えば、上記文書Dを、書誌データDB19に蓄積されている文書群として、tf(w,D)を算出する。また、例えば、書誌データDB19とは別のデータベース(図示を省略)に蓄積されている大量の文書群を、上記df(w)の意味の説明において記述した「全文書」として、df(w)を算出する。
  In applying the TF / IDF method to the present invention, for example, tf (w, D) is calculated using the document D as a document group stored in the 
そして、算出されたtf(w,D)とlog(N/df(w))との積を、各キーワードwのスコアとして算出する。 Then, the product of the calculated tf (w, D) and log (N / df (w)) is calculated as the score of each keyword w.
         
  (Okapiのウェイティング法を用いたスコアの算出方法)
  一般に、Okapiのウェイティング法(下記の文献(1)参照)では、以下の式で算出されるScore(D)が高い文書を検索結果として出力する。
(Score calculation method using Okapi's weighting method) 
 In general, in the Okapi weighting method (see the following document (1)), a document having a high Score (D) calculated by the following equation is output as a search result.
      
文献(1):村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均,位置情報と分野情報を用いた情報検索,自然言語処理(言語処理学会誌),2000年4月,7巻,2号,p.141〜p.160 Reference (1): Masaki Murata, Mao, Kiyotaka Uchimoto, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, Information Retrieval using Location Information and Field Information, Natural Language Processing (Journal of the Language Processing Society), April 2000 , Vol. 7, No. 2, p. 141-p. 160
        
ここで、wは、ユーザが入力するキーワード、Wは、ユーザが入力するキーワードの集合を意味する。また、tf(w,D)は、文書Dでのwの出現回数であり、df(w)は、全文書においてwが出現した文書の数であり、Nは、文書の総数である。また、length(D)は、文書Dの長さ(文字列単位)である。Δは、全文書における文書の長さの平均である。 Here, w is a keyword input by the user, and W is a set of keywords input by the user. Tf (w, D) is the number of occurrences of w in the document D, df (w) is the number of documents in which w appears in all documents, and N is the total number of documents. Also, length (D) is the length of document D (character string unit). Δ is the average of the document lengths in all documents.
         
  Okapiのウェイティング法の本発明への適用に当たっては、例えば、上記文書Dを、書誌データDB19に蓄積されている文書群として、
  In applying Okapi's weighting method to the present invention, for example, the document D is set as a document group stored in the 
        
を算出する。算出された値をtf項とする。 Is calculated. Let the calculated value be the term tf.
         
  また、例えば、書誌データDB19とは別のデータベース(図示を省略)に蓄積されている大量の文書群を、上記df(w)の意味の説明において記述した「全文書」として、log(N/df(w))を算出する。算出されたlog(N/df(w))をidf項とする。そして、算出されたtf項とidf項との積を、各キーワードwのスコアとして算出する。
  Further, for example, a large group of documents stored in a database (not shown) different from the 
         
  データソート部14は、書誌データDB19に蓄積されている文書から、文書データ(例えば、文書のタイトル、著者名等)を抽出し、抽出した文書データをソートする。
  The 
         
  すなわち、データソート部14は、まず、抽出した文書データを図示しないバッファ中に格納する。そして、データソート部14は、頻度算出部12によって算出された各キーワードの頻度と、スコア算出部13によって算出された各キーワードのスコアとに基づいて、各キーワードの優先度を設定する。
  That is, the 
         
  データソート部14は、頻度算出部12によって算出された頻度が高いキーワードほど高い優先度を設定する。また、データソート部14は、頻度が同じであるキーワードについては、スコア算出部13によって算出されたスコアが高いキーワードほど高い優先度を設定する。
  The 
         
  本発明の実施の形態においては、データソート部14は、スコア算出部13によって算出された各キーワードのスコアを、各キーワードの優先度として設定する構成を採ってもよい。
  In the embodiment of the present invention, the 
         
  各キーワードの優先度は、後述する表示部15によって文書データとともに表示される各キーワードの表示の順序を規定する。
  The priority of each keyword defines the display order of each keyword displayed together with the document data by the 
         
  そして、データソート部14は、設定した優先度がより高いキーワードを含む文書の順に、上記バッファ中に格納された文書の文書データをソートする。
  Then, the 
         
  また、データソート部14は、後述する内部頻度算出部17によって算出された内部頻度と、後述する内部スコア算出部18によって算出された内部スコアとに基づいて、各キーワードの優先度を更新し、更新された優先度がより高いキーワードを含む文書の順に、各文書の文書データをソートする。
  The 
         
  各キーワードの優先度を更新する場合、データソート部14は、後述する内部頻度算出部17によって算出される内部頻度が高いキーワードほど高い優先度を設定する。内部頻度が同じであるキーワードについては、後述する内部スコア算出部18によって算出される内部スコアが高いキーワードほど高い優先度を設定する。
  When updating the priority of each keyword, the 
         
  本発明の実施の形態においては、データソート部14は、後述する内部スコア算出部18によって算出される内部スコアを各キーワードの優先度として設定する構成を採ってもよい。
  In the embodiment of the present invention, the 
         
  なお、本発明の実施の形態においては、データソート部14は、書誌データDB19から抽出した各文書から各文書に関連する日付(例えば、発行日)のデータを抽出し、文書データ(例えば、文書のタイトル、著者名等)を日付について降順または昇順にソートする構成を採ってもよい。
  In the embodiment of the present invention, the 
         
  表示部15は、データソート部14によってソートされた各文書データを画面表示する。また、表示部15は、各文書データが画面表示される画面と同一画面上において、優先度が高い順に各キーワードを画面表示する。また、表示部15は、画面表示された各文書データに対応する文書が、画面表示された各キーワードを含んでいるかを示す情報を画面表示する。なお、表示部15は、画面表示された各文書データに対応する文書が、画面表示された各キーワードを何個含んでいるかを示す情報を画面表示する構成を採ってもよい。
  The 
         
  また、表示部15は、書誌データDB19に蓄積されている文書群中に出現する頻度が予め定められた閾値未満であるキーワードを含む文書については、その文書が、上記頻度が閾値未満であるキーワードを含むことを示す情報を、頻度が予め定められた閾値以上であるキーワードを画面表示する表示領域とは別の表示領域に画面表示する構成を採ることもできる。
  In addition, for a document including a keyword whose frequency of occurrence in the document group stored in the 
         
  また、表示部15は、文書データの画面表示後に、後述する表示データ指定部20によって指定されたデータ以外のデータを画面から消去する構成を採ることができる。また、表示部15は、文書データの画面表示後に、後述する表示データ指定部20によって指定されたデータを画面から消去する構成を採ることができる。
  The 
         
  キーワード選択部16は、キーワードを選択する。内部頻度算出部17は、キーワード抽出部11によって抽出された各キーワードの、上記選択されたキーワードを含む文書群中に出現する頻度である内部頻度を算出する。ここで、各キーワードの内部頻度とは、例えば、選択されたキーワードを含む文書群に含まれる文書のうち、各キーワードが出現する文書の数を意味する。また、本発明の実施の形態においては、選択されたキーワードを含む文書群での各キーワードの出現回数を内部頻度とする構成を採ることもできる。
  The 
         
  また、本発明の実施の形態においては、キーワード選択部16によって複数のキーワードが選択された場合には、内部頻度算出部17は、選択された複数のキーワードを全て含む文書群中に各キーワードが出現する頻度を内部頻度として算出する構成を採ってもよい。
  In the embodiment of the present invention, when a plurality of keywords are selected by the 
         
  内部スコア算出部18は、内部頻度算出部17が算出した内部頻度と、キーワード選択部16によって選択されたキーワードを含む文書に含まれる各キーワードの文字数とに基づいて、各キーワードの内部スコアを算出する。各キーワードの内部スコアは、例えば、各キーワードの文字数に内部頻度を乗じた値として算出される。
  The internal 
         
  本発明の実施の形態においては、各キーワードの文字数を用いずに、内部頻度算出部17によって算出された内部頻度に基づいて各キーワードの内部スコアを算出する構成を採ってもよい。例えば、内部スコア算出部18は、上述したTF/IDF法や、Okapiのウェイティング法を用いて内部スコアを算出する構成を採ってもよい。
  In the embodiment of the present invention, the internal score of each keyword may be calculated based on the internal frequency calculated by the internal 
         
  書誌データDB19には、大量の文書(書誌データ)が蓄積されている。表示データ指定部20は、表示部15によって画面表示されるデータを指定する。
  A large amount of documents (bibliographic data) are stored in the 
         
  データソート部14による、抽出した文書の文書データのソート処理について、具体的に説明する。上述したように、データソート部14は、設定された優先度がより高いキーワードを含む文書の順に、各文書の文書データをソートする。
  The sorting process of the document data of the extracted document by the 
例えば、文書Aが、優先度が最も高いキーワード「日本語」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「情報」とを含んでいるものとし、また、例えば、文書Bが、優先度が最も高いキーワード「日本語」と3番目の優先度であるキーワード「情報」と、4番目の優先度であるキーワード「自動」とを含んでいるものとする。文書Aは、文書Bに含まれない、2番目の優先度であるキーワードを含んでいる。この場合、文書Aは、文書Bに比べて、優先度がより高いキーワードを含んでいる。 For example, it is assumed that the document A includes a keyword “Japanese” having the highest priority, a keyword “analysis” having the second priority, and a keyword “information” having the third priority. For example, the document B includes the keyword “Japanese” having the highest priority, the keyword “information” having the third priority, and the keyword “automatic” having the fourth priority. To do. The document A includes a keyword which is not included in the document B and has the second priority. In this case, the document A includes a keyword having a higher priority than the document B.
優先度がより高いキーワードを含んでいるということを、さらに具体的に説明する。例えば、各キーワードを優先度について降順に並べ、文書があるキーワードを含む場合に、そのキーワードにビット論理「1」を割り当て、文書があるキーワードを含まない場合に、そのキーワードにビット論理「0」を割り当てる。そして、各キーワードに割り当てられたビット論理によって構成される2進数を求める。 The fact that a keyword with a higher priority is included will be described more specifically. For example, when each keyword is arranged in descending order of priority and a document includes a keyword, bit logic “1” is assigned to the keyword, and when a document does not include a keyword, bit logic “0” is assigned to the keyword. Assign. Then, a binary number constituted by the bit logic assigned to each keyword is obtained.
例えば、「日本語」、「解析」、「情報」、「自動」、・・・の順にキーワードが並ぶとすると、上記の文書Aについて求められる2進数は、「1110・・・」であり、文書Bについて求められる2進数「1011・・・」より大きな数となる。 For example, if keywords are arranged in the order of “Japanese”, “analysis”, “information”, “automatic”,..., The binary number required for the document A is “1110. The number is larger than the binary number “1011...” Required for the document B.
ある文書が、優先度がより高いキーワードを含んでいるということは、上記のように、例えば、優先度について降順に並んだ各キーワードを2進数の各桁とし、文書に含まれるキーワードにビット論理「1」を、文書に含まれないキーワードにビット論理「0」を割り当てた場合に構成される2進数が、より大きい数であることを意味している。 The fact that a certain document includes a keyword with a higher priority means that, for example, each keyword arranged in descending order of priority is set to each binary digit, and a bit logic is added to the keyword included in the document. “1” means that the binary number formed when bit logic “0” is assigned to a keyword not included in the document is a larger number.
         
  なお、本発明のデータ表示装置1の構成は、図1に示すものに限定されない。本発明の実施の形態においては、データ表示装置1は、キーワード抽出部11を用いない構成を採ることもできる。例えば、文書と文書に含まれるキーワードとが対応付けられたデータを所定のデータベース(図1では図示を省略)内に蓄積しておき、上記データベース内に蓄積されているデータから、頻度算出部12が、各キーワードの、上記データベース中の文書群中に出現した頻度を算出する構成を採ることもできる。
  In addition, the structure of the 
         
  また、本発明の実施の形態においては、例えば、文書と文書に含まれるキーワードのデータを所定のデータベース(図1では図示を省略)内に蓄積しておき、そのデータベース内に蓄積されているデータから、頻度算出部12が、各キーワードの、上記データベース中の文書群中に出現した頻度を算出する構成を採ることもできる。
  In the embodiment of the present invention, for example, documents and keyword data included in the documents are stored in a predetermined database (not shown in FIG. 1), and the data stored in the database is stored. Therefore, it is possible to adopt a configuration in which the 
         
  以下に、キーワード抽出部11によるキーワードの抽出方法について説明する。
(1)形態素解析を用いた単語の認識による手法
  まず、キーワード抽出部11は、書誌データDB19に蓄積されている文書について、形態素解析を行い、単語の認識を行う。そして、特定の名詞の単語をキーワードとして取り出す。例えば、名詞だけをキーワードとして取り出す。但し、「こと」、「もの」などの一般的な名詞は、予め収集しておき、それらの名詞がキーワードとしては取り出されないようにしておく。キーワードとしては、名詞だけでなく、動詞などの他の品詞も取り出すこととしてもよい。
Below, the keyword extraction method by the 
 (1) Method based on word recognition using morphological analysis First, the 
形態素解析には、例えば、奈良先端大で開発されている形態素解析システムである ChaSen (下記の文献(2)参照)を用いる。 For morphological analysis, for example, ChaSen (see the following document (2)), which is a morphological analysis system developed at Nara Institute of Technology, is used.
         
  文献(2):形態素解析システム茶筌(http://chasen.aist-nara.ac.jp/index.html.ja )
   ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
Reference (2): Morphological analysis system tea bowl (http://chasen.aist-nara.ac.jp/index.html.ja) 
 ChaSen splits the Japanese sentence and also estimates the part of speech for each word.
      
例えば、「学校へ行く」を入力すると、以下の結果を得る。 For example, if “go to school” is entered, the following result is obtained.
         
  学校    ガッコウ        学校    名詞−  一般
  へ      ヘ      へ      助詞- 格助詞−  一般
  行く    イク    行く    動詞- 自立      五段・カ行促音便        基本形
   EOS
  このように、各行に一個の単語が入るように分割され,各単語に読みや品詞の情報が付与される。
School Gakkou School Noun-General To He To Particle-Case Particle-General Go Iku Go Verb-Independence 
 EOS 
 In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.
      
また、英語の品詞タグつけシステムとしては、 Brill(下記の文献(3)参照)のものが有名である。このシステムを用いれば、英語文の各単語の品詞を推定することができる。 As a part-of-speech tagging system in English, Brill (see reference (3) below) is famous. If this system is used, the part of speech of each word of an English sentence can be estimated.
         
  文献(3): Eric Brill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging,Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995. 
(2)TF/IDF法などを利用した方法
  書誌データDB19に蓄積されている文書について、形態素解析を行い、例えば、名詞だけを取り出す。そして、取り出された各名詞について、前述したTF/IDF法に基づいて算出される所定のスコアを求め、求まったスコアが所定の値よりも大きいものか、スコアが所定の値よりも大きいものから順に所定の値の個数だけ取り出したものをキーワードとする。なお、上記のスコアは、前述したOkapiのウェイティング法を用いて算出されるスコアを用いてもよい。
(3)高精度な既存のキーワード抽出のツールを利用する方法
  一般に文書中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文書の内容が専門的な事項に特化すれば、その傾向はさらに顕著なものとなる。そこで、例えば、(a)形態素解析プログラムによる単語分割、(b)複合語の作成、(c)文書中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文書中から抽出することができる。
Reference (3): Eric Brill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995. 
 (2) Method using TF / IDF method etc. For the documents stored in the 
 (3) Method of using existing high-accuracy keyword extraction tools In general, there are many cases where a complex concept is represented by a combination of multiple words in a document. The trend is even more pronounced. Therefore, for example, a complex concept is expressed by a compound word by taking three steps: (a) word division by a morphological analysis program, (b) creation of a compound word, and (c) calculation of importance in a document. Technical terms that are often used can be extracted from the document as keywords.
      
例えば、下記の文献(4)に記載されている手法は、文書から取り出した単名詞について、単名詞の左右に連接する単語の種類数あるいは頻度を用いたスコアを算出し、これら左右のスコアを組み合わせて、単名詞のスコアを算出する。単名詞のスコアに基づいて、単名詞から生成される複合名詞のスコアを算出する。そして、算出された複合名詞のスコアが所定の値より大きいものを、キーワードとして取り出す。本発明においても、文献(4)に記載された手法を用いて、キーワードを抽出する構成を採ることができる。 For example, the technique described in the following document (4) calculates a score using the number or frequency of words connected to the left and right of a single noun for a single noun extracted from a document, and calculates the left and right scores. In combination, the score of a single noun is calculated. Based on the score of the single noun, the score of the compound noun generated from the single noun is calculated. Then, those having a calculated compound noun score greater than a predetermined value are extracted as keywords. Also in the present invention, it is possible to adopt a configuration in which keywords are extracted using the technique described in Document (4).
         
  文献(4):中川裕志、森辰則、湯本紘彰: " 出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月
  なお、本発明の実施の形態において、キーワード抽出部11によるキーワードの抽出方法は、上述した3つの方法に限定されるものではない。キーワード抽出部11は、他の任意のキーワードの抽出方法を用いてキーワードを抽出することができる。
Reference (4): Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto: "Extraction of technical terms based on appearance frequency and connection frequency", Natural Language Processing, Vol.10 No.1, pp. 27-45, January 2003 In the embodiment of the present invention, the keyword extraction method by the 
         
  図2は、本発明の実施の形態におけるデータ表示処理フローの一例を示す図である。まず、キーワード抽出部11が、書誌データDB19に蓄積されている文書群に含まれるキーワードを抽出する(ステップS1)。例えば、キーワード「日本語」、「解析」、「情報」、「自動」、「翻訳」、「表現」、「モデル」、「抽出」、「手法」、「名詞」、「要約」、「検索」、・・・といったキーワードを抽出する。
  FIG. 2 is a diagram showing an example of a data display processing flow in the embodiment of the present invention. First, the 
         
  次に、頻度算出部12が、キーワード抽出部11によって抽出された各キーワードの、書誌データDB19に蓄積されている文書群中に出現した頻度を算出する(ステップS2)。
  Next, the 
         
  例えば、図3の表に示すように、算出されるキーワード「日本語」の頻度は20、キーワード「解析」の頻度は15、キーワード「情報」の頻度は12、キーワード「自動」の頻度は10、キーワード「翻訳」の頻度は9、キーワード「表現」の頻度は8、キーワード「モデル」の頻度は7、キーワード「抽出」の頻度は7、キーワード「手法」の頻度は6、キーワード「名詞」の頻度は5、キーワード「要約」の頻度は4、キーワード「検索」の頻度は3である。なお、図3中に示す頻度は、各キーワードが出現する文書の数である。また、図3中では、頻度が3であるキーワードまでしか示していないが、本発明の実施の形態では、ステップS2において、例えば、頻度2や頻度1についても算出され得る。
  For example, as shown in the table of FIG. 3, the frequency of the calculated keyword “Japanese” is 20, the frequency of the keyword “analysis” is 15, the frequency of the keyword “information” is 12, and the frequency of the keyword “automatic” is 10. The frequency of the keyword “translation” is 9, the frequency of the keyword “expression” is 8, the frequency of the keyword “model” is 7, the frequency of the keyword “extraction” is 7, the frequency of the keyword “method” is 6, and the keyword “noun” The frequency of the keyword “summary” is 4, the frequency of the keyword “search” is 3. The frequency shown in FIG. 3 is the number of documents in which each keyword appears. In FIG. 3, only keywords having a frequency of 3 are shown, but in the embodiment of the present invention, for example, 
         
  次に、スコア算出部13が、キーワード抽出部11が抽出した各キーワードの文字数と頻度算出部12が算出した頻度とに基づいて、各キーワードのスコアを算出する(ステップS3)。各キーワードのスコアは、例えば、各キーワードの文字数に頻度を乗じた値として算出する。なお、スコアの算出に用いる文字数は、例えば、半角1文字を単位とする。従って、例えば、全角の文字については、1文字の文字数は2である。
  Next, the 
         
  例えば、図3の表に示すように、算出されるキーワード「日本語」のスコアは、頻度20に文字数6を乗じた値である120となる。同様にして、キーワード「解析」のスコアは60、キーワード「情報」のスコアは48、キーワード「自動」のスコアは40、キーワード「翻訳」のスコアは36、キーワード「表現」のスコアは32、キーワード「モデル」のスコアは42、キーワード「抽出」のスコアは28、キーワード「手法」のスコアは24、キーワード「名詞」のスコアは20、キーワード「要約」のスコアは16、キーワード「検索」のスコアは12である。
  For example, as shown in the table of FIG. 3, the score of the calculated keyword “Japanese” is 120, which is a value obtained by multiplying the 
         
  次に、データソート部14が、書誌データDB19に蓄積されている各文書の文書データを抽出し、バッファ中に格納する(ステップS4)。例えば、文書データとして、文書のタイトル、著者名等のデータがバッファ中に格納される。
  Next, the 
         
  また、データソート部14が、頻度算出部12が算出した頻度とスコア算出部13が算出したスコアとに基づいて、各キーワードの優先度を設定する(ステップS5)。データソート部14は、頻度が高いキーワードほど高い優先度を設定する。また、データソート部14は、例えば、頻度が同じであるキーワードについては、算出されたスコアが高いキーワードほど高い優先度を設定する。
  Moreover, the data sort 
従って、例えば、図3の表中に示す各キーワードについては、「日本語」、「解析」、「情報」、「自動」、「翻訳」、「表現」、「モデル」、「抽出」、「手法」、「名詞」、「要約」、「検索」、・・・といったキーワードの順に、より高い優先度が設定される。 Thus, for example, for each keyword shown in the table of FIG. 3, “Japanese”, “analysis”, “information”, “automatic”, “translation”, “expression”, “model”, “extraction”, “extraction”, “ A higher priority is set in the order of keywords such as “method”, “noun”, “summary”, “search”,.
         
  データソート部14は、優先度がより高いキーワードを含む文書の順に、各文書の文書データをソートする(ステップS6)。そして、表示部15が、ステップS4においてデータソート部14によってソートされた各文書の文書データを画面表示するとともに、各キーワードを優先度が高い順に画面表示する(ステップS7)。上記ステップS7の処理においては、表示部15は、さらに、各文書がどのキーワードを含んでいるかを示す情報を画面表示する。
  The 
ステップS7の処理の結果、例えば、図4に示すような画面が表示される。図4の画面表示例では、優先度がより高いキーワードを含む文書の順に、論文名、著者名という文書の文書データが表示されている。また、図4の画面表示例では、矩形の枠で囲ったキーワードが、優先度が高い順に左から表示されている。なお、図4の画面左端に示す番号「1」、「2」、・・・は、行番号を示しており、画面中の矩形で囲った各キーワードの上部に示す番号「1」、「2」、・・・は、列番号を示している。 As a result of the processing in step S7, for example, a screen as shown in FIG. 4 is displayed. In the screen display example of FIG. 4, document data of documents such as a paper name and an author name are displayed in the order of documents including a keyword having a higher priority. Further, in the screen display example of FIG. 4, keywords surrounded by a rectangular frame are displayed from the left in descending order of priority. The numbers “1”, “2”,... Shown at the left end of the screen in FIG. 4 indicate line numbers, and the numbers “1”, “2” shown at the top of each keyword surrounded by a rectangle in the screen. ", ... indicates a column number.
例えば、論文名が「A」で著者名が「a」である文書は、優先度が最も高いキーワード「日本語」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「情報」と、4番目の優先度であるキーワード「自動」と、5番目の優先度であるキーワード「翻訳」と、6番目の優先度であるキーワード「表現」とを含んでいるとする。 For example, a document whose paper name is “A” and whose author name is “a” has a keyword “Japanese” having the highest priority, a keyword “analysis” as the second priority, and a third priority. The keyword “information”, the fourth priority keyword “automatic”, the fifth priority keyword “translation”, and the sixth priority keyword “expression”. And
また、例えば、論文名が「B」で著者名が「b」である文書は、優先度が最も高いキーワード「日本語」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「情報」と、4番目の優先度であるキーワード「自動」と、5番目の優先度であるキーワード「翻訳」とを含んでいるが、6番目の優先度であるキーワード「表現」は含んでいないとする。 Also, for example, a document whose paper name is “B” and whose author name is “b” has a keyword “Japanese” with the highest priority, a keyword “analysis” with the second priority, and a third one. It includes the keyword “information” as the priority, the keyword “automatic” as the fourth priority, and the keyword “translation” as the fifth priority, but the keyword “information” as the sixth priority. It is assumed that “expression” is not included.
また、例えば、論文名が「C」で著者名が「c」である文書は、優先度が最も高いキーワード「日本語」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「情報」と、4番目の優先度であるキーワード「自動」とを含んでいるが、5番目の優先度であるキーワード「表現」は含んでいないとする。 Further, for example, a document whose paper name is “C” and whose author name is “c” has the highest priority keyword “Japanese”, the second priority keyword “analysis”, and the third priority. It is assumed that the keyword “information” as the priority and the keyword “automatic” as the fourth priority are included, but the keyword “expression” as the fifth priority is not included.
本発明の実施の形態においては、優先度がより高いキーワードを含む文書の順に、各文書のデータがソートされ、画面表示されることから、図4の画面表示例では、上の行から、優先度がより高いキーワードを含む、論文名が「A」で著者名が「a」という文書データ、論文名が「B」で著者名が「b」という文書データ、論文名が「C」で著者名が「c」という文書データの順に表示されている。 In the embodiment of the present invention, the data of each document is sorted and displayed on the screen in the order of the documents including the keywords with higher priority. In the screen display example of FIG. Document data with a higher degree keyword, paper name “A” and author name “a”, paper data “B” and author name “b”, paper name “C” and author The names are displayed in order of document data “c”.
また、上述したように、ステップS7の処理においては、各文書がどのキーワードを含んでいるかを示す情報が画面表示される。例えば、図4に示すように、各文書に係る文書データが画面表示されている行と同じ行において、各文書が含んでいる矩形の枠で囲ったキーワードと同一の単語が、当該キーワードが画面表示されている列と同じ列に画面表示される。 As described above, in the process of step S7, information indicating which keywords each document includes is displayed on the screen. For example, as shown in FIG. 4, in the same line as the line on which the document data relating to each document is displayed on the screen, the same word as the keyword enclosed by the rectangular frame included in each document is displayed on the screen. It is displayed on the screen in the same column as the displayed column.
図4に示す画面が、例えばセルで構成されている場合を想定すると、文書データが配置された行と、当該文書データに係る文書が含んでいる矩形の枠で囲ったキーワードが配置された列とが交差するセルに、当該矩形の枠で囲ったキーワードと同一の単語が配置される。 If it is assumed that the screen shown in FIG. 4 is composed of cells, for example, a row in which document data is arranged, and a column in which keywords surrounded by a rectangular frame included in the document related to the document data are arranged. The same word as the keyword enclosed by the rectangular frame is placed in the cell where and intersect.
図4に示す画面を見ると、論文名が「A」で著者名が「a」という文書データが画面表示されている第1行目において、この文書データに係る文書が含んでいる、矩形の枠で囲った各キーワード「日本語」、「解析」、「情報」、「自動」、「翻訳」、「表現」と同一の各単語(「日本語」、「解析」、「情報」、「自動」、「翻訳」、「表現」)が、矩形の枠で囲った各キーワードが表示されている列と同じ列に画面表示されている。 When the screen shown in FIG. 4 is viewed, in the first line where the document data with the paper name “A” and the author name “a” is displayed on the screen, the rectangular data included in the document related to this document data is displayed. The same words as the keywords "Japanese", "Analysis", "Information", "Automatic", "Translation", "Expression" ("Japanese", "Analysis", "Information", " "Auto", "Translation", and "Expression") are displayed on the same column as the column in which each keyword surrounded by a rectangular frame is displayed.
         
  なお、本発明の実施の形態においては、表示部15が表示する、各文書がどのキーワードを含んでいるかを示す情報は、画面表示されている各キーワードと同一の単語に限られない。例えば、各文書に係る文書データが画面表示されている行と同じ行において、各文書が含んでいる矩形の枠で囲った各キーワードが画面表示されている列と同じ列に、※印等を画面表示することによって、各文書がどのキーワードを含んでいるかが分かるようにしてもよい。
  In the embodiment of the present invention, the information displayed on the 
         
  また、本発明の実施の形態では、例えば、ステップS2において算出された、頻度2や頻度1に係るキーワードを含む文書については、その文書に係る文書データが表示される行と同じ行に、当該文書が頻度2や頻度1に係るキーワードを含むことを示す情報を表示する構成を採ることもできる。
  In the embodiment of the present invention, for example, for a document including a keyword related to 
         
  例えば、図4に示す画面表示例では、論文名が「A」で著者名が「a」という文書データが表示されている行と同じ行に、頻度2に係るキーワード「尺度」と頻度1に係るキーワード「揺れ」が表示されている。従って、論文名が「A」で著者名が「a」という文書データに係る文書は、頻度2に係るキーワード「尺度」と頻度1に係るキーワード「揺れ」を含んでいることが分かる。
  For example, in the screen display example shown in FIG. 4, the keyword “scale” and the 
図4に示す画面表示を見れば、例えば、キーワード「日本語」を含む文書群中において、キーワード「日本語」の他に、「解析」や「情報」といったキーワードを含む文書が多く見られることがわかる。言い換えると、図4に示す画面表示を見れば、例えば、キーワード「日本語」を含む文書中において、「解析」や「情報」といったキーワードがキーワード「日本語」と共起して出現する割合が高いことが一見してわかる。 If the screen display shown in FIG. 4 is seen, for example, in a document group including the keyword “Japanese”, in addition to the keyword “Japanese”, there are many documents including keywords such as “analysis” and “information”. I understand. In other words, if the screen display shown in FIG. 4 is viewed, for example, in a document including the keyword “Japanese”, the ratio of keywords such as “analysis” and “information” co-occurring with the keyword “Japanese” appears. You can see at a glance that it is expensive.
また、図4に示す画面表示を見れば、例えば、論文名が「A」で著者名が「a」という文書データに係る文書は、「日本語」、「解析」、「情報」、「自動」、「翻訳」、「表現」というキーワードに関連する内容の文書であることが一見してわかる。 Also, if the screen display shown in FIG. 4 is viewed, for example, a document related to document data whose paper name is “A” and whose author name is “a” is “Japanese”, “analysis”, “information”, “automatic” It can be seen at a glance that the document is related to the keywords “translation” and “expression”.
         
  次に、キーワード選択部16が、キーワードを選択する(ステップS8)。例えば、図4に示す画面上において、矩形の枠で囲ったキーワード「情報」が、左クリック等されると、キーワード選択部16によってキーワード「情報」が選択される。
  Next, the 
         
  内部頻度算出部17が、内部頻度を算出する(ステップS9)。例えば、キーワード選択部16によって選択されたキーワードを含む文書群に含まれる文書のうち、上記ステップS1においてキーワード抽出部11によって抽出された各キーワードが出現する文書の数を、内部頻度として算出する。
  The internal 
例えば、図4に示す画面を参照すると、選択されたキーワード「情報」を含む12個の文書からなる文書群において、キーワード「情報」が出現する頻度は12、キーワード「解析」が出現する頻度は10である。従って、例えば、図5の表に示すように、キーワード「情報」の内部頻度は12、キーワード「解析」の内部頻度は10である。 For example, referring to the screen shown in FIG. 4, in the document group consisting of 12 documents including the selected keyword “information”, the frequency that the keyword “information” appears is 12 and the frequency that the keyword “analysis” appears is 10. Therefore, for example, as shown in the table of FIG. 5, the internal frequency of the keyword “information” is 12, and the internal frequency of the keyword “analysis” is 10.
同様にして、図5の表に示すように、例えば、キーワード「自動」の内部頻度は8、キーワード「日本語」の内部頻度は7、キーワード「表現」の内部頻度は6、キーワード「翻訳」の内部頻度は5、キーワード「モデル」の内部頻度は4、キーワード「抽出」の内部頻度は4、キーワード「手法」の内部頻度は3、キーワード「名詞」の内部頻度は2、キーワード「要約」の内部頻度は2、キーワード「検索」の内部頻度は1、・・・である。 Similarly, as shown in the table of FIG. 5, for example, the internal frequency of the keyword “automatic” is 8, the internal frequency of the keyword “Japanese” is 7, the internal frequency of the keyword “expression” is 6, and the keyword “translation”. The internal frequency of the keyword “model” is 4, the internal frequency of the keyword “extract” is 4, the internal frequency of the keyword “method” is 3, the internal frequency of the keyword “noun” is 2, and the keyword “summary” Has an internal frequency of 2, the keyword “search” has an internal frequency of 1,.
         
  内部スコア算出部18が、内部頻度算出部17が算出した内部頻度と各キーワードの文字数とに基づいて、各キーワードの内部スコアを算出する(ステップS10)。内部スコア算出部18は、例えば、各キーワードの文字数に内部頻度を乗じて、各キーワードの内部スコアを算出する。なお、内部スコアの算出に用いる文字数は、例えば、半角1文字を単位とする。従って、例えば、全角の文字については、1文字の文字数は2である。
  The internal 
         
  例えば、図5の表に示すように、算出されるキーワード「情報」の内部スコアは、内部頻度12に文字数4を乗じた値である48となる。同様にして、キーワード「解析」の内部スコアは40、キーワード「自動」の内部スコアは32、キーワード「日本語」の内部スコアは42、キーワード「表現」の内部スコアは24、キーワード「翻訳」の内部スコアは20、キーワード「モデル」の内部スコアは24、キーワード「抽出」の内部スコアは16、キーワード「手法」の内部スコアは12、キーワード「名詞」の内部スコアは8、キーワード「要約」の内部スコアは8、キーワード「検索」の内部スコアは4である。
  For example, as shown in the table of FIG. 5, the calculated internal score of the keyword “information” is 48, which is a value obtained by multiplying the 
         
  データソート部14が、内部頻度算出部17が算出した内部頻度と内部スコア算出部18が算出した内部スコアとに基づいて、各キーワードの優先度を設定する(ステップS11)。ステップS11の処理によって、上記ステップS5において設定された優先度が更新される。データソート部14は、内部頻度が高いキーワードほど高い優先度を設定する。また、データソート部14は、内部頻度が同じであるキーワードについては、算出された内部スコアが高いキーワードほど高い優先度を設定する。
  The 
従って、例えば、図5の表中に示す各キーワードについては、「情報」、「解析」、「自動」、「日本語」、「表現」、「翻訳」、「モデル」、「抽出」、「手法」、「名詞」、「要約」、「検索」、・・・といったキーワードの順に、高い優先度が設定される。 Thus, for example, for each keyword shown in the table of FIG. 5, “information”, “analysis”, “automatic”, “Japanese”, “expression”, “translation”, “model”, “extraction”, “extraction”, “ High priority is set in the order of keywords such as “method”, “noun”, “summary”, “search”,.
         
  そして、データソート部14は、ステップS11において設定された優先度がより高いキーワードを含む文書の順に、ステップS4においてバッファ中に格納された文書のデータをソートする(ステップS12)。
  Then, the 
         
  ステップS7に戻って、表示部15が、データソート部14によってソートされた各文書の文書データを画面表示するとともに、各キーワードを優先度が高い順に画面表示する(ステップS7)。
  Returning to step S7, the 
例えば、図6に示すような画面が表示される。ここで、例えば、論文名が「A」で著者名が「a」である文書は、優先度が最も高いキーワード「情報」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「自動」と、4番目の優先度であるキーワード「日本語」と、5番目の優先度であるキーワード「表現」と、6番目の優先度であるキーワード「翻訳」とを含んでおり、従って、優先度がより高いキーワードを最も多く含んでいるとする。 For example, a screen as shown in FIG. 6 is displayed. Here, for example, a document whose paper name is “A” and whose author name is “a” has a keyword “information” with the highest priority, a keyword “analysis” with the second priority, and a third one. The keyword “automatic” as the priority, the keyword “Japanese” as the fourth priority, the keyword “expression” as the fifth priority, and the keyword “translation” as the sixth priority. Suppose that it contains the most keywords with higher priority.
また、例えば、論文名が「B」で著者名が「b」である文書は、優先度が最も高いキーワード「情報」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「自動」と、4番目の優先度であるキーワード「日本語」と、6番目の優先度であるキーワード「翻訳」と11番目の優先度であるキーワード「要約」とを含んでいるが、5番目の優先度であるキーワード「表現」は含んでいないとする。 Also, for example, a document whose paper name is “B” and whose author name is “b” has the highest priority keyword “information”, the second priority keyword “analysis”, and the third priority. A keyword “automatic” that is a degree, a keyword “Japanese” that is a fourth priority, a keyword “translation” that is a sixth priority, and a keyword “summary” that is an eleventh priority. However, it is assumed that the keyword “expression” which is the fifth priority is not included.
また、例えば、論文名が「C」で著者名が「c」である文書は、優先度が最も高いキーワード「情報」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「自動」と、4番目の優先度であるキーワード「日本語」とを含んでいるが、5番目の優先度であるキーワード「表現」や、6番目の優先度であるキーワード「翻訳」は含んでいないとする。 Further, for example, a document whose paper name is “C” and whose author name is “c” has the highest priority keyword “information”, the second priority keyword “analysis”, and the third priority. A keyword “automatic” that is the second priority and a keyword “Japanese” that is the fourth priority, but the keyword “expression” that is the fifth priority and the keyword “expression” that is the sixth priority. "Translation" is not included.
また、例えば、論文名が「U」で著者名が「u」である文書は、優先度が最も高いキーワード「情報」と、2番目の優先度であるキーワード「解析」と、3番目の優先度であるキーワード「自動」と、5番目の優先度であるキーワード「表現」と、6番目の優先度であるキーワード「翻訳」と、7番目の優先度であるキーワード「モデル」と、8番目の優先度であるキーワード「抽出」と、10番目の優先度であるキーワード「名詞」と、11番目の優先度であるキーワード「要約」とを含んでいるが、4番目の優先度であるキーワード「日本語」は含んでいないとする。 Also, for example, a document whose paper name is “U” and whose author name is “u” has the highest priority keyword “information”, the second priority keyword “analysis”, and the third priority. Keyword “automatic”, fifth priority keyword “expression”, sixth priority keyword “translation”, seventh priority keyword “model”, and eighth priority Including the keyword “extraction” that is the priority of the keyword, the keyword “noun” that is the tenth priority, and the keyword “summary” that is the eleventh priority, but the keyword that is the fourth priority “Japanese” is not included.
本発明の実施の形態においては、優先度がより高いキーワードを含む文書の順に、各文書のデータがソートされ、画面表示されることから、図6の画面表示例では、上の行から、論文名が「A」で著者名が「a」という文書データ、論文名が「B」で著者名が「b」という文書データ、論文名が「C」で著者名が「c」という文書データ、論文名が「U」で著者名が「u」という文書データの順に表示されている。 In the embodiment of the present invention, the data of each document is sorted and displayed on the screen in the order of the documents including the keywords with higher priority. In the screen display example of FIG. Document data with name “A” and author name “a”, document data with paper name “B” and author name “b”, document data with paper name “C” and author name “c”, The paper names are displayed in the order of document data with the name “U” and the author name “u”.
また、例えば、図6の画面表示例に示すように、各文書に係る文書データが表示されている行と同じ行において、各文書が含んでいる矩形の枠で囲った各キーワードと同一の単語が、各キーワードが画面表示されている列と同じ列に表示される。 Further, for example, as shown in the screen display example of FIG. 6, the same word as each keyword enclosed in a rectangular frame included in each document in the same line as the line in which the document data relating to each document is displayed. However, each keyword is displayed in the same column as that displayed on the screen.
図6に示す画面表示を見れば、例えば、選択されたキーワード「情報」を含む文書群中において、キーワード「情報」の他に、「解析」や「自動」といったキーワードを含む文書が多く見られることが一見してわかる。言い換えると、図6に示す画面表示を見れば、例えば、キーワード「情報」を含む文書中において、「解析」や「自動」といったキーワードがキーワード「情報」と共起して出現する割合が高いことが一見してわかる。 Looking at the screen display shown in FIG. 6, for example, in the document group including the selected keyword “information”, in addition to the keyword “information”, there are many documents including keywords such as “analysis” and “automatic”. You can see at a glance. In other words, if the screen display shown in FIG. 6 is viewed, for example, in a document including the keyword “information”, a keyword such as “analysis” or “automatic” is likely to appear together with the keyword “information”. Can be seen at a glance.
         
  本発明におけるデータ表示処理フローは、図2に示す処理フローに限られるものではない。例えば、図2のステップS7の直後に、表示データ指定部20が、画面表示されるデータを表示データとして指定する処理を行い、表示部15が、指定された表示データ以外のデータを画面上において消去する処理を行ってもよい。
  The data display processing flow in the present invention is not limited to the processing flow shown in FIG. For example, immediately after step S7 in FIG. 2, the display 
         
  例えば、ユーザが図4に示す画面表示において、矩形の枠で囲った任意のキーワードを指定(例えば、右クリック等)すると、表示データ指定部20が、指定されたキーワードを含む文書の文書データを表示データの一部として指定し、表示部15が、指定されたキーワードを含む文書以外の文書の文書データを画面上において消去する。なお、上記において、「表示データの一部」としたのは、表示データ指定部20が、指定されたキーワードを含む文書の文書データの他に、各矩形の枠で囲ったキーワードや、指定されたキーワードを含む文書が、矩形の枠で囲ったどのキーワードを含んでいるかを示す情報を表示データとして指定する構成を採ることもできるからである。
  For example, in the screen display shown in FIG. 4, when the user designates an arbitrary keyword surrounded by a rectangular frame (for example, right click), the display 
         
  また、例えば、ユーザが図4に示す画面表示において、矩形の枠で囲った任意のキーワードを指定(例えば、右クリック等)すると、表示データ指定部20が、指定されたキーワードを含む文書以外の文書の文書データを表示データの一部として指定し、表示部15が、指定されたキーワードを含む文書の文書データを画面上において消去する。
  Further, for example, when the user designates an arbitrary keyword surrounded by a rectangular frame (for example, right click etc.) in the screen display shown in FIG. 4, the display 
         
  また、本発明の実施の形態においては、例えば、図4または図6に示す画面表示において、ユーザが、矩形の枠で囲った任意のキーワードを指定(例えば、右クリック等)すると、表示データ指定部20が、指定されたキーワード以外のキーワードが画面表示されている列と同じ列に表示されているデータ(例えば、各文書がどのキーワードを含んでいるかを示す情報)を表示データの一部として指定し、表示部15が、指定されたキーワードが画面表示されている列と同じ列に表示されているデータを画面上において消去する。
  In the embodiment of the present invention, for example, in the screen display shown in FIG. 4 or FIG. 6, when the user designates an arbitrary keyword surrounded by a rectangular frame (for example, right click), display data designation is performed. The 
         
  また、本発明の実施の形態においては、上記の例において、再度同じキーワードが指定されると、表示部15が、一旦消去された、指定されたキーワードが画面表示されている列についてのデータを、画面表示し直す構成を採ってもよい。
  In the embodiment of the present invention, in the above example, when the same keyword is designated again, the 
         
  また、本発明の実施の形態においては、例えば、図4または図6に示す画面表示において、ユーザが、文書データ(例えば、各論文名や著者名についてのデータ)を指定(例えば、右クリック等)すると、表示データ指定部20が、指定された文書データ以外の文書データが画面表示されている行と同じ行に表示されているデータ(例えば、各文書がどのキーワードを含んでいるかを示す情報)を表示データの一部として指定し、表示部15が、指定された文書データが画面表示されている行と同じ行に表示されているデータを画面上において消去する。
  In the embodiment of the present invention, for example, in the screen display shown in FIG. 4 or FIG. 6, the user designates document data (for example, data on each paper name or author name) (for example, right click etc.) Then, the display 
         
  また、本発明の実施の形態においては、上記の例において、再度同じ文書データが指定されると、表示部15が、一旦消去された、指定された文書データが画面表示されている行についてのデータを画面表示し直す構成を採ってもよい。
  In the embodiment of the present invention, in the above example, when the same document data is designated again, the 
         
  本発明は、web文書の情報検索結果に対しても適用することができる。例えば、任意のwebサイトから、ユーザがキーワードを指定して、当該キーワード(指定キーワード)を含む文書群を検索したときに、本発明のデータ表示装置1が、検索された文書群中に含まれる複数のキーワードを抽出して、図2の各ステップに示す処理を行うように構成することもできる。また、上記本発明のweb文書の情報検索結果に対する適用例において、データ表示装置1が画面表示するキーワードのうち、情報検索の際にユーザが指定した指定キーワードと同一のキーワードについては、指定キーワードと同一のキーワードであることを示す情報を同一画面上に表示する構成を採ることもできる。
  The present invention can also be applied to information retrieval results of web documents. For example, when a user designates a keyword from an arbitrary web site and retrieves a document group including the keyword (designated keyword), the 
なお、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。 The present invention can also be implemented as a program that is read and executed by a computer. The program for realizing the present invention can be stored in an appropriate recording medium such as a portable medium memory, a semiconductor memory, or a hard disk, which can be read by a computer, provided by being recorded on these recording media, or communication. It is provided by transmission / reception using a network via an interface.
        
       
    1  データ表示装置
  11  キーワード抽出部
  12  頻度算出部
  13  スコア算出部
  14  データソート部
  15  表示部
  16  キーワード選択部
  17  内部頻度算出部
  18  内部スコア算出部
  19  書誌データDB
  20  表示データ指定部
DESCRIPTION OF 
 20 Display data specification part 
 
    
Claims (11)
複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、
前記算出された頻度に基づいて、前記各キーワードのスコアを算出するスコア算出手段と、
前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、
前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段とを備え、
前記表示手段は、さらに、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示装置。 A data display device,
A keyword extracting means for extracting a keyword included in a document group composed of a plurality of documents;
A frequency calculating means for calculating a frequency at which each of the extracted keywords appears in the document group;
Score calculating means for calculating a score of each keyword based on the calculated frequency;
A data sorting means for setting the calculated score as a priority of each keyword, and sorting document data of documents constituting the document group in the order of documents including a keyword having a higher set priority;
Display means for displaying the sorted document data as display data on the screen, and displaying the keywords on the same screen as the screen on which the document data is displayed on the screen as the display data in the order of priority. Prepared,
The display means further displays, on the screen, information indicating whether a document corresponding to each document data displayed on the screen includes each keyword displayed on the screen as display data.
入力された、文書群中の文書と各文書に含まれるキーワードとに基づいて、各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、
前記算出された頻度に基づいて、前記各キーワードのスコアを算出するスコア算出手段と、
前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、
前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段とを備え、
前記表示手段は、さらに、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示装置。 A data display device,
A frequency calculating means for calculating a frequency of occurrence of each keyword in the document group based on the input document in the document group and a keyword included in each document;
Score calculating means for calculating a score of each keyword based on the calculated frequency;
A data sorting means for setting the calculated score as a priority of each keyword, and sorting document data of documents constituting the document group in the order of documents including a keyword having a higher set priority;
Display means for displaying the sorted document data as display data on the screen, and displaying the keywords on the same screen as the screen on which the document data is displayed on the screen as the display data in the order of priority. Prepared,
The display means further displays, on the screen, information indicating whether a document corresponding to each document data displayed on the screen includes each keyword displayed on the screen as display data.
キーワードを選択するキーワード選択手段と、
前記キーワード抽出手段によって抽出された各キーワードの、前記選択されたキーワードを含む文書群中に出現する頻度である内部頻度を算出する内部頻度算出手段と、
前記内部頻度算出手段が算出した内部頻度に基づいて、前記各キーワードの内部スコアを算出する内部スコア算出手段とを備え、
前記データソート手段は、前記算出された内部スコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートする
ことを特徴とするデータ表示装置。 The data display device according to claim 1, further comprising:
Keyword selection means for selecting keywords,
An internal frequency calculating means for calculating an internal frequency that is a frequency of occurrence of each keyword extracted by the keyword extracting means in a document group including the selected keyword;
Internal score calculation means for calculating an internal score of each keyword based on the internal frequency calculated by the internal frequency calculation means,
The data sorting means sets the calculated internal score as the priority of each keyword, and sets the document data of the documents constituting the document group in the order of documents including the keyword with the higher priority set. A data display device characterized by sorting.
前記内部頻度算出手段は、前記キーワード選択手段によって複数のキーワードが選択された場合に、前記キーワード抽出手段によって抽出された各キーワードの、前記選択された複数のキーワードの全てを含む文書群中に出現する頻度を、前記内部頻度として算出する
ことを特徴とするデータ表示装置。 The data display device according to claim 3, further comprising:
The internal frequency calculation means, when a plurality of keywords are selected by the keyword selection means, appears in a document group including all of the selected keywords for each keyword extracted by the keyword extraction means. A data display device characterized in that a frequency of performing the calculation is calculated as the internal frequency.
前記スコア算出手段は、前記キーワード抽出手段によって抽出された各キーワードの文字数と、前記頻度算出手段によって算出された頻度とに基づいて、前記各キーワードのスコアを算出し、
前記データソート手段は、前記頻度算出手段によって算出された頻度と前記スコア算出手段によって算出されたスコアとに基づいて、前記各キーワードの優先度を設定し、前記内部頻度算出手段によって算出された内部頻度と前記内部スコア算出手段によって算出された内部スコアとに基づいて、前記各キーワードの優先度を更新し、更新された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書データをソートする
ことを特徴とするデータ表示装置。 In the data display device according to claim 3 or 4,
The score calculation means calculates the score of each keyword based on the number of characters of each keyword extracted by the keyword extraction means and the frequency calculated by the frequency calculation means,
The data sorting means sets the priority of each keyword based on the frequency calculated by the frequency calculating means and the score calculated by the score calculating means, and the internal data calculated by the internal frequency calculating means Based on the frequency and the internal score calculated by the internal score calculation means, the priority of each keyword is updated, and the documents that constitute the document group in the order of the document including the updated higher priority keyword A data display device characterized by sorting data.
前記表示手段は、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを何個含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示装置。 The data display device according to any one of claims 1 to 5,
The data display apparatus characterized in that the display means displays on a screen as information display information indicating how many keywords displayed on the screen a document corresponding to each document data displayed on the screen includes.
前記表示手段は、前記頻度算出手段によって算出された頻度が予め定められた閾値未満であるキーワードを含む文書については、その文書が前記頻度が前記閾値未満であるキーワードを含むことを示す情報を、前記頻度が予め定められた閾値以上であるキーワードを画面表示する表示領域とは別の表示領域に表示データとして画面表示する
ことを特徴とするデータ表示装置。 The data display device according to any one of claims 1 to 6,
For the document including a keyword whose frequency calculated by the frequency calculating unit is less than a predetermined threshold, the display unit includes information indicating that the document includes a keyword whose frequency is less than the threshold. A data display device, wherein a keyword whose frequency is equal to or higher than a predetermined threshold is displayed on the screen as display data in a display area different from a display area for displaying the keyword.
前記表示手段によって画面表示される表示データを指定する表示データ指定手段を備え、
前記表示手段は、前記表示データ指定手段によって指定された表示データのみを画面表示する
ことを特徴とするデータ表示装置。 The data display device according to any one of claims 1 to 7, further comprising:
Comprising display data designating means for designating display data displayed on the screen by the display means;
The display means displays only the display data designated by the display data designation means on the screen.
前記データソート手段は、前記文書群を構成する文書の文書データを、各文書に関連する日付について降順または昇順にソートする
ことを特徴とするデータ表示装置。 The data display device according to any one of claims 1 to 8,
The data display device, wherein the data sorting unit sorts document data of documents constituting the document group in descending order or ascending order with respect to dates related to each document.
複数の文書から構成される文書群中に含まれるキーワードを抽出するステップと、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出するステップと、
前記算出された頻度に基づいて、前記各キーワードのスコアを算出するステップと、
前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするステップと、
前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示するステップと、
前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示するステップとを有する
ことを特徴とするデータ表示方法。 A data display method,
Extracting a keyword contained in a document group composed of a plurality of documents;
Calculating the frequency of each of the extracted keywords appearing in the document group;
Calculating a score for each keyword based on the calculated frequency;
Setting the calculated score as the priority of each keyword, and sorting the document data of the documents constituting the document group in the order of the document including the keyword with the higher priority set;
Displaying the sorted document data on the screen as display data, and displaying the keywords on the same screen as the screen on which the document data is displayed on the screen as display data in order of the priority;
And a step of displaying, as display data, information indicating whether a document corresponding to each document data displayed on the screen includes each keyword displayed on the screen.
前記コンピュータを、
複数の文書から構成される文書群中に含まれるキーワードを抽出するキーワード抽出手段と、
前記抽出された各キーワードの、前記文書群中に出現する頻度を算出する頻度算出手段と、
前記算出された頻度に基づいて、前記各キーワードのスコアを算出するスコア算出手段と、
前記算出されたスコアを、前記各キーワードの優先度として設定し、設定された優先度がより高いキーワードを含む文書の順に、前記文書群を構成する文書の文書データをソートするデータソート手段と、
前記ソートされた文書データを表示データとして画面表示するとともに、前記文書データが画面表示される画面と同一画面上において、前記各キーワードを前記優先度が高い順に表示データとして画面表示する表示手段として機能させるためのプログラムであって、
前記表示手段は、さらに、前記画面表示された各文書データに対応する文書が前記画面表示された各キーワードを含んでいるかを示す情報を表示データとして画面表示する
ことを特徴とするデータ表示プログラム。
A program for causing a computer included in the data display device to execute the program,
The computer,
A keyword extracting means for extracting a keyword included in a document group composed of a plurality of documents;
A frequency calculating means for calculating a frequency at which each of the extracted keywords appears in the document group;
Score calculating means for calculating a score of each keyword based on the calculated frequency;
A data sorting means for setting the calculated score as a priority of each keyword, and sorting document data of documents constituting the document group in the order of documents including a keyword having a higher set priority;
Function as display means for displaying the sorted document data on the screen as display data and displaying the keywords on the same screen as the screen on which the document data is displayed on the screen as the display data in descending order of priority. A program for
The data display program characterized in that the display means further displays on the screen as display data information indicating whether a document corresponding to each document data displayed on the screen includes each keyword displayed on the screen.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2005330009A JP4719921B2 (en) | 2005-11-15 | 2005-11-15 | Data display device and data display program | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2005330009A JP4719921B2 (en) | 2005-11-15 | 2005-11-15 | Data display device and data display program | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JP2007140639A true JP2007140639A (en) | 2007-06-07 | 
| JP4719921B2 JP4719921B2 (en) | 2011-07-06 | 
Family
ID=38203453
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2005330009A Expired - Fee Related JP4719921B2 (en) | 2005-11-15 | 2005-11-15 | Data display device and data display program | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP4719921B2 (en) | 
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2008310471A (en) * | 2007-06-13 | 2008-12-25 | Toshiya Sehata | Convergence type database construction system and construction method | 
| JP2009169926A (en) * | 2008-03-31 | 2009-07-30 | Ricoh Co Ltd | Information retrieval apparatus, information retrieval method, and control program | 
| JP2009230648A (en) * | 2008-03-25 | 2009-10-08 | Hitachi East Japan Solutions Ltd | Document group analysis supporting device | 
| JP2010257169A (en) * | 2009-04-24 | 2010-11-11 | Fujifilm Corp | Search result display method and apparatus, and search result display program | 
| JP2019159839A (en) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | Information processing program, information processing method, and information processing device | 
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH1125108A (en) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | Related keyword automatic extraction device, document search device, and document search system using these | 
| JP2001142887A (en) * | 1999-11-10 | 2001-05-25 | Sharp Corp | Document search method, document search device, and program recording medium | 
| JP2004021763A (en) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | Text mining program, method, and device | 
| JP2005011301A (en) * | 2003-06-20 | 2005-01-13 | Takaaki Yamaoka | Document processor and document processing program | 
| JP2005056125A (en) * | 2003-08-04 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium | 
- 
        2005
        - 2005-11-15 JP JP2005330009A patent/JP4719921B2/en not_active Expired - Fee Related
 
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JPH1125108A (en) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | Related keyword automatic extraction device, document search device, and document search system using these | 
| JP2001142887A (en) * | 1999-11-10 | 2001-05-25 | Sharp Corp | Document search method, document search device, and program recording medium | 
| JP2004021763A (en) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | Text mining program, method, and device | 
| JP2005011301A (en) * | 2003-06-20 | 2005-01-13 | Takaaki Yamaoka | Document processor and document processing program | 
| JP2005056125A (en) * | 2003-08-04 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium | 
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2008310471A (en) * | 2007-06-13 | 2008-12-25 | Toshiya Sehata | Convergence type database construction system and construction method | 
| JP2009230648A (en) * | 2008-03-25 | 2009-10-08 | Hitachi East Japan Solutions Ltd | Document group analysis supporting device | 
| JP2009169926A (en) * | 2008-03-31 | 2009-07-30 | Ricoh Co Ltd | Information retrieval apparatus, information retrieval method, and control program | 
| JP2010257169A (en) * | 2009-04-24 | 2010-11-11 | Fujifilm Corp | Search result display method and apparatus, and search result display program | 
| JP2019159839A (en) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | Information processing program, information processing method, and information processing device | 
| JP7139631B2 (en) | 2018-03-13 | 2022-09-21 | 富士通株式会社 | Information processing program, information processing method, and information processing apparatus | 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP4719921B2 (en) | 2011-07-06 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| JP5238418B2 (en) | Information recommendation device and information recommendation method | |
| US7958128B2 (en) | Query-independent entity importance in books | |
| US7302646B2 (en) | Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor | |
| US8332208B2 (en) | Information processing apparatus, information processing method, and program | |
| CN101526938B (en) | File processing device | |
| JPH04127370A (en) | Information collecting system | |
| JP4931114B2 (en) | Data display device, data display method, and data display program | |
| JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
| Hassel | Evaluation of automatic text summarization | |
| JPH0484271A (en) | Intra-information retrieval device | |
| JP4719921B2 (en) | Data display device and data display program | |
| Newman | Exploring discussion lists: steps and directions | |
| JP2806867B2 (en) | Document database construction method, display method, and display device | |
| JP4106470B2 (en) | Solution data editing processing apparatus and processing method | |
| JP2000020538A (en) | Information search method, information search device, and information search program storage medium | |
| WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
| JP4423385B2 (en) | Document classification support apparatus and computer program | |
| JP2009265770A (en) | Significant sentence presentation system | |
| JP2000250908A (en) | Support device for production of electronic book | |
| JP2007323238A (en) | Highlight display device and program | |
| JP2006139484A (en) | Information retrieval method and system, and computer program | |
| JP2004070376A (en) | Document display device and method therefor | |
| JP3710463B2 (en) | Translation support dictionary device | |
| JP2000105769A (en) | Document display method | |
| JP4899128B2 (en) | Related word integration system | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081015 | |
| RD03 | Notification of appointment of power of attorney | Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090428 | |
| RD04 | Notification of resignation of power of attorney | Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090428 | |
| A977 | Report on retrieval | Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101213 | |
| A131 | Notification of reasons for refusal | Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 | |
| A521 | Written amendment | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110124 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110315 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110317 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 | |
| R150 | Certificate of patent or registration of utility model | Free format text: JAPANESE INTERMEDIATE CODE: R150 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| S533 | Written request for registration of change of name | Free format text: JAPANESE INTERMEDIATE CODE: R313533 | |
| R350 | Written notification of registration of transfer | Free format text: JAPANESE INTERMEDIATE CODE: R350 | |
| R250 | Receipt of annual fees | Free format text: JAPANESE INTERMEDIATE CODE: R250 | |
| LAPS | Cancellation because of no payment of annual fees |