JP2005250558A - Chained record search device - Google Patents
Chained record search device Download PDFInfo
- Publication number
- JP2005250558A JP2005250558A JP2004056141A JP2004056141A JP2005250558A JP 2005250558 A JP2005250558 A JP 2005250558A JP 2004056141 A JP2004056141 A JP 2004056141A JP 2004056141 A JP2004056141 A JP 2004056141A JP 2005250558 A JP2005250558 A JP 2005250558A
- Authority
- JP
- Japan
- Prior art keywords
- record
- score
- records
- key information
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザの入力キー情報に類似する記録を大局的な取り出すとともに、意外性のある記録をも取り出すことを可能とする連鎖型記録探索装置を提供する。
【解決手段】キー情報、パラメータ、新たな記録などの入力、及び取り出された記録の出力を行う手段101、キー情報と記録間、及び記録間の類似度を計算する手段104、類似度に基づいて、その記録を取り出すべきか否かの程度を表すスコアを計算する手段105、記録とそのスコアを格納するデータベース103、全体を制御する手段102等を備える。スコア計算手段では、キー情報に類似する記録のスコアが大局的に見て大きくなるようにし、また、スコアが目標平均値を超えた記録では、そのスコアが近傍の類似する記録のスコアの平均値に近づけるようにする。
【選択図】図1
The present invention provides a chained record search apparatus capable of taking out a record similar to user input key information on a global basis and taking out an unexpected record.
Means 101 for inputting key information, parameters, new recording, etc., and outputting the extracted recording, means 104 for calculating similarity between key information and recording, and similarity between recordings, based on similarity And means 105 for calculating a score indicating whether or not the record should be taken out, a database 103 for storing the record and the score, a means 102 for controlling the whole, and the like. In the score calculation means, the score of the record similar to the key information is increased as viewed globally, and in the record where the score exceeds the target average value, the average value of the scores of similar records in the vicinity To be close to.
[Selection] Figure 1
Description
本発明は、個人情報端末などにおける情報の管理と取り出しを支援する技術に関し、特にコンピュータ上に保存されたユーザの体験や出来事の記録から、ユーザの入力に応じて関連する記録を取り出すための連鎖型記録探索装置に関するものである。 The present invention relates to a technology for supporting management and retrieval of information in a personal information terminal and the like, and in particular, a chain for retrieving related records according to user input from user experiences and events stored on a computer. The present invention relates to a type record search apparatus.
パーソナルコンピュータをはじめとする情報機器やそれらをいつでもどこでも利用可能とするユビキタスコンピューティングの発展により、個人が大量の情報を容易に記録できるようになってきた。これらの記録は、テキスト、画像、音声等、形態の違いのみならず、その生成目的も様々であるために、それらを内容や目的に応じてカテゴリーに分類して管理する方法ではカテゴリーの再設定を頻繁に行う必要があり、これはユーザにとって負荷が高い作業である。また、所望の記録を取り出す際においては、キーワード等にマッチした記録のみを取り出す方法では、その都度新たなキーワードを指定する必要があり、大量で多様な記録に対しては効率が悪い。 With the development of information devices such as personal computers and ubiquitous computing that enables them to be used anytime and anywhere, individuals can easily record large amounts of information. These records are not only different in form, such as text, images, audio, etc., but also have various generation purposes, so the method of classifying them according to the content and purpose and managing them will reset the categories Must be performed frequently, which is a burdensome task for the user. Further, when a desired record is taken out, a method for taking out only a record that matches a keyword or the like needs to specify a new keyword each time, and is inefficient for a large amount of various records.
従来、このような記録の管理と取り出しの問題に対処する技術として、例えば、次のような方法が提案されている。第1の方法は、コンピュータのデスクトップの状態をそのまま時間順に管理する方法であり、指定したキーワードにマッチする記録や指定した記録(以後、これらをキー情報と呼ぶ)が、存在/生成/消滅した時点のデスクトップを検索することにより、その当時行っていた仕事や作業の記録もキー情報に関連する記録として取り出すことができる(例えば、非特許文献1参照)。第2の方法は、時間順の記録管理に加え、各記録に含まれる単語の出現頻度に基づく記録間の類似性を考慮した方法であり、時間的な近さとともに内容の近さによってもキー情報に関連する記録を取り出すことができる(例えば、非特許文献2参照)。また、この第2の方法では、取り出した記録を新たなキー情報とすることにより、取り出した記録に類似する記録を関連する記録として連鎖的に取り出すことができる。 Conventionally, for example, the following method has been proposed as a technique for dealing with the problem of management and retrieval of such a record. The first method is to manage the state of the computer desktop as it is in time order. Records that match the specified keyword and specified records (hereinafter referred to as key information) exist / create / disappear. By searching the desktop at the time, the work and work records performed at that time can be taken out as records related to the key information (see, for example, Non-Patent Document 1). The second method considers the similarity between records based on the appearance frequency of words included in each record in addition to the record management in time order. Records related to information can be taken out (see, for example, Non-Patent Document 2). In the second method, by using the extracted record as new key information, a record similar to the extracted record can be extracted as a related record.
上記従来技術では、記録が生成された時間、及び記録に含まれる単語の頻度といった記録間の近さを測る尺度を設定することにより、記録のカテゴリー分類を前提にすることなく、キー情報に関連する記録を取り出すことができる。 In the above prior art, by setting a measure to measure the closeness between records, such as the time when the record was generated and the frequency of words included in the record, it is related to the key information without assuming the category classification of the record. Record to be taken out.
ユーザが過去の記録を取り出す場合には、現在直面している問題や案件等について、過去に似たような体験や出来事を見つけ出し、それらを参考にして現状の問題解決を行うような場合がある。この時、現状の問題と全く同じ条件に見合った記録が過去に存在するとは限らないため、一部の条件を満足する関連記録を順々に参照することで問題解決の糸口を見出せる可能性がある。 When a user retrieves past records, he / she may find similar experiences and events in the past with respect to problems and issues that he is currently facing, and use them to solve current problems. . At this time, records that match exactly the same conditions as the current problem may not exist in the past, so it is possible to find clues to solve the problem by sequentially referencing related records that satisfy some conditions. is there.
上記従来技術では、所望する記録が明確な場合にはその記録が存在する時点に遡ってそれを取り出したり、所望する記録と同じ時点に存在する記録を関連記録として取り出すことはできるものの、参照すべき時点が多い場合や各時点に含まれる関連記録が少ない場合には、この作業はユーザにとって負荷が高いものとなる。また、各時点では目的や活動に応じて様々な記録が存在しており、同じ時点に存在したというだけでそれらの記録間に有用な関連があるとは言えない場合もあり、このような場合には時間を遡った関連記録の引き出しは有効ではない。 In the above prior art, when a desired record is clear, it can be taken back to the point where the record exists, or a record existing at the same time as the desired record can be taken out as a related record. When there are a lot of time points to be processed or when there are few related records included in each time point, this work is burdensome for the user. In addition, there are various records depending on the purpose and activity at each time point, and it may not be said that there is a useful relationship between these records just because they existed at the same time point. It is not effective to pull back related records back in time.
このような問題を解決するために、先に出願人は、記録とキー情報間、及び記録間の類似性をもとに、キー情報と直接関連する記録のみならず間接的に関連する記録も関連記録として取り出すことを可能とする技術を提案した(特願2003−296851「想起型情報記憶装置」)。これは各記録をそれを過去に取り出した経緯に応じて連鎖的に取り出すものである。各記録には取り出すべきか否かの程度が付与されており、これが現時点での値と記録間の類似性に依存して時間変化する。類似する記録が多い記録ほど、また過去に取り出した記録ほどこの値が大きくなるために次回もその記録を取り出しやすく、逆に類似する記録が少ない記録や過去にあまり取り出さなかった記録は必要のない記録と見なし、取り出すことが困難になっていく。 In order to solve such a problem, the applicant must not only record records directly related to key information but also indirectly related records based on the similarity between records and key information and between records. A technique has been proposed that enables retrieval as a related record (Japanese Patent Application No. 2003-296851 “Recollection type information storage device”). In this case, each record is taken out in a chain according to the history of taking it out in the past. Each record is given a degree as to whether or not it should be taken out, and this changes with time depending on the current value and the similarity between the records. This value becomes larger as the number of similar records increases, and as the records extracted in the past, so it is easy to extract the next time. On the contrary, there is no need for records with few similar records or records that were not extracted in the past. It is considered as a record and it becomes difficult to retrieve.
ところで、ユーザが過去の記録を取り出す場合には、所望とする記録が明確でない場合や意外性のある記録を取り出したい場合もある。このようなユーザ要求がある場合、先に提案した技術ではキー情報に関連する記録として取り出した記録がどれも似通って均一的になることが起こりうるために、新たに別のキー情報を設定して関連する記録を取り出していく必要があり、この作業は多様で大量の記録がある場合にはユーザにとって負荷が高い。また、取り出した記録を新たなキー情報として連鎖的に記録を取り出していく場合でも、初めに設定したキー情報に似通った記録が新たなキー情報となるために再び似通った記録を取り出すことになり、意外性のある記録に辿り着くには多くの時間を要してしまう。 By the way, when a user takes out past records, there are cases where a desired record is not clear or an unexpected record is desired. If there is such a user request, it is possible that all the records taken out as the records related to the key information may become similar and uniform in the previously proposed technique, so another key information is newly set. It is necessary to take out related records, and this work is burdensome for the user when there are various and large numbers of records. In addition, even when the extracted records are chained out as new key information, a record similar to the initially set key information becomes new key information, so a similar record is extracted again. It takes a lot of time to arrive at an unexpected record.
本発明の目的は、キー情報と記録間及び記録間の類似性をもとに各記録を取り出すべきか否かを判断することにより、キー情報に類似する記録のみならず、それらに関連する記録も連鎖的に取り出すことを可能とする連鎖型記録探索装置を提供することにある。 It is an object of the present invention to determine not only records similar to key information but also related records by determining whether or not each record should be taken out based on the similarity between key information and records and between records. It is another object of the present invention to provide a chained record search device that can be chained out.
また、本発明の目的は、過去に取り出した記録ほど、次の時点でも取り出しやすくなる履歴性を持つこと連鎖型記録探索装置を提供することにある。 It is another object of the present invention to provide a chained record search apparatus that has a history that makes it easier for a record taken out in the past to be taken out at the next time.
また、本発明の目的は、他に類似する記録がない記録や、類似するキー情報が入力されることのない記録は、必要のない記録と見なして取り出さないようにする連鎖型記録探索装置を提供することにある。 Also, an object of the present invention is to provide a chained record search device that considers records that have no other similar records and records that are not input with similar key information as unnecessary records and are not extracted. It is to provide.
また、本発明の目的は、全記録における取り出すべきか否かの程度の平均値を調整することにより、キー情報に類似する記録が大局的に引き出しやすくなる連鎖型記録探索装置を提供することにある。 It is another object of the present invention to provide a chained record search device that makes it easy to pull out records similar to key information globally by adjusting the average value of whether or not all records should be taken out. is there.
また、本発明の目的は、取り出すべきか否かの程度が大きい記録に対してはその程度を、その記録と類似する記録のみにおける程度の平均値をもとに局所的に調整することにより、キー情報に非常に似通った記録のみを取り出すことを避けて意外性のある記録をも取り出すことを可能とする連鎖型記録探索装置を提供することにある。 In addition, the object of the present invention is to locally adjust the degree of the recording with a large degree of whether or not to be taken out based on the average value of the degree only in the recording similar to the recording, It is an object of the present invention to provide a chained record search apparatus that can take out only a record that is very similar to key information and can take out a surprising record.
本発明の連鎖型記録探索装置は、記録データベース上の記録から関連する記録を取り出すためのキー情報の入力、関連する記録の取り出し方に関するパラメータの入力、新たな記録の追加・削除の入力、及び、取り出した記録の出力を行う入出力手段と、キー情報と記録間、及び記録間の類似度を計算する類似度計算手段と、前記キー情報と記録間の類似度に基づき、各記録の当該記録を取り出すべきか否かの程度を表す値であるスコアを計算するスコア計算手段と、記録及びそのスコアを格納する記録データベースと、これら各部の動作を制御する制御手段とを備える。 The chain-type record search apparatus of the present invention inputs key information for extracting related records from records on a record database, inputs parameters relating to how to extract related records, inputs for adding / deleting new records, and Input / output means for outputting the extracted records, similarity calculation means for calculating the similarity between the key information and the records, and the similarity between the records, based on the similarity between the key information and the records, It includes score calculation means for calculating a score, which is a value indicating whether or not to take a record, a record and a record database for storing the score, and a control means for controlling the operation of each part.
本発明では、キー情報と記録にはそれ自身を説明するための属性情報(以後、メタ情報と呼ぶ)が付与されているものとする。類似度計算手段は、このメタ情報を使ってキー情報と記録間、及び記録間の類似度を計算する。スコア計算手段は、類似度計算手段で計算された類似度に基づいて、その記録を取り出すべきか否かの程度を表す値であるスコアを計算する。記録データベースの各記録には、このスコアが付与されている。制御手段では、記録データベースの各記録のスコアに応じて確率的に関連する記録を取り出しユーザに提示する。 In the present invention, it is assumed that attribute information (hereinafter referred to as meta information) for explaining itself is given to the key information and the record. The similarity calculation means calculates the similarity between the key information and the records and between the records using the meta information. The score calculation means calculates a score, which is a value indicating the degree of whether or not to take out the record, based on the similarity calculated by the similarity calculation means. Each score in the record database is given this score. The control means takes out a record that is stochastically related according to the score of each record in the record database and presents it to the user.
各記録のスコアは、その記録がキー情報と類似するほど、またその記録と類似しかつ大きなスコアを持つ記録が他にある場合ほど時間とともに増加する。これにより、キー情報に類似する記録のみならず、それらに関連する記録も連鎖的に取り出すことが可能となる。 The score of each record increases with time as the record is similar to the key information, and as there are other records that are similar to the record and have a large score. As a result, not only the records similar to the key information but also the records related to them can be taken out in a chain.
また、現時点のスコアが大きいほど次の時点でのスコアが大きくなるようにスコアを計算するため、過去に引き出した記録ほど次の時点でも引き出しやすくなる履歴性を持つ。 Further, since the score is calculated so that the score at the next time point increases as the current score increases, the record drawn in the past has a history characteristic that is easy to draw at the next time point.
また、各記録の鮮度や有効期限を反映するように、キー情報や他の記録との関連とは別にスコアを時間と共に単調に減少させる。これにより、他に類似する記録がない記録や類似するキー情報が入力されることのなかった記録のスコアは減少し、必要のない記録と見なして取り出さなくなる。 In addition, the score is monotonously decreased with time separately from the relationship with the key information and other records so as to reflect the freshness and expiration date of each record. As a result, the score of a record that has no other similar record or a record in which similar key information has not been input is reduced, and is regarded as an unnecessary record and cannot be taken out.
また、全ての記録のスコアが連鎖的に大きくなってしまうことを避けるために、他の類似する記録のスコアと類似度の積に比例してスコアの増加を抑制する。この抑制作用の強さを全記録のスコアの平均値(以後、全スコア平均値と呼ぶ)を予め設定した目標平均値に近づけるように調整することにより、キー情報に類似する記録のスコアが大局的に見て大きくなり、その記録を引き出しやすくなる。 Further, in order to avoid that the scores of all the records increase in a chained manner, the increase in the score is suppressed in proportion to the product of the scores of other similar records and the similarity. By adjusting the strength of this suppression action so that the average value of the scores of all records (hereinafter referred to as the average value of all scores) approaches the preset target average value, the score of the records similar to the key information can be increased. It becomes large and it becomes easy to pull out the record.
また、スコアが目標平均値を超えた記録に対しては、そのスコアをその記録と類似する記録におけるスコアの平均値(以後、局所スコア平均値と呼ぶ)に近づけるように局所的に調整する。これにより、スコアが大きくなりすぎた記録のスコアが減少し、スコアの小さい記録のスコアが増大するため、キー情報に非常に似通った記録のみを取り出すことを避けて意外性のある記録をも取り出すことが可能となる。 Further, for a record whose score exceeds the target average value, the score is locally adjusted so as to be close to the average value of scores in a record similar to the record (hereinafter referred to as a local score average value). As a result, the score of a record whose score has become too large is reduced and the score of a record having a small score is increased. Therefore, it is possible to avoid taking out only records that are very similar to key information and take out surprising records. It becomes possible.
本発明によれば、キー情報に類似する記録のみならず、それらに関連する記録も連鎖的に取り出すこと、過去に取り出した記録ほど、次の時点でも取り出しやすくなる履歴性を持つこと、他に類似する記録がない記録や、類似するキー情報が入力されることのない記録は、必要のない記録と見なして取り出さないこと、キー情報に類似する記録が大局的に引き出しやすくなること、キー情報に非常に似通った記録のみを取り出すことを避けて意外性のある記録をも取り出すこと、等が可能となる効果がある。 According to the present invention, not only records similar to the key information but also related records can be taken out in a chain, and the past taken out record has a history that can be easily taken out at the next time point. A record that does not have a similar record or a record that does not receive similar key information is regarded as an unnecessary record and should not be taken out. A record that is similar to the key information can be easily extracted globally. Thus, there is an effect that it is possible to take out a surprising record while avoiding taking out only a very similar record.
以下、本発明の実施形態を図面を参照しつつ詳細に説明する。
図1は、本発明の連鎖型記録探索装置の一実施例の全体的構成図を示すものである。図1において、101は入出力部、102は制御部、103は記録データベース、104は類似度計算部であり、105はスコア計算部である。実際には、該連鎖型記録探索装置は入出力装置、中央処理装置(CPU)、内部記憶装置(RAM,ROM等)、外部記憶装置(ハードディスク等)などからなるコンピュータシステムにより構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 shows an overall configuration diagram of an embodiment of a chained record search apparatus according to the present invention. In FIG. 1, 101 is an input / output unit, 102 is a control unit, 103 is a recording database, 104 is a similarity calculation unit, and 105 is a score calculation unit. Actually, the chain type record search apparatus is constituted by a computer system including an input / output device, a central processing unit (CPU), an internal storage device (RAM, ROM, etc.), an external storage device (hard disk, etc.) and the like.
入出力部101は、記録データベース103上の記録から関連する記録を取り出すためのキー情報の入力、関連する記録の取り出し方に関するパラメータの入力、追加・削除する記録の入力、及び、取り出した記録の表示等を行う。制御部102は、記録の入出力動作、その他、装置全体の制御を行う。記録データベース103は、ユーザの体験や出来事等の記録とそのメタ情報、スコア計算部105で計算されたスコア、及び、類似度計算部104で計算された記録間の類似度を格納する。また、記録データベース103には、キー情報と記録間の類似度も一時的に格納される。類似度計算部104は、キー情報と記録間の類似度、及び、記録間の類似度を計算する。スコア計算部105は、記録とキー情報間、記録間の類似度から各記録のスコアを計算し時間と共に変化させる。
The input /
次に、本連鎖型記録探索装置の全体を通しての動作を説明する。
図2は、記録データベース103に新たに記録を追加する場合の処理の概要を示すフローチャートである。ユーザは入出力部101を用いて、新たに登録したい記録とそのメタ情報、スコアの初期値を入力する(ステップ201)。制御部102は、入力された記録とメタ情報、スコアの初期値を記録データベース103に登録する(ステップ202)。次に、制御部102は、記録データベース103から既存の全記録とメタ情報を取り出し、新たに登録した記録とそのメタ情報とともに類似度計算部104に出力し、類似度計算部104により、この既存の記録と新たに追加された記録との類似度を計算し、その結果を制御部102が記録データベース103に登録する(ステップ203)。類似度の計算方法は、いろいろ提案されており、また、本発明の特徴とするところではないので、その詳細は省略する。次に、制御部102は記録データベース103から全記録のそのスコア、及び記録間の類似度をスコア計算部105に出力し、スコア計算部105にて各記録のスコアを計算し、スコアの計算結果を制御部102が記録データベース103に登録する(ステップ204)。ここで、スコア計算に用いられる記録の取り出し方に関するパラメータは、既にユーザによって入出力部101を用いて入力され、スコア計算部105に設定されているものとする。スコア計算部105の処理については後で詳細に説明する。
Next, the operation of the entire chained record search apparatus will be described.
FIG. 2 is a flowchart showing an outline of processing when a new record is added to the
図3は、キー情報が入力され、記録データベース103からキー情報に関連する記録を取り出す場合の処理の概要を示すフローチャートである。ユーザは入出力部101を用いて、キー情報を入力する(ステップ301)。制御部102は、記録データベース103から全記録とそのメタ情報を取り出し、入力されたキー情報とともに類似度計算部104に出力し、類似度計算部104により記録とキー情報との類似度を計算し、その結果を制御部102が記録データベース103に登録する(ステップ302)。次に、制御部102は記録データベース103から全記録のスコアと記録間の類似度、キー情報と記録との類似度をスコア計算部105に出力し、スコア計算部105にて各記録のスコアを計算し、スコアの計算結果を制御部102が記録データベース103に登録する(ステップ303)。この際も、既にユーザによって入出力部101を用いて、記録の取り出し方に関するパラメータが入力され、このパラメータがスコア計算部105に設定されているものとする。次に、制御部102は記録データベース103の各記録について、その記録をキー情報に関連する記録か否かをスコアに応じて確率的に判断し、関連すると判断した記録を入出力部101に出力することで、それを入出力部101がユーザに提示する(ステップ304)。キー情報に関連する記録の判断は、各記録に対する判断毎に乱数を発生させて、その値がその記録のスコアより小さければ、その記録を関連する記録と判断する。最後に、制御部102は、入力されたキー情報をクリアするとともに、次に入力されるキー情報の際に、そのスコア計算に影響が及ばないようにするため、記録データベース103からキー情報と記録との類似度を消去する(ステップ305)。
FIG. 3 is a flowchart showing an outline of processing when key information is inputted and a record related to the key information is taken out from the
次に、スコア計算部105の処理について詳しく説明する。スコア計算部105は、ある時刻tにおける記録iのスコアxiを次式に従い計算する。
Next, the processing of the
上記(1)式における右辺第1項と第2項の和は、記録iと類似性のある記録jについてのみ計算する。あるキー情報が入出力部101を通して入力されると、(1)式における右辺第3項により、そのキー情報に類似する記録のスコアが増加するが、さらにこのキー情報に類似する記録に類似する記録のスコアも右辺第1項によって連鎖的に増加するために、これらの記録がキー情報に関連する記録として引き出しやすくなっていく。右辺第2項は、全ての記録のスコアが連鎖的に大きくなりすぎないように、類似する記録間で互いにスコアを抑制する働きをする。β(>0)は、この抑制作用の重みを表すパラメータであり、この値を調整することにより、キー情報に類似する記録のスコアを大局的に大きくできる。この大局的なスコアの調整については後で説明する。α(>0)は、記録間、及びキー情報と記録間の類似性に基づいたスコア計算の重みを表すパラメータである。右辺第4項は、時間とともにスコアを減少させる働きをする。これにより、他に類似する記録がない記録や、類似するキー情報が入力されることのなかった記録のスコアは時間とともに減少し、必要のない記録と見なして取り出さなくなる。γiは、この項の重みを表すパラメータであり、記録毎にその有効期限や鮮度等によって設定され、この値が大きいほどその記録のスコアが速やかに減少する。また、スコアが大きくなった記録に対して、スコアを減少させるようにγiを調整する。これにより、スコアが大きくなりすぎた記録のスコアが減少し、スコアが小さい記録のうち前記大局的なスコア調整の影響が少ない記録のスコアが増大するために、キー情報に非常に似通った記録のみを取り出すことを避け、意外性のある記録をも取り出すことが可能となる。この局所的なスコアの調整については後で説明する。
The sum of the first term and the second term on the right side in the above equation (1) is calculated only for the record j that is similar to the record i. When certain key information is input through the input /
上記(1)式の計算では、現時点のスコアが大きいほど次の時点でもスコアが大きくなりやすいため、類似するキー情報が入力される等によって、過去に引き出した記録ほど次の時点でも引き出しやすくなる履歴性を持つ。同時に、意外性のある記録も引き出すことが可能な一面を持つ。 In the calculation of the above formula (1), as the current score is larger, the score is likely to be larger at the next time point. Therefore, when the similar key information is input, the past-drawn record is easily retrieved at the next time point. Has a history. At the same time, it has one aspect that can draw out unexpected records.
次に、スコアの大局的な調整について説明する。キー情報に類似する記録のスコアを大局的に大きくするためには、βの値を全記録のスコアの平均値(全スコア平均値)が予め設定された目標平均値に近づくように制御すればよい。ここでは、文献「Kantaris,N.,Howden,P.F.,The Universal Equation Solver by BASIC,SIGMA PRESS,1983」に掲載されている方法を用いるとする。 Next, global adjustment of the score will be described. In order to increase the score of the recording similar to the key information globally, the value of β is controlled so that the average value of all recording scores (average value of all scores) approaches a preset target average value. Good. Here, it is assumed that the method described in the document “Kantaris, N., Howden, PF, The Universal Equation Solver by BASIC, SIGMA PRESS, 1983” is used.
図4は、スコアの大局的な調整の処理の概要を示すフローチャートである。時刻t+1におけるβの値を、次式に従って計算する。 FIG. 4 is a flowchart showing an overview of the process of global adjustment of scores. The value of β at time t + 1 is calculated according to the following equation.
時刻tにおいて、全スコア平均値が目標平均値よりも小さく、かつ時間とともに減少している場合、及び全スコア平均値が目標平均値よりも大きく、かつ時間とともに増加している場合においてβを更新する。これらの場合において、時刻t−1とtにおける全スコア平均値と目標平均値の差が同じ符号である場合には、(3)式におけるpを1増やし、全スコア平均値を速やかに目標平均値に近づけるようにする(ステップ401)。逆に、異なる符号となる場合には、(3)式におけるrを1増やし、全スコア平均値が目標平均値付近で振動することを防ぎ徐々に目標平均値に近づくようにする(ステップ402)。次に、(3)式に従ってβを更新し(ステップ403)、β>0を満たす場合には、以降のスコアの調整のために時刻t−1における全スコア平均値と目標平均値の差の符号を消去し、時刻tにおける全スコア平均値と目標平均値の差の符号を保存し(ステップ404)、終了する。一方、β>0を満たさない場合には、ステップ401或いはステップ402、及びステップ403のp,r,βの更新を無効にし(ステップ405)、終了する。
Update β when the average value of all scores is smaller than the target average value and decreases with time at time t, and when the average value of all scores is larger than the target average value and increases with time To do. In these cases, if the difference between the average value of all scores and the target average value at the times t-1 and t is the same sign, p in the equation (3) is increased by 1, and the average value of all scores is quickly determined as the target average. The value is brought close to the value (step 401). On the other hand, if the signs are different, r in equation (3) is increased by 1, and the average value of all scores is prevented from oscillating near the target average value, and gradually approaches the target average value (step 402). . Next, β is updated according to equation (3) (step 403), and when β> 0 is satisfied, the difference between the average value of all scores and the target average value at time t−1 is adjusted for subsequent score adjustment. The sign is deleted, the sign of the difference between the average value of all scores and the target average value at time t is stored (step 404), and the process ends. On the other hand, if β> 0 is not satisfied, the update of p, r, β in
次に、スコアの局所的な調整について説明する。多様性保持等のためにキー情報に類似する記録以外の記録でもそのスコアを局所的に高くする。これは、着目する記録i(スコアが目標平均値を超えた記録)のγiを、該記録のスコアが該記録と類似する記録のスコアの平均値(局所的スコア平均値)に近づくように制御すればよい。ここでも、先の文献に掲載されている方法を用いるとする。 Next, local adjustment of the score will be described. In order to maintain diversity, the score is locally increased even in a record other than the record similar to the key information. This means that γ i of the record i of interest (record whose score exceeds the target average value) is made closer to the average value (local score average value) of the score of the record similar to the record. Control is sufficient. Again, suppose that the method published in the previous literature is used.
図5は、スコアの局所的な調整の処理の概要を示すフローチャートである。時刻tにおいて、スコアが目標平均値を超えた記録iに対してのみ、時刻t+1におけるγiの値を次式に従って計算する。 FIG. 5 is a flowchart showing an overview of the process of local adjustment of the score. Only for the record i whose score exceeds the target average value at time t, the value of γ i at time t + 1 is calculated according to the following equation.
(7)式におけるHは、先の(4)式で定義したものである。時刻tおいて、記録iのスコアがその記録の局所スコア平均値よりも小さく、かつ時間とともに減少している場合、及びスコアが局所スコア平均値よりも大きく、かつ時間とともに増加している場合においてγiを更新する。これらの場合において、時刻t−1とtにおけるスコアと局所スコア平均値の差が同じ符号である場合には、(7)式におけるpiを1増やし、スコアを速やかに局所スコア平均値に近づけるようにする(ステップ501)。逆に、異なる符号となる場合には、(7)式におけるriを1増やし、スコアが局所スコア平均値付近で振動することを防ぎ徐々に局所スコア平均値に近づくようにする(ステップ502)。次に(7)式に従ってγiを更新し(ステップ503)、γiがユーザが初めに入力した値(以後、γinitと呼ぶ)よりも大きく、かつ、α>γiを満たす場合、すなわちα>γi>γinitを満たす場合には、以降のスコアの調整iのために時刻t−1におけるスコアと局所スコア平均値の差の符号を消去し、時刻tにおけるスコアと局所スコア平均値の差の符号を保存し(ステップ504)、終了する。一方、α>γi>γinitを満たさない場合には、ステップ501或いはステップ502、及びステップ503のpi,ri,γiの更新を無効にし(ステップ505)を終了する。
H in the equation (7) is defined by the above equation (4). At time t, when the score of record i is smaller than the local score average value of the record and decreases with time, and when the score is larger than the local score average value and increases with time Update γ i . In these cases, if the difference between the score and the local score average value at time t-1 and t have the same reference numerals, close to p i is incremented 1, quickly local score mean scores in (7) (Step 501). Conversely, if a different code, (7) the r i is incremented by 1 in the equation, the score is to approach gradually the local score average prevents oscillates about local score average (step 502) . Next, γ i is updated according to equation (7) (step 503), and γ i is larger than a value initially input by the user (hereinafter referred to as γ init ) and satisfies α> γ i , that is, When α> γ i > γ init is satisfied, the sign of the difference between the score at time t-1 and the local score average value is deleted for subsequent score adjustment i, and the score and local score average value at time t The sign of the difference is stored (step 504), and the process ends. On the other hand, if α> γ i > γ init is not satisfied, the update of p i , r i , and γ i in
このように常にα>γiとすることで、類似する記録が全くない記録に対しても非常に類似するキー情報が入力された場合には(mi≒1)、そのスコアが増加するようにする。また、常にγi>γinitとすることで、類似する記録がない場合や類似するキー情報が入力されない場合でも、ユーザが指定したスピードよりも速くスコアが減少してしまうことを防ぐことができる。 Thus, by always satisfying α> γ i , if very similar key information is input even for a record with no similar record (m i ≈1), the score increases. To. Further, by always satisfying γ i > γ init , it is possible to prevent the score from decreasing faster than the speed specified by the user even when there is no similar record or when similar key information is not input. .
次に、スコア計算部105の処理の一例について説明する。図6は、メタ情報として属性値1,…,99を持つ99個の記録に対して、属性値50を持つキー情報を入力した際の全スコア平均値の時間変化を示したものであり、図7は200単位時間後の各記録のスコアを示したものである。但し、記録間、及びキー情報と記録間の類似度は属性値の値が近いほど類似しているものとし、目標平均値は0.6に設定している。
Next, an example of processing of the
図6に示すように、大局的なスコアの調整により、全スコア平均値が目標平均値付近に近づいていく。また、図7に示すように、大局的なスコアの調整により、大局的にはキー情報付近の記録のスコアが大きくなり、局所的なスコアの調整により、キー情報付近の記録以外においてもスコアが大きくなっている。すなわち、キー情報に類似する記録が大局的に引き出しやすくなり、さらにキー情報に非常に似通った記録のみを取り出すことを避けて意外性のある記録をも取り出すことが可能であることを示している。 As shown in FIG. 6, the overall average score value approaches the target average value by adjusting the global score. Further, as shown in FIG. 7, the overall score adjustment increases the score of the recording near the key information, and the local score adjustment increases the score even when the recording is not near the key information. It is getting bigger. That is, a record similar to the key information can be easily extracted on a global basis, and it is also possible to take out a surprising record by avoiding taking out only a record very similar to the key information. .
以上、本発明の連鎖型記録探索装置を実施例に基づき具体的に説明したが、本発明は上記実施例に限定されるものではなく、特許請求の範囲の趣旨を逸脱しない範囲において種々変更し得ることはいうまでもない。 The chain type record search apparatus of the present invention has been specifically described based on the embodiments. However, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the scope of the claims. Needless to say, you get.
なお、図1で示した連鎖型記録探索装置における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2乃至図5で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FD、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。 It should be noted that the processing functions of some or all of the components in the chained record search apparatus shown in FIG. 1 can be configured by a computer program and the program can be executed using the computer to implement the present invention, or Needless to say, the processing procedures shown in FIGS. 2 to 5 can be configured by a computer program, and the program can be executed by the computer. In addition, a computer-readable recording medium such as an FD, MO, ROM, memory card, CD, or the like is stored in the computer. In addition, the program can be recorded and stored on a DVD, a removable disk, etc., and the program can be distributed through a network such as the Internet.
101 入出力部
102 制御部
103 記録データベース
104 類似度計算部
105 スコア計算部
101 Input /
Claims (5)
キー情報の入力、関連する記録の取り出し方に関するパラメータの入力、新たな記録の入力、及び、取り出した記録の出力を行う入出力手段と、
キー情報と記録間の類似度、及び、記録間の類似度を計算する類似度計算手段と、
前記キー情報と記録間の類似度、及び、記録間の類似度に基づき、各記録の当該記録を取りだすべきか否かの程度を表す値(以下、スコア)を計算するスコア計算手段と、
記録及びそのスコアを格納する記録データベースとを具備し、
前記記録に付与されたスコアをもとに、キー情報に応じて関連する記録を連鎖的に取り出すことを特徴とする連鎖型記録探索装置。 A chain-type record search device for taking out records related to user input information (hereinafter, key information) from records stored on a record database,
Input / output means for inputting key information, inputting parameters related to how to take out related records, inputting new records, and outputting extracted records;
Similarity calculation means for calculating similarity between key information and records, and similarity between records;
Score calculating means for calculating a value (hereinafter referred to as a score) indicating the degree of whether or not to take the record of each record based on the similarity between the key information and the record, and the similarity between records;
A record database for storing records and their scores,
A chained record search apparatus characterized in that, on the basis of a score assigned to the record, related records are chained out according to key information.
前記スコア計算手段は、ある時刻tにおける記録iのスコアxiを、
mijは記録jから見た記録iの類似度
miは記録iから見たキー情報の類似度
xjは記録jのスコア
α,β,γiは関連する記録の取り出し方に関するパラメータ
の式に従って計算することを特徴とする連鎖型記録探索装置。 In the chain type record search device according to claim 1,
The score calculation means calculates the score x i of the record i at a certain time t,
前記スコア計算手段は、前記(1)式における右辺第1項と第2項の和は記録iと類似性のある記録jについてのみ計算することを特徴とする連鎖型記録探索装置。 In the chain type record search device according to claim 2,
The score calculation means calculates the sum of the first term and the second term on the right side in the equation (1) only for a record j having similarity to the record i.
前記スコア計算手段は、前記(1)式におけるパラメータβを、全記録のスコアの平均値が予め設定された目標平均値に近づくように制御することを特徴とする連鎖型記録探索装置。 In the chain type record search device according to claim 3,
The score calculation means controls the parameter β in the equation (1) so that the average value of the scores of all records approaches a preset target average value.
前記スコア計算手段は、スコアが目標平均値を超えた記録iに対しては、前記(1)式におけるパラメータγiを、当該記録iのスコアが該記録iと類似する記録におけるスコアの平均値に近づくよう制御することを特徴とする連鎖型記録探索装置。 In the chain type record search device according to claim 4,
The score calculation means calculates the parameter γ i in the equation (1) for the record i whose score exceeds the target average value, and the average value of the scores in the record in which the score of the record i is similar to the record i A chained record search apparatus, characterized in that control is performed so as to approach.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004056141A JP2005250558A (en) | 2004-03-01 | 2004-03-01 | Chained record search device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004056141A JP2005250558A (en) | 2004-03-01 | 2004-03-01 | Chained record search device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005250558A true JP2005250558A (en) | 2005-09-15 |
Family
ID=35031013
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004056141A Pending JP2005250558A (en) | 2004-03-01 | 2004-03-01 | Chained record search device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2005250558A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5257071B2 (en) * | 2006-08-03 | 2013-08-07 | 日本電気株式会社 | Similarity calculation device and information retrieval device |
-
2004
- 2004-03-01 JP JP2004056141A patent/JP2005250558A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5257071B2 (en) * | 2006-08-03 | 2013-08-07 | 日本電気株式会社 | Similarity calculation device and information retrieval device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7747616B2 (en) | File search method and system therefor | |
| CN108021691B (en) | Answer finding method, customer service robot, and computer-readable storage medium | |
| CN106873799B (en) | Input method and device | |
| JP2001344276A (en) | Document search method and apparatus, and recording medium on which processing program is recorded | |
| JP4622589B2 (en) | Information processing apparatus and method, program, and recording medium | |
| CN113157198B (en) | Method, device and computer program product for managing cache | |
| CN102567409A (en) | Method and device for providing retrieval associated word | |
| CN113660541B (en) | Method and device for generating abstract of news video | |
| JP2018206361A (en) | System and method for user-oriented topic selection and browsing, and method, program, and computing device for displaying multiple content items | |
| JP2001256253A (en) | Document filtering method and apparatus | |
| CN112860929A (en) | Picture searching method and device, electronic equipment and storage medium | |
| TW201211805A (en) | Information provision device, information provision method, programme, and information recording medium | |
| WO2019085118A1 (en) | Topic model-based associated word analysis method, and electronic apparatus and storage medium | |
| JP4087769B2 (en) | Server and related word proposal method | |
| US20140095424A1 (en) | Evaluation target of interest extraction apparatus and program | |
| JPH10340270A (en) | Information filtering method, information filtering device, and recording medium | |
| JP2005250558A (en) | Chained record search device | |
| JP4567025B2 (en) | Text classification device, text classification method, text classification program, and recording medium recording the program | |
| CN113377922B (en) | Methods, devices, electronic devices and media for matching information | |
| JP2010015394A (en) | Link destination presentation device and computer program | |
| US11636167B2 (en) | Determining similarity between documents | |
| CN114254112A (en) | Method, system, apparatus and medium for sensitive information pre-classification | |
| CN114547460A (en) | Method, device, electronic equipment and medium for displaying recommendation information to user | |
| JP2001147923A (en) | Similar document search device, similar document search method, and recording medium | |
| CN114722267A (en) | Information push method, device and server |