JP3588510B2 - Information filtering device - Google Patents
Information filtering device Download PDFInfo
- Publication number
- JP3588510B2 JP3588510B2 JP31330195A JP31330195A JP3588510B2 JP 3588510 B2 JP3588510 B2 JP 3588510B2 JP 31330195 A JP31330195 A JP 31330195A JP 31330195 A JP31330195 A JP 31330195A JP 3588510 B2 JP3588510 B2 JP 3588510B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- search
- user
- profile
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、膨大な数のテキスト情報からユーザの要求・興味にあったものを選出してユーザに提示する情報フィルタリング装置に関する。
【0002】
【従来の技術】
近年、ワードプロセッサや電子計算機の普及、インターネットなどの計算機ネットワークを介した電子メールや電子ニュースの普及に伴ない、文書の電子化が加速的に進みつつある。電子出版という言葉が示すように、今後は新聞、雑誌や本の情報も電子的に提供されることが一般的になると考えられる。これにより、個人にとってリアルタイムで入手可能となるテキスト情報の量は膨大になっていくと予測される。
【0003】
これに伴ない、新聞や雑誌などの膨大なテキスト情報からユーザの要求・興味にあったものを選出して随時ユーザに提供する情報フィルタリングシステムの需要が高まりつつある。
【0004】
これまでに実現されている情報フィルタリングシステムには、提示したテキストの適合性をユーザに評価させ、プロファイルと呼ばれるユーザの興味にあったテキストを検索するための検索条件にその結果をフィードバックさせることによって、個々のユーザに対するテキストの適合性を高めていくというレレバンスフィードバック機能を実現しているものがある。
【0005】
しかし、今後、情報フィルタリングシステムは、たとえば研究所の特定のテーマをもった研究グループのように、同一の分野に興味をもった複数の人間にも活用されるようになると考えられる。従来の情報フィルタリングシステムにおけるレレバンスフィードバックは、あくまでも個々のユーザに対応させるためのものであり、このような複数のユーザの要求を総括的に分析してフィードバックを行なうことはできなかった。また、個々のユーザが行なうテキストの適合性判定は、一貫性および信頼性に乏しい場合があるため、フィードバックにより必ずしもテキストの適合性が高まるとは限らず、より信頼性の高いレレバンスフィードバック機能の実現が望まれている。
【0006】
また、従来の情報フィルタリングシステムでは、レレバンスフィードバックにより新しい検索語をプロファイルに追加することはできても、もはやテキスト中で使用されないようになり時代おくれとなった検索語を自動的に削除することはできなかった。したがって、言葉のはやりすたりや、話題の移りかわりに追従できるような情報フィルタリングシステムの実現が望まれている。
【0007】
【発明が解決しようとする課題】
前述したように、従来の情報フィルタリングシステムにおけるレレバンスフィードバックは、あくまでも個々のユーザに対応させるためのものであり、このような複数のユーザの要求を総括的に分析してフィードバックを行なうことができないといった問題があった。
【0008】
また、従来の情報フィルタリングシステムでは、レレバンスフィードバックにより新しい検索語をプロファイルに追加することはできても、もはやテキスト中で使用されないようになり時代おくれとなった検索語を自動的に削除することはできないといった問題があった。
【0009】
この発明はこのような実情に鑑みてなされたものであり、同一の分野に興味をもった人間のグループが情報フィルタリングシステムを共有している場合に、グループのメンバが個々に行なったレレバンスフィードバック情報を共通のプロファイルに反映させることを可能にすることにより、信頼性の高いレレバンスフィードバックを実現し、共通のプロファイルの更新と、個々のユーザーのプロファイルの更新とを効率的に行ない、さらに、プロファイル中で古くなった検索条件および検索語を自動的に削除することにより、時代に即した知識のみを用いた検索を実現する情報フィルタリングを提供することを目的とする。
【0012】
【課題を解決するための手段】
この発明は、複数のテキスト情報の中から所望のテキスト情報を選出してユーザに提示する情報フィルタリング装置において、複数のユーザによって構成されるグループ毎の検索条件を保持する第1の保持手段と、ユーザ毎の検索条件を保持する第2の保持手段と、前記第1の保持手段および前記第2の保持手段に保持された検索条件に合致する前記テキスト情報を選出する手段と、この手段で選出された前記テキスト情報を前記グループを構成するユーザに提示する手段と、この手段で提示された前記テキスト情報に対するユーザの評価結果であるレレバンスフィードバック情報を収集する手段と、この手段で収集された全ユーザについての前記レレバンスフィードバック情報を解析して前記第1の保持手段または前記第2の保持手段に保持された検索条件に反映させるべき語であるフィードバック情報を抽出し、この抽出したフィードバック情報を前記第1の保持手段に保持された検索条件に反映させるべきものと前記第2の保持手段に保持された検索条件に反映させるべきものに振り分ける手段と、この手段で抽出されて前記第1の保持手段に保持された検索条件に反映させるべきものとして振り分けられたフィードバック情報をもとに前記第1の保持手段に保持された検索条件を修正すると共に、前記第2の保持手段に保持された検索条件に反映させるべきものとして振り分けられたフィードバック情報をもとに前記第2の保持手段に保持された検索条件を修正する手段とを具備したことを特徴とする。
【0013】
この発明においては、個々のユーザのフィードバック情報を共通プロファイル更新用の情報とユーザ毎のプロファイル更新用の情報とに振り分けてフィードバックを行なうため、グループとして信頼性の高いレレバンスフィードバック機能を実現しつつ、メンバに共通な情報はなるべく共通プロファイルの更新に利用し、それ以外のメンバに固有な情報をメンバ毎のプロファイルの更新に利用することにより、メンバそれぞれに対しては、より適合した情報フィルタリングが実現でき、かつフィードバックのためのシステムの処理量および情報フィルタリングのための記憶容量を大幅に節約できる。
【0018】
【発明の実施の形態】
以下、図面を参照してこの発明の実施の形態について説明する。
【0019】
(第1実施形態)
まず、図1を参照して第1実施形態の情報フィルタリングシステムの利用形態について説明する。
【0020】
図1に示すように、本実施形態では、共通の興味をもった5人のユーザ3(ユーザA,B,C,D,E)が、情報フィルタリングシステム1を共有している。そして、この情報フィルタリングシステム1には、テキスト情報源2から随時テキスト情報が到着する。たとえば、ユーザA〜Eが半導体の研究を行なっているグループである場合に、情報フィルタリングシステム1に、「われわれは半導体に関するテキスト情報に興味がある」と登録すると、これがプロファイルという検索条件に変換される。以後、情報フィルタリングシステム1は、新着情報の中から自動的に半導体に関するテキスト情報のみを抽出し、ユーザA〜Eにこのテキスト情報を提示する。
【0021】
本実施形態においては、情報フィルタリングシステム1は、ユーザA〜Eという一つのグループに対して一つの共通プロファイル10をもっており、この共通プロファイル10を検索条件に用いて情報の絞りこみを行なうので、図中のユーザA〜Eに提示されるテキスト情報は同じものとなる。
【0022】
(システムの構成)
図2には、本実施形態の情報フィルタリングシステム1の機能構成が示されている。図中、実線の矢印はデータの流れを表している。
【0023】
情報フィルタリングシステム1は、図示のように、テキスト情報解析部16、テキスト情報記憶部17、テキスト情報検索部14、テキスト情報出力部15、ユーザ情報入力部11、ユーザ情報解析部12およびユーザ情報記憶部13から構成されている。これら構成要素のうち、鎖線で囲まれているテキスト情報解析部12、テキスト情報検索部14およびユーザ情報解析部16は、計算機の中央処理装置によって実行されるソフトウエアによって実現でき、またテキスト情報記憶部13およびユーザ情報記憶部17は、計算機の主記憶装置やハードディスク装置などによって実現できる。さらにテキスト情報出力部15は、ユーザ3にテキスト情報を提示するためのCRTディスプレイなどから構成され、ユーザ情報入力部11は、ユーザ3が興味のあるトピックやレレバンスフィードバック情報を入力するためのキーボードやマウスなどから構成される。
【0024】
図3に、テキスト情報解析部16の処理の流れの一例を示す。
【0025】
テキスト情報解析部16は、はじめにテキスト情報源2からテキスト情報を取り込む(ステップA1)。ここで、テキスト情報源2とは、新聞社や出版社のようにテキスト情報を生成して情報フィルタリングシステムに提供してくれる機関や、電子メールシステムや文書検索システムのようにテキスト情報を扱う別個のシステムや、計算機ネットワーク上でテキスト情報を一般公開しているサイトなどを指す。
【0026】
テキスト情報解析部16は、入力されたテキスト情報に対して形態素解析、構文解析、意味解析および書式解析などを行ない、単語、句、文および段落などのテキスト構成要素に関する頻度情報や位置情報、テキストの主題や5W1H的な情報を抽出する(ステップA2)。
【0027】
そして、この抽出した情報により個々のテキストを表現する(ステップA3)。続いて、テキスト情報から抽出した情報をテキスト情報検索部14が検索できる形式に変換し(ステップA4)、これらをテキスト情報記憶部17に格納する(ステップA5)。これは、通常の情報検索におけるインデキシング処理に相当する。
【0028】
図4には、テキスト情報解析部16により表現されたテキスト情報の一例が示されている。
【0029】
この図は、「○○社と△△社が今月17日に、□□県××市に半導体の合弁会社を設立する」という内容の新聞記事を○×新聞社から受信した場合に得られるテキスト情報の表現例である。
【0030】
図5に、テキスト情報検索部14の処理の流れの一例を示す。
【0031】
テキスト情報検索部14は、はじめに、ユーザの興味を表現した検索条件であるプロファイルをユーザ情報記憶部13から取り出す(ステップB1)。複数のユーザ3が「半導体に関する情報に興味がある」と情報フィルタリングシステム1に登録していたとすると、これらのユーザ3に対するプロファイル10には、たとえば図6に示すような検索条件が記述されることになる。
【0032】
図6には、「半導体」に関係するテキスト情報を検索するための検索条件が列挙されている。「(条件1)」は、テキスト中に「半導体」という語が出現しているか否かを判定するものであり、「(条件2)」は、「メモリ」という語と「半導体」という語がテキスト中に共起しているか否かを検査するものである。これらは従来のキーワードによるプール検索の検索条件に相当するものである。「(条件3)」は、テキストの見出しに特定の半導体会社の社名が出現するテキストを検索するものであり、単語の出現位置の情報と、半導体会社の社名に関する知識を用いた検索条件となっている。「(条件4)」は、単語の頻度情報に基づく検索条件である。「(条件5)」は、「DRAM」や「フラッシュメモリ」といった「半導体」の分野の関連語を利用した検索条件である。
【0033】
テキスト情報検索部14は、図6に示したようなプロファイル10を検索条件に用い、テキスト情報記憶部17に記憶されたテキストを検索対象にして、テキスト検索を行なう(ステップB2)。ここで、テキスト検索とは、たとえば図6に示したような検索条件を満たすテキスト情報を選出することに相当し、具体的には、検索条件を満たすテキストと満たさないテキストに振り分けたり、検索条件を満たす度合いによってテキストの順位付けを行なうことをいう。たとえば、後者の場合、検索により順位付けされた上位のテキストのうち、数件がユーザ提示用に選出され、テキスト情報出力部15に渡される(ステップB3)。テキスト検索の具体的な手法としては、たとえば文献(「SMART情報検索システム」、ジェラルド・サントン編著、神保健二監訳、企画センタ)に開示されている技術などを採用すればよい。
【0034】
図7に、テキスト情報出力部15の処理の流れの一例を示す。
【0035】
テキスト情報出力部15は、ユーザ3に提示するテキスト情報をテキスト情報検索部14から受け取り(ステップC1)、これをユーザ3に提示する(ステップC2)。
【0036】
図8に、ユーザ情報入力部11の処理の流れの一例を示す。
【0037】
ユーザ情報入力部11は、ユーザ3からユーザ情報を受け付け(ステップD1)、ユーザ情報解析部12にわたす(ステップD2)。このユーザ情報には、以下に示す2種類が存在する。
【0038】
第1は、たとえば「半導体に関する記事がほしい。」のように、ユーザ3が情報フィルタリングシステム1に対して予め指定する、ユーザ3がどのようなテキスト情報を求めているかに関する情報である。ここでは、この種の情報を初期設定情報と呼ぶことにする。
【0039】
第2は、システムが提示したテキスト情報の適合性をユーザ3が判定したレレバンスフィードバック情報である。これは、ユーザ3に提示する記事がよりユーザ3の要求に合ったものになるようにプロファイル10を修正するためのものであり、具体的にはたとえば図9および図10のような形態の情報が考えられる。
【0040】
図9は、ユーザ3が提示されたテキスト情報の各々に対して、「要/やや要/不要」の3段階評価を行なった情報の一例である。
【0041】
この例では、たとえば「要」と判定されている「テキスト1」や「テキスト2」に含まれる単語から有用なものを抽出してプロファイル10に追加する、などの処理を行なうことにより、次回からは、よりフィルタリング結果が得られる可能性がある。
【0042】
また、図9の変形例として、適合性の判定をテキスト単位ではなく、テキストの構成要素単位で行なってもよい。たとえば、ユーザ3に提示されたテキストの文や段落を抜きだして、「この部分は有用だった」といった情報をシステムにフィードバックすることが考えられる。さらに、図9では3段階評価が行なわれているが、これを拡張して数値により適合性を評価させるようにしてもよい。
【0043】
図10は、キーボードなどを介してユーザ3により与えられた自然言語によるレレバンスフィードバック情報の例である。フィルタリング結果の上位に「半導体製造装置」に関する記事が提示されたが、ユーザ3は「半導体製造装置」についてはあまり興味がない場合、図中の(A)のような要望をシステムに返すことにより、次回からは、「半導体製造装置」という語を含むテキストの点数を下げてもらうことが考えられる。また、プロファイル10中の検索語に重要度が付与されているような検索方式の場合には、図中の(B)のように、「フラッシュメモリよりもDRAMを重視せよ」といった要求を出すことにより、プロファイル中の検索語の重要度を変更することが考えられる。
【0044】
図11に、ユーザ情報解析部12の処理の流れの一例を示す。
【0045】
ユーザ情報解析部12は、ユーザ情報記憶部13に既に情報が格納されているか否かを判定し(ステップE1,E2)、この判定結果にしたがって2通りの動作を行なう。ユーザ情報記憶部12が空である場合は(ステップE2のY)、初期選択情報解析処理を行ない(ステップE3)、空でない場合はレレバンスフィードバック情報解析処理を行なう(ステップE4)。
【0046】
図12に、初期選択情報解析処理の流れの一例を示す。
【0047】
初期選択情報解析処理においては、ユーザ情報解析部12は、予め準備された言語解析に必要な解析用辞書101などを参照して初期選択情報を解析し、選択された話題を表す語や表現を特定する(ステップF1)。次に、選択された話題に関連する検索語やその同義語などに関する知識を得るために、予め準備されたトピック知識を参照し検索語を決定する(ステップF2)。そして、この決定した検索語を用い、図6に示したようなプロファイル10を記述する。このような共通プロファイル10の生成は、システムが自動的に行なってもよいし、生成したプロファイル10をユーザ3に修正させるなどして半自動で行なってもよい。この生成された共通プロファイル10は、ユーザ情報記憶部13に記憶する(ステップF3)。
【0048】
図13に、前述したトピック知識の一例を示す。
【0049】
図13(a)は、検索語間の関係を記したトピックの知識の例である。たとえば、「半導体メモリ」の下位概念には「ROM」や「RAM」があることが記されているので、「半導体メモリ」という話題に対するプロファイル10を記述する際に、「ROM」や「RAM」などを検索語として用いることができる。また、図13(b)は、同義語情報に関するトピック知識の例である。このような知識を利用し、プロファイルに「ROM」だけでなく「読み出し専用メモリ」という同義語も検索語として登録しておけば、見逃しの少ない検索を行なうことができる。
【0050】
図14に、レレバンスフィードバック情報解折処理の流れの一例を示す。
【0051】
レレバンスフィードバック情報解折処理においては、ユーザ情報解析部12は、予め準備された言語解析に必要な解析用辞書101などを参照して各々のユーザ3のレレバンスフィードバック情報を解析する(ステップG1〜ステップG4)。次に、これらの情報の中からユーザ3に共通のプロファイル10に反映させるフィードバック情報を選出する(ステップG5)。そして、たとえば文献(「SMART情報検索システム」、ジェラルド・サルトン編著、神保健二監訳、企画センタ)に開示されているようなレレバンスフィードバック手法を用いて共通プロファイルを更新し、これをユーザ情報記憶部13に格納する(ステップG6)。なお、プロファイル更新の際に新しい単語を追加するときなどには、その単語の関連語に関する情報などを得るために、その話題に関するトピック知識102を参照してもよい。
【0052】
従来のレレバンスフィードバック処理と本実施形態におけるレレバンスフィードバック情報解析処理との違いは、前者は単一ユーザから得たフィードバック情報を単一プロファイルに反映させるだけであるのに対して、後者は複数ユーザから得たフィードバック情報の中から共通のプロファイル10に反映させるべき情報を選出してフィードバックを行なうということである。
【0053】
図15に、複数ユーザから得たレレバンスフィードバック情報の例を示す。
【0054】
この例では、同一の話題に興味をもつ3人のユーザ3が情報フィルタリングシステム1を共有しており、彼らに共通に提示された3つのテキスト情報に対する各々の適合性判定結果が「○」あるいは「×」で示されている。ユーザA、B、Cは、同一の話題に興味をもつため、「テキスト1」や「テキスト3」に対する適合性判定結果のように、各ユーザ3の判定結果は一般的には一致すると考えられる。しかしながら、個々のユーザ3の関心の若干の食い違いやその分野に関する知識の違い、または判定時の気分や忙しさなどによって、図中の「テキスト2」の判定結果のように食い違いが出てくることが考えられる。この例では、ユーザAおよびユーザBが「テキスト2」を「有用」と判定しているにも関わらず、ユーザCは「不要」と判定している。このような場合、たとえば、多数決で「テキスト2」は有用であるとしてフィードバック処理を行なえば、信頼性の高いフィードバックが行なえると考えられる。さらに、この変形例として、たとえば図15のユーザA、B、CのうちユーザAが最も信頼できる適合性判定者であるという情報を予めシステムに与えておけば、ユーザAのフィードバック情報を重視したレレバンスフィードバックを行なうことも可能である。
【0055】
図16に、複数ユーザから得たレレバンスフィードバック情報の変形例を示す。
【0056】
このようなフィードバック情報は、たとえば、各々のユーザ3が「有用である」と判定したテキストまたはその一部に頻繁に出現する語句を抽出することにより得ることができる。この例では、ユーザAの指定したテキストあるいはその一部には、「64メガDRAM」および「半導体合弁会社」という語が頻出していたということになる。ユーザBおよびユーザCについても同様である。「半導体合弁会社」、「メモリ特許」および「半導体製造装置」などの語は、一人のユーザ3のフィードバック情報にしか含まれていないのに対して、「64メガDRAM」という語は全ユーザのフィードバック情報に含まれている。このような場合、「64メガDRAM」は、全ユーザが有用であると判定したテキストまたはその部分に含まれていた語であるので、共通プロファイル10に反映させる情報としては最も重要なものであると考えられる。そこで、「64メガDRAM」のみを共通プロファイルに反映させたり、あるいは図16に示した語すべてを共通プロファイル10に反映させる際にも、「64メガDRAM」の重みを他の語よりも高くしたりすれば、複数のユーザ3の多数決をもとにした信頼性の高いレレバンスフィードバックを行なうことができる。具体的なプロファイル10への反映方法としては、たとえば図6における「(条件5)」のところに、「64メガDRAM」を追加したり、「(条件1)」から「(条件5)」のすべてに「64メガDRAM」を追加したりすればよい。
【0057】
以上では、複数のユーザ3の多数決に基づくレレバンスフィードバックについて説明したが、これ以外の方針によって複数のユーザ3のフィードバック情報から共通プロファイル10に反映させる情報を決定することも可能である。たとえば、各々のテキスト情報について、それが有用であるというユーザ3がグループ中に一人でもいれば、そのテキスト情報をフィードバックに用いるということが考えられる。この場合、図15の例では、多数決の場合と同様、「テキスト1」と「テキスト2」とが有用であると判断できる。グループが、全体としてなるべく洩れのないフィルタリングを求めている場合、このような方針が有効となる場合があると考えられる。同様に、各々のテキストについて、それが不要であるというユーザ3が一人でもいれば、そのテキストはレレバンスフィードバックに用いることはしない、などの方針を採用することも考えられる。この場合、図15の例では、「テキスト1」のみがレレバンスフィードバックに適する情報として採用される。したがって、以上のような方針をユーザ3が逐次指定できるようにし、指定されている方針に応じてレレバンスフィードバックに採用する情報の選出方法を切替えるようにしてもよい。
【0058】
(第2実施形態)
次に、図17を参照して第2実施形態の情報フィルタリングシステムの利用形態について説明する。
【0059】
第1実施形態と本実施形態の違いは、前者が複数ユーザ3に共通の一つのプロファイル10を有し、これを用いた一つのフィルタリング結果を全ユーザ3に提示するものであるのに対し、後者は共通のプロファィル10とユーザ3毎のプロファイル18との両方を有し、最終的にはユーザ3毎にカスタマイズされた情報を個々のユーザに提示することである。本実施形態における共通プロファイル10は、全ユーザ3に共通な情報要求を反映したものであり、ユーザプロファイル18は、ユーザ3固有の情報要求を反映したものである。たとえば、図中のユーザA〜Eが同一テーマの研究を行なっているグループであり、はじめに情報フィルタリングシステム1に「半導体に関するテキスト情報に興味がある」と登録したとしても、時間とともに、また新しいテキスト情報を取り入れていくとともに、個々のユーザ3の要求が細かい点で変わってくる可能性がある。本実施形態では、このようなことに対処するために、複数のユーザ3から得たレレバンスフィードバック情報を共通プロファイル10に反映させる情報と、ユーザプロファイル18に反映させる情報とに振り分けるものである。
【0060】
本実施形態の機器構成は、図2に示した第1実施形態のものと同じである。また、テキスト情報解析部16およびユーザ情報入力部11の機能も第1実施形態で説明したものと同じである。ここでは、第1実施形態と異なる点のみについて説明する。
【0061】
図18に、本実施形態におけるテキスト情報検索部14の処理の流れの一例を示す。
【0062】
第1実施形態のテキスト情報検索部14の処理の流れと本実施形態との違いは、後者が共通プロファイル10と、個々のユーザプロファイル18とを融合したものを検索条件として検索を行ない、個々のユーザ3毎に検索結果を得ることである。すなわち、ユーザAのためには、共通プロファイル10とユーザA用のユーザプロファイル18とから検索条件を作成して(ステップH4)、この検索条件にしたがって検索を行ない(ステップH5)、検索されたテキスト情報をテキスト情報出力部15に渡す(ステップH6)。同様にユーザBのためには、共通プロファイル10とユーザB用のユーザプロファイル18から検索条件を作成して検索を行ない、検索されたテキスト情報をテキスト情報出力部15に渡す。これを全ユーザ3に対して行なう。
【0063】
図19に、本実施形態におけるテキスト情報出力部15の処理の流れの一例を示す。
【0064】
第1実施形態のテキスト情報出力部15の処理の流れと、本実施形態との違いは、後者はユーザ3毎にフィルタリング結果を出力することである。
【0065】
本実施形態におけるユーザ情報解析部12の処理の流れのうち、レレバンスフィードバック情報解析処理のみが第1実施形態と異なるので、以下にこれを説明する。
【0066】
図20に、本実施形態におけるレレバンスフィードバック情報解析処理の流れの一例を示す。
【0067】
第1実施形態のレレバンスフィードバック情報解析処理の流れと本実施例との違いは、後者においては、複数のユーザ3から得たレレバンスフィードバック情報を共通プロファイル10に反映する情報と、個々のユーザプロファイル18に反映する情報とに振り分けてからフィードバックを行なう点である。これを図16に示したようなフィードバック情報が得られた場合を例にとって説明する。
【0068】
図16は、「半導体」に関心をもっている3人のユーザ3が個々にレレバンスフィーヘドバックを行ない、その情報から抽出された「64メガDRAM」や「半導体合弁会社」などの語を表している。この例では、3人のフィードバック情報に共通して「64メガDRAM」という語が出現しているので、この語は個々のユーザ3の細かい嗜好を表す語というよりも、むしろ「半導体」という話題に関する大元の検索条件をより時代の流れに即したものに修正するのに役立つ情報である可能性がある。たとえば、従来のテキストには「16メガDRAM」という語しか出現しなかったが、新たに「64メガDRAM」が開発され、この語がテキスト中で一般に使われるようになってきたような場合である。このような場合に、共通プロファイル10、すなわち「半導体」に関する一般的なテキスト情報を得るための大元の検索条件に、「64メガDRAM」という語を新規登録する。より一般的には、多くのユーザ3のフィードバック情報に共通に出現した単語は共通プロファイル10の更新に用いるようにする。たとえば、図16に示した単語のうち、2人以上のフィードバック情報に出現した単語は共通プロファイル10へのフィードバックに用い、残りの語は個々のユーザプロファイル18へのフィードバックに用いることにすると、「64メガDRAM」のみが共通プロファイル10にフィードバックされることになる(ステップJ5)。
【0069】
共通プロファイル10に関するフィードバックが行われた後に、今度は個々のユーザプロファイル18に関するフィードバック処理を行なう(ステップJ7)。図16に示した例では、ユーザAに固有のフィードバック情報として、「半導体合弁会社」という語が得られている。そこで、ユーザAのユーザプロファイル18に「半導体合弁会社」を登録する。同様にして、ユーザBのユーザプロファイル18には「メモリ特許」および「SRAM」を、ユーザCのユーザプロファイル18には「半導体製造装置」を登録する。
【0070】
このように、共通プロファイル10へのフィードバックと、ユーザプロファイル18へのフィードバックを分けて行なうことにすれば、時間が経つにつれて必要となる、大元の一般的な検索条件の更新と、個々のユーザカスタマイゼイションを一つの枠組で行なうことができる。複数のユーザ3に対してユーザ3毎にカスタマイズされたフィルタリング結果を提示する場合、従来のシステムはユーザ3毎のプロファイル18のみをもち、これらを個々に更新していたのに対し、本実施形態では、共通なフィードバック情報が一つの共通プロファイル10に対してのみ反映され、ユーザプロファイル18には共通プロファイル10との差分のみを記述すればよいので、処理量および記憶容量の観点からもより効率的である。
【0071】
(共通プロファイル10と、ユーザプロファイル18に関して区分けした検索結果の表示)
本実施形態においては、共通プロファイル10とユーザプロファイル18が共存するが、これに関する情報をユーザに提示することも考えられる。
【0072】
図21に、共通プロファイル10と2人のユーザ3に対するユーザプロファイル18の例を示す。
【0073】
共通プロファイル10には、(条件1),(条件2),(条件3),…などの検索条件とそれに対応する検索語とが記されており、ユーザAのためのユーザプロファイル18には、(条件A1),(条件A2),(条件A3)などの検索条件とそれに対応する検索語とが記されている。ユーザAのための検索は、この両者を併用して行なわれる。仮に、ユーザAのための記事が3件得られたとする。このうち、「記事1」は、図21の(条件1)に適合した記事であり、「記事2」は、(条件2)および(条件3)に適合した記事であり、「記事3」は、(条件A1)および(条件A3)に適合した記事である場合、図22に示したような記事の提示方法が考えられる。
【0074】
検索結果は、図示のように、「共通プロファイルの検索条件に適合した記事」と、「あなたの個人プロファイルの検索条件に適合した記事」とに区分けされており、「記事1」および「記事2」は前者の方で、「記事3」は後者の方で提示されている。これにより、ユーザ3は、提示された記事がグループ共通の興味に適合したものであるのか、または個人的な興味に適合したものであるのかを容易に知ることができる。
【0075】
図23は、図22の変形例である。この例では、各々の記事に、共通プロファイル10の貢献度と、ユーザプロファイル18の貢献度の情報が付加されている。たとえば、「記事1」は、共通プロファイル10の検索条件のうち3つを満たしたために、30点の部分点を与えられ、ユーザプロファイル18の検索条件のうち7つを満たしたために、70点の部分点を与えられたという情報が図示のように表示されている。この例では、「記事1」が最も個人的な興味に適合したものであり、「記事3」が最もグループ共通の興味に適合したものであることがわかる。
【0076】
図22や図23のような検索結果とともに、共通プロファイル10のサイズとユーザプロファイル18のサイズの比に関する情報を提供してもよい。ここで、プロファイルのサイズとは、プロファイル中の検索語や検索条件の数、検索語の重みの和などの値をいう。たとえば、「共通プロファイルの語数:ユーザプロファイルの語数」が50:20てあるようなユーザは、それが50:3であるユーザよりもはるかに個人的な興味を反映した、グループの他のメンバとは異なる検索結果を得ていることがわかる。
【0077】
(第3実施形態)
次に、図24を参照して第3実施形態の情報フィルタリングシステムの利用形態について説明する。
【0078】
本実施形態は、ユーザ3が必ずしも複数存在する必要がないことを除けば、第1および第2実施形態と同じである。
【0079】
図25に、本実施形態における機器構成を示す。
【0080】
第1および第2実施形態との違いは、ユーザ情報解析部12とユーザ情報記憶部13との間にユーザ情報管理部20を具備している点である。テキスト情報解析部16、テキスト情報出力部15、ユーザ情報入力部11の機能は第1実施形態と同じである。また、ユーザ情報解析部12の機能は、解析したユーザ情報を直接ユーザ情報記憶部13に記憶する代わりに、ユーザ情報管理部20に渡すところのみが図11、図12および図14で示したものと異なる。したがって、ここでは、第1実施形態と異なるテキスト情報検索部14、ユーザ情報管理部20の機能のみについて説明する。
【0081】
図26に、本実施形態におけるテキスト情報検索部14の処理の流れの一例を示す。
【0082】
ここでは、プロファイル19とテキスト情報との類似度を算出し、これをランキングすることにより検索を行なう検索方式の場合を例にして説明する。テキスト情報検索部14は、新たに到着したすべてのテキスト情報に対して、以下の処理を行なう。
【0083】
まず、通常の検索方式にしたがい、プロファイル19とテキスト情報との類似度を計算する(ステップK3)。次に、プロファイル19中の検索条件のうち前述の類似度計算においてテキスト情報に適合した条件に、現在の時刻を付加する(ステップK4)。同様に、プロファイル19中の検索語のうち前述の類似度計算においてテキスト情報に適合した検索語に、現在の時刻を付加する。検索条件および検索語に付加されるこれらの時刻を、本実施形態では最新適合時刻と呼ぶことにする。テキスト情報検索部14は、すべてのテキスト情報に対する以上の処理を終えると(ステップK6のY)、テキスト情報を類似度順にランキングし、この結果をテキスト情報出力部15に渡す(ステップK7)。本実施形態におけるテキスト情報検索部14の機能と、第1実施形態におけるそれとの違いは、前者がプロファイル19中の検索条件および検索語に現在の時刻を記入することができる点のみである。
【0084】
図27に、最新適合時刻が付加された検索条件および検索語の一例を示す。
【0085】
具体的な検索条件および検索語としては、たとえば図4に示したようなものが考えられる。ここでは、検索条件は4つあり、各条件に(検索語A)〜(検索語F)が指定されている。そして、各検索条件および検索語に、最新適合時刻が付与されている。たとえば、あるテキスト情報が(検索語A)および(検索語B)を含んでおり、これらの検索語が「6日12時25分」に(検索条件1)を満足したとすると、(検索条件1)、(検索語A)、(検索語B)の各々には「6日12時25分」という最新適合時刻が付加される。次に、別のテキスト情報が(検索語A)を含んでおり、これが「9日11時30分」に(検索条件1)を満足したとすると、(検索条件1)および(検索語B)には「9日11時30分」という最新適合時刻が付加される。この結果、プロファイル19は図27のようになる。以上のように、最新適合時刻は、その検索条件あるいは検索語が最近適合したのはいつかを表している。すなわち、この時刻が古いということは、その検索条件あるいは検索語が最近使われなくなったことを表しており、この時刻が新しいということは、その検索条件あるいは検索語が現在でも検索において有効に使われていることを表している。
【0086】
図28に、本実施形態におけるユーザ情報管理部20の処理の流れの一例を示す。
【0087】
ユーザ情報管理部20は、まず図27に示したような最新適合時刻が付加されたプロファイル19をユーザ情報解析部12から受け取る。次に、プロファイル19中の各検索条件および検索語に付加された最新適合時刻と、現在時刻とを比較する。そして、一定期間どのようなテキスト情報にも適合していない検索条件および検索語をプロファイル19から削除し、このように修正されたプロファイルをユーザ情報記憶部13に格納する。たとえば、現在時刻が「26日12時30分」であるとし、ユーザ情報管理部20は、20日以上適合していない検索条件および検索語を削除するようにしているとする。このとき、図27のようなプロファイル19がユーザ情報管理部20に渡されると、20日以上使われていないのは、最新適合時刻が「6日12時25分」である(検索条件1)の(検索語A)、および(検索条件2)の(検索語C)のみである。よってこれらをプロファイル19から削除すれば、図29のような更新されたプロファイル19が得られる。あるいは、この変形例として、プロファイル19中の各検索条件や検索語に重みが付与されている場合、前述の古い検索語を削除してしまわずに、その重みだけを少なくすることも考えられる。
【0088】
以上のような処理により、新しい検索語がレレバンスフィードバックによりプロファイルに追加されていく一方で、検索の役に立たなくなった古い検索条件や検索語はプロファイルから削除されていく。これにより、プロファイルを時代に即したものに保つことが可能であると考えられる。
【0089】
(第4実施形態)
次に、本発明の第4実施形態について説明する。
【0090】
本実施形態における情報フィルタリングシステム1の利用形態および機器構成は第3実施形態と同じである。また、テキスト情報解析部16、テキスト情報検索部14、テキスト情報出力部15およびユーザ情報入力部11の機能は第1実施形態と同じである。したがって、ここではユーザ情報解析部12およびユーザ情報管理部20の機能のみについて説明する。
【0091】
図30に、本実施形態におけるユーザ情報解析部12の処理の流れの一例を示す。
【0092】
これは、第1実施形態における図11、図12および図14で示したものにほぼ対応するが、はじめにプロファイル19を生成する際、あるいはレレバンスフィードバックによりプロファイル19を更新する際に、各検索条件および各検索語に現在時刻を付加する点が第1実施形態例と異なる。すなわち、初期選択情報解析処理においては(ステップM2のY)、プロファイル19中の各検索条件および各検索語に、それらが生成された時刻を付加し(ステップM5)、同様に、レレバンスフィードバック情報解析処理においては(ステップM2のN)、レレバンスフィードバック手法により新たに追加された検索条件および検索語に、その時刻を付加する(ステップM7)。検索条件および検索語に付加されるこれらの時刻を、ここではプロファイル登録時刻と呼ぶことにする。たとえば、あるプロファイル19において、(検索条件1)の時刻が「6日12時25分」であり、この条件に対応する検索語としては(検索語A)だけが指定されていたとする。そして、「9日11時30分」に、レレバンスフィードバックにより、新たに(検索語B)が(検索条件1)のところに追加されたとする。このとき、(検索語B)には「9日11時30分」というプロファイル登録時刻が付加され、同時に(検索条件1)のプロファイル登録時刻も「9日11時30分」に更新されて、新しいプロファイルは図26のようになる。以上のように、プロファイル登録時刻は、その検索条件あるいは検索語がいつプロファイルに登録されたのかを示している。
【0093】
図31に、本実施形態におけるユーザ情報管理部20の処理の流れの一例を示す。
【0094】
ユーザ情報管理部20は、まず図27に示したようなプロファイル登録時刻が付加されたプロファイル19を、ユーザ情報解析部20から受け取る(ステップN1)。次に、プロファイル19中の各検索条件および検索語に付加されたプロファイル登録時刻と、現在時刻とを比較する(ステップN2)。そして、プロファイル19に登録されてから一定期間たった検索条件および検索語をプロファイル19から削除し(ステップN3)、このように修正されたプロファイル19をユーザ情報記憶部13に格納する(ステップN4)。たとえば、現在時刻が「26日12時30分」であるとし、ユーザ情報管理部20は、登録されてから20日以上たった検索条件および検索語を削除するようにしているとする。このとき、図27に示すようなプロファイル19がユーザ情報管理部20に渡されると、登録されてから20日以上たっているのは、最新適合時刻が「6日12時25分」である(検索条件1)の(検索語A)および(検索条件2)の(検索語C)のみである。よってこれらをプロファイルから削除すれば、図29のような更新されたプロファイルが得られる。また、第3実施形態の場合と同様に、この変形例として、プロファイル19中の各検索条件や検索語に重みが付与されている場合に、前述の古い検索条件および検索語を削除してしまわずに、その重みだけを少なくすることも考えられる。
【0095】
第3実施形態と本実施形態との違いは、前者が検索条件および検索語がテキストに適合した最新の時刻を検索時にプロファイルに付加するものであるのに対し、後者が検索条件および検索語がプロファイルに登録された時刻をレレバンスフィードバック時に付加するものである点である。本実施形態においても、第3実施形態と同様に、新しい検索語がレレバンスフィードバックによりプロファイルに追加されていく一方で、検索の役に立たなくなった古い検索条件や検索語はプロファイルから削除されていく。これにより、プロファイルを時代に即したものに保つことが可能であると考えられる。
【0096】
なお、第1乃至第4実施形態で説明した本発明に係る情報フィルタリング装置は、分散したネットワーク環境のみに構築されるものではなく、単独の環境で動作するパーソナルコンピュータ上などにおいても構築可能である。
【0097】
【発明の効果】
以上詳述したように、この発明によれば、グループのメンバが個々に行なったレレバンスフィードバック情報が、共通プロファイルに反映されるため、協調的に情報フィルタリングシステムのカスタマイゼイションを行なうことが可能となる。また、複数メンバの適合性判断に基づくため、フィードバック情報の信頼性が高まる。さらに、メンバに共通な情報はなるべく共通プロファイルの更新に利用し、それ以外のメンバに固有な情報をメンバー毎のプロファイルの更新に利用するので、システムの処理量、記憶容量が節約できる。また、古い検索条件や検索語がプロファイルから自動的に削除されるため、常に最新の知識を用いた検索を行なうことができる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る情報フィルタリングシステムの利用形態を示す概念図。
【図2】本発明の第1および第2実施形態に係る情報フィルタリングシステムの機器構成を示す図。
【図3】本発明の第1および第2実施形態におけるテキスト情報解析部の処理の流れの一例を示す図。
【図4】本発明の第1および第2実施形態におけるテキスト情報解析部により表現されたテキスト情報の例を示す図。
【図5】本発明の第1実施形態におけるテキスト情報検索部の処理の流れの一例を示す図。
【図6】本発明の第1および第2実施形態における共通プロファイルの例を示す図。
【図7】本発明の第1実施形態におけるテキスト情報出力部の処理の流れの一例を示す図。
【図8】本発明の第1および第2実施形態におけるユーザ情報入力部の処理の流れの一例を示す図。
【図9】本発明の第1および第2実施形態におけるレレバンスフィードバック情報の例を示す図。
【図10】本発明の第1および第2実施形態におけるレレバンスフィードバック情報の例を示す図。
【図11】本発明の第1および第2実施形態におけるユーザ情報解析部の処理の流れの一例を示す図。
【図12】本発明の第1および第2実施形態における初期選択情報解析処理の流れの一例を示す図。
【図13】本発明の第1および第2実施形態におけるトピック知識の一例を示す図。
【図14】本発明の第1実施形態におけるレレバンスフィードバック情報解析処理の流れの一例を示す図。
【図15】本発明の第1実施形態における複数ユーザから得たレレバンスフィードバック情報の一例を示す図。
【図16】本発明の第1および第2実施形態における複数ユーザから得たレレバンスフィードバック情報の変形例を示す図。
【図17】本発明の第2実施形態に係る情報フィルタリングシステムの利用形態を示す概念図。
【図18】本発明の第2実施形態におけるテキスト情報検索部の処理の流れの一例を示す図。
【図19】本発明の第2実施形態におけるテキスト情報出力部の処理の流れの一例を示す図。
【図20】本発明の第2実施形態におけるレレバンスフィードバック情報解析処理の流れの一例を示す図。
【図21】本発明の第2実施形態における共通プロファイルおよび2人のユーザに対するユーザプロファイルの例を示す図。
【図22】本発明の第2実施形態における記事の提示方法の一例を示す図。
【図23】本発明の第2実施形態における記事の提示方法の変形例を示す図。
【図24】本発明の第3および第4実施形態に係る情報フィルタリングシステムの利用形態を示す概念図。
【図25】本発明の第3および第4実施形態に係る情報フィルタリングシステムの機器構成を示す図。
【図26】本発明の第3実施形態におけるテキスト情報検索部の処理の流れの一例を示す図。
【図27】本発明の第3および第4実施形態における最新適合時刻/プロファイル登録時刻が付加された検索条件および検索語の一例を示す図。
【図28】本発明の第3実施形態におけるユーザ情報管理部の処理の流れの一例を示す図。
【図29】本発明の第3実施形態における最新適合時刻をもとに更新されたプロファイルの一例を示す図。
【図30】本発明の第4実施形態におけるユーザ情報解析部の処理の流れの一例を示す図。
【図31】本発明の第4実施形態におけるユーザー情報管理部の処理の流れの一例を示す図。
【符号の説明】
1…情報フィルタリングシステム、2…テキスト情報源、3…ユーザ、10…共有プロファイル、11…ユーザ情報入力部、12…ユーザ情報解析部、13…ユーザ情報記憶部、14…テキスト情報検索部、15…テキスト情報出力部、16…テキスト情報解析部、17…テキスト情報記憶部、18…ユーザプロファイル、19…プロファイル、20…ユーザ情報管理部、101…解析用辞書、102…トピック知識、[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information filtering device that selects a user's request / interest from an enormous number of text information and presents it to the user.
[0002]
[Prior art]
In recent years, with the spread of word processors and electronic computers, and the spread of electronic mail and electronic news via computer networks such as the Internet, the digitization of documents is accelerating. As the term "electronic publishing" implies, it is expected that information on newspapers, magazines and books will be provided electronically in the future. As a result, the amount of text information available to individuals in real time is expected to be enormous.
[0003]
Along with this, there is a growing demand for an information filtering system that selects a user's request / interest from a huge amount of text information such as newspapers and magazines and provides the user with the information at any time.
[0004]
Information filtering systems that have been implemented so far allow the user to evaluate the suitability of the presented text and feed the results back to search conditions called profiles, which search for text that interests the user. Some implement a relevance feedback function of improving the suitability of a text for each user.
[0005]
However, in the future, information filtering systems will be used by multiple people who are interested in the same field, for example, a research group with a specific theme at a research institute. The relevance feedback in the conventional information filtering system is only for the purpose of responding to individual users, and it has not been possible to comprehensively analyze such requests of a plurality of users and to provide feedback. Also, text relevance judgments performed by individual users may not be consistent and reliable in some cases. Therefore, feedback does not always increase text relevance, and a more reliable relevance feedback function is used. Realization is desired.
[0006]
Also, with conventional information filtering systems, relevance feedback allows new search terms to be added to the profile, but automatically removes outdated search terms that are no longer used in text. Could not. Therefore, it is desired to realize an information filtering system that can change words and follow topics.
[0007]
[Problems to be solved by the invention]
As described above, the relevance feedback in the conventional information filtering system is only for the purpose of responding to individual users, and it is not possible to comprehensively analyze such requests of a plurality of users and provide feedback. There was a problem.
[0008]
Also, with conventional information filtering systems, new search terms can be added to the profile by relevance feedback, but the search terms that are no longer used in the text and are out of date are automatically deleted. Was not possible.
[0009]
The present invention has been made in view of such circumstances, and when group of people who are interested in the same field share an information filtering system, relevance feedback individually performed by members of the group. By enabling information to be reflected in a common profile, it provides reliable relevance feedback, efficiently updates common profiles and individual user profiles, and It is an object of the present invention to provide information filtering that realizes a search using only knowledge that is in keeping with the era by automatically deleting old search conditions and search words in a profile.
[0012]
[Means for Solving the Problems]
According to the present invention, in an information filtering device for selecting desired text information from a plurality of text information and presenting the selected text information to a user, a first holding unit for holding a search condition for each group constituted by a plurality of users; Second holding means for holding search conditions for each user, means for selecting the text information that matches the search conditions held in the first holding means and the second holding means, and selection by the means Means for presenting the provided text information to the users constituting the group, means for collecting relevance feedback information that is a user's evaluation result for the text information presented by the means, About all users The relevance feedback information is analyzed to extract feedback information which is a word to be reflected in the search condition held in the first holding means or the second holding means, and the extracted feedback information is referred to as the first feedback information. Means for sorting the information to be reflected in the search condition held in the holding means and the means to be reflected in the search condition held in the second holding means; and the means extracted and stored in the first holding means The search condition held in the first holding unit is corrected based on the feedback information sorted as to be reflected in the held search condition, and the search condition held in the second holding unit is added to the search condition. Means for correcting the search condition held in the second holding means based on the feedback information sorted as one to be reflected. Characterized in that Bei was.
[0013]
In the present invention, the feedback information of each user is distributed to the information for updating the common profile and the information for updating the profile for each user, and the feedback is performed. Therefore, a highly reliable relevance feedback function as a group is realized. By using information common to members as much as possible to update common profiles and using information unique to other members to update profiles for each member, more appropriate information filtering can be performed for each member. This can be realized and the amount of processing of the system for feedback and the storage capacity for information filtering can be greatly saved.
[0018]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0019]
(1st Embodiment)
First, a usage form of the information filtering system according to the first embodiment will be described with reference to FIG.
[0020]
As shown in FIG. 1, in the present embodiment, five users 3 (users A, B, C, D, and E) having a common interest share the
[0021]
In the present embodiment, the
[0022]
(System configuration)
FIG. 2 shows a functional configuration of the
[0023]
As illustrated, the
[0024]
FIG. 3 shows an example of the processing flow of the text information analysis unit 16.
[0025]
The text information analysis unit 16 first takes in text information from the text information source 2 (step A1). Here, the
[0026]
The text information analysis unit 16 performs morphological analysis, syntax analysis, semantic analysis, format analysis, and the like on the input text information, and performs frequency information and position information on text components such as words, phrases, sentences, and paragraphs, and text data. (5) A subject and 5W1H information are extracted (step A2).
[0027]
Then, individual texts are represented by the extracted information (step A3). Subsequently, the information extracted from the text information is converted into a format that can be searched by the text information search unit 14 (step A4), and these are stored in the text information storage unit 17 (step A5). This corresponds to an indexing process in a normal information search.
[0028]
FIG. 4 shows an example of the text information expressed by the text information analysis unit 16.
[0029]
This figure is obtained when a newspaper article from XX Newspaper Company, which reads, "XX and XX companies will establish a semiconductor joint venture in XX Prefecture XX City on 17th of this month". It is an expression example of text information.
[0030]
FIG. 5 shows an example of the processing flow of the text
[0031]
First, the text
[0032]
FIG. 6 lists search conditions for searching for text information related to “semiconductor”. “(Condition 1)” determines whether or not the word “semiconductor” appears in the text. “(Condition 2)” indicates that the words “memory” and “semiconductor” This is to check whether they co-occur in the text. These correspond to the search conditions of a conventional pool search using a keyword. “(Condition 3)” is for searching for a text in which the name of a specific semiconductor company appears in the headline of the text, and is a search condition using information on the appearance position of a word and knowledge of the company name of the semiconductor company. ing. “(Condition 4)” is a search condition based on word frequency information. “(Condition 5)” is a search condition using a related word in the field of “semiconductor” such as “DRAM” or “flash memory”.
[0033]
The text
[0034]
FIG. 7 shows an example of a processing flow of the text
[0035]
The text
[0036]
FIG. 8 shows an example of a processing flow of the user information input unit 11.
[0037]
The user information input unit 11 receives user information from the user 3 (Step D1) and passes the user information to the user information analysis unit 12 (Step D2). The user information has the following two types.
[0038]
The first is information on what text information the
[0039]
The second is relevance feedback information in which the
[0040]
FIG. 9 is an example of information obtained by performing a three-level evaluation of “necessary / slightly necessary / unnecessary” for each piece of text information presented by the
[0041]
In this example, for example, a useful word is extracted from words included in “
[0042]
Further, as a modification of FIG. 9, the suitability may be determined not in units of text but in units of components of text. For example, it is conceivable to extract a sentence or paragraph of the text presented to the
[0043]
FIG. 10 is an example of relevance feedback information in a natural language given by the
[0044]
FIG. 11 shows an example of a processing flow of the user
[0045]
The user
[0046]
FIG. 12 shows an example of the flow of the initial selection information analysis processing.
[0047]
In the initial selection information analysis process, the user
[0048]
FIG. 13 shows an example of the topic knowledge described above.
[0049]
FIG. 13A is an example of topic knowledge describing the relationship between search terms. For example, since it is described that “ROM” and “RAM” are included in the lower concept of “semiconductor memory”, when describing the
[0050]
FIG. 14 shows an example of the flow of the relevance feedback information breaking process.
[0051]
In the relevance feedback information breaking process, the user
[0052]
The difference between the conventional relevance feedback processing and the relevance feedback information analysis processing in this embodiment is that the former only reflects feedback information obtained from a single user in a single profile, while the latter That is, information to be reflected on the
[0053]
FIG. 15 shows an example of relevance feedback information obtained from a plurality of users.
[0054]
In this example, three
[0055]
FIG. 16 shows a modification of the relevance feedback information obtained from a plurality of users.
[0056]
Such feedback information can be obtained, for example, by extracting words frequently appearing in the text determined by each
[0057]
In the above, relevance feedback based on the majority decision of the plurality of
[0058]
(2nd Embodiment)
Next, a usage form of the information filtering system according to the second embodiment will be described with reference to FIG.
[0059]
The difference between the first embodiment and the present embodiment is that the former has one
[0060]
The device configuration of the present embodiment is the same as that of the first embodiment shown in FIG. The functions of the text information analysis unit 16 and the user information input unit 11 are the same as those described in the first embodiment. Here, only differences from the first embodiment will be described.
[0061]
FIG. 18 shows an example of the processing flow of the text
[0062]
The difference between the present embodiment and the flow of the process of the text
[0063]
FIG. 19 shows an example of the processing flow of the text
[0064]
The difference between the flow of processing of the text
[0065]
Since only the relevance feedback information analysis processing of the processing flow of the user
[0066]
FIG. 20 shows an example of the flow of the relevance feedback information analysis processing in the present embodiment.
[0067]
The difference between the flow of the relevance feedback information analysis processing of the first embodiment and the present embodiment is that in the latter, the information reflecting the relevance feedback information obtained from a plurality of
[0068]
FIG. 16 shows terms such as “64 mega DRAM” and “semiconductor joint venture” extracted from information obtained by three
[0069]
After the feedback on the
[0070]
As described above, if the feedback to the
[0071]
(Display of search results classified for
In the present embodiment, the
[0072]
FIG. 21 shows an example of the
[0073]
In the
[0074]
As shown in the figure, the search results are classified into “articles that match the search conditions of the common profile” and “articles that match the search conditions of your personal profile”, and “
[0075]
FIG. 23 is a modification of FIG. In this example, information on the contribution of the
[0076]
Information about the ratio between the size of the
[0077]
(Third embodiment)
Next, a usage form of the information filtering system according to the third embodiment will be described with reference to FIG.
[0078]
This embodiment is the same as the first and second embodiments, except that there is no need to always have a plurality of
[0079]
FIG. 25 shows a device configuration in the present embodiment.
[0080]
The difference from the first and second embodiments is that a user
[0081]
FIG. 26 shows an example of the flow of processing of the text
[0082]
Here, a description will be given of an example of a search method in which a similarity between the
[0083]
First, the similarity between the
[0084]
FIG. 27 shows an example of a search condition and a search word to which the latest matching time is added.
[0085]
As specific search conditions and search terms, for example, those shown in FIG. 4 can be considered. Here, there are four search conditions, and (search word A) to (search word F) are specified in each condition. Then, the latest matching time is given to each search condition and search word. For example, if certain text information includes (search term A) and (search term B) and these search terms satisfy (search condition 1) at “12:25 on March 6,” 1), (search term A) and (search term B) each have a latest matching time of “12:25 on the 6th”. Next, assuming that another piece of text information includes (search term A), and this satisfies (search term 1) at "11:30 on 9th," (search term 1) and (search term B) Is added with the latest matching time of “11:30 at 9th”. As a result, the
[0086]
FIG. 28 illustrates an example of a processing flow of the user
[0087]
The user
[0088]
Through the above processing, new search terms are added to the profile by relevance feedback, while old search conditions and search terms that are no longer useful for search are deleted from the profile. Thus, it is considered that the profile can be kept up to date.
[0089]
(Fourth embodiment)
Next, a fourth embodiment of the present invention will be described.
[0090]
The usage mode and the device configuration of the
[0091]
FIG. 30 illustrates an example of a processing flow of the user
[0092]
This substantially corresponds to that shown in FIGS. 11, 12 and 14 in the first embodiment. However, when the
[0093]
FIG. 31 shows an example of the flow of processing of the user
[0094]
First, the user
[0095]
The difference between the third embodiment and the present embodiment is that the former adds the latest time at which the search condition and the search word matched the text to the profile at the time of the search, whereas the latter adds the search condition and the search word to the text. The time registered in the profile is added at the time of relevance feedback. In the present embodiment, as in the third embodiment, new search terms are added to the profile by relevance feedback, while old search conditions and search terms that are no longer useful for search are deleted from the profile. Thus, it is considered that the profile can be kept up to date.
[0096]
The information filtering device according to the present invention described in the first to fourth embodiments is not built only in a distributed network environment, but can also be built on a personal computer operating in a single environment. .
[0097]
【The invention's effect】
As described above in detail, according to the present invention, the relevance feedback information individually performed by the members of the group is reflected in the common profile, so that the information filtering system can be cooperatively customized. It becomes. Further, the reliability of the feedback information is enhanced because the determination is based on the suitability judgment of a plurality of members. Furthermore, information common to the members is used to update the common profile as much as possible, and information unique to the other members is used to update the profile for each member. Therefore, the processing amount and storage capacity of the system can be reduced. Further, since old search conditions and search words are automatically deleted from the profile, a search using the latest knowledge can always be performed.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram showing a use form of an information filtering system according to a first embodiment of the present invention.
FIG. 2 is a diagram showing a device configuration of an information filtering system according to first and second embodiments of the present invention.
FIG. 3 is a diagram showing an example of a processing flow of a text information analysis unit according to the first and second embodiments of the present invention.
FIG. 4 is a diagram showing an example of text information expressed by a text information analysis unit according to the first and second embodiments of the present invention.
FIG. 5 is a diagram showing an example of a processing flow of a text information search unit according to the first embodiment of the present invention.
FIG. 6 is a diagram showing an example of a common profile according to the first and second embodiments of the present invention.
FIG. 7 is a diagram showing an example of a processing flow of a text information output unit according to the first embodiment of the present invention.
FIG. 8 is a diagram showing an example of a processing flow of a user information input unit according to the first and second embodiments of the present invention.
FIG. 9 is a diagram showing an example of relevance feedback information in the first and second embodiments of the present invention.
FIG. 10 is a diagram showing an example of relevance feedback information in the first and second embodiments of the present invention.
FIG. 11 is a diagram showing an example of a processing flow of a user information analysis unit in the first and second embodiments of the present invention.
FIG. 12 is a diagram showing an example of the flow of an initial selection information analysis process in the first and second embodiments of the present invention.
FIG. 13 is a diagram showing an example of topic knowledge in the first and second embodiments of the present invention.
FIG. 14 is a diagram showing an example of the flow of relevance feedback information analysis processing according to the first embodiment of the present invention.
FIG. 15 is a diagram illustrating an example of relevance feedback information obtained from a plurality of users according to the first embodiment of the present invention.
FIG. 16 is a diagram showing a modification of the relevance feedback information obtained from a plurality of users in the first and second embodiments of the present invention.
FIG. 17 is a conceptual diagram showing a use form of the information filtering system according to the second embodiment of the present invention.
FIG. 18 is a diagram illustrating an example of a processing flow of a text information search unit according to the second embodiment of the present invention.
FIG. 19 is a diagram showing an example of a processing flow of a text information output unit according to the second embodiment of the present invention.
FIG. 20 is a diagram showing an example of the flow of relevance feedback information analysis processing according to the second embodiment of the present invention.
FIG. 21 is a diagram illustrating an example of a common profile and a user profile for two users according to the second embodiment of the present invention.
FIG. 22 is a diagram showing an example of an article presentation method according to the second embodiment of the present invention.
FIG. 23 is a diagram showing a modification of the article presentation method according to the second embodiment of the present invention.
FIG. 24 is a conceptual diagram showing a use form of the information filtering system according to the third and fourth embodiments of the present invention.
FIG. 25 is a diagram showing a device configuration of an information filtering system according to third and fourth embodiments of the present invention.
FIG. 26 is a diagram showing an example of a processing flow of a text information search unit according to the third embodiment of the present invention.
FIG. 27 is a diagram showing an example of a search condition and a search word added with the latest matching time / profile registration time according to the third and fourth embodiments of the present invention.
FIG. 28 is a diagram showing an example of a processing flow of a user information management unit according to the third embodiment of the present invention.
FIG. 29 is a diagram showing an example of a profile updated based on the latest matching time according to the third embodiment of the present invention.
FIG. 30 is a diagram showing an example of a processing flow of a user information analysis unit according to the fourth embodiment of the present invention.
FIG. 31 is a diagram showing an example of a processing flow of a user information management unit according to the fourth embodiment of the present invention.
[Explanation of symbols]
REFERENCE SIGNS
Claims (1)
複数のユーザによって構成されるグループ毎の検索条件を保持する第1の保持手段と、
ユーザ毎の検索条件を保持する第2の保持手段と、
前記第1の保持手段および前記第2の保持手段に保持された検索条件に合致する前記テキスト情報を選出する手段と、
この手段で選出された前記テキスト情報を前記グループを構成するユーザに提示する手段と、
この手段で提示された前記テキスト情報に対するユーザの評価結果であるレレバンスフィードバック情報を収集する手段と、
この手段で収集された全ユーザについての前記レレバンスフィードバック情報を解析して前記第1の保持手段または前記第2の保持手段に保持された検索条件に反映させるべき語であるフィードバック情報を抽出し、この抽出したフィードバック情報を前記第1の保持手段に保持された検索条件に反映させるべきものと前記第2の保持手段に保持された検索条件に反映させるべきものに振り分ける手段と、
この手段で抽出されて前記第1の保持手段に保持された検索条件に反映させるべきものとして振り分けられたフィードバック情報をもとに前記第1の保持手段に保持された検索条件を修正すると共に、前記第2の保持手段に保持された検索条件に反映させるべきものとして振り分けられたフィードバック情報をもとに前記第2の保持手段に保持された検索条件を修正する手段と
を具備したことを特徴とする情報フィルタリング装置。In an information filtering device that selects desired text information from a plurality of text information and presents it to a user,
First holding means for holding search conditions for each group constituted by a plurality of users;
Second holding means for holding search conditions for each user;
Means for selecting the text information matching the search condition held in the first holding means and the second holding means;
Means for presenting the text information selected by this means to users constituting the group;
Means for collecting relevance feedback information which is a user's evaluation result on the text information presented by the means,
The relevance feedback information for all users collected by this means is analyzed to extract feedback information, which is a word to be reflected in the search condition held in the first holding means or the second holding means. Means for distributing the extracted feedback information into information to be reflected in the search condition held in the first holding means and information to be reflected in the search condition held in the second holding means,
The search condition held in the first holding unit is corrected based on the feedback information extracted by this unit and sorted as to be reflected in the search condition held in the first holding unit, Means for modifying the search condition held in the second holding means based on feedback information sorted as to be reflected in the search condition held in the second holding means. Information filtering device.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP31330195A JP3588510B2 (en) | 1995-11-30 | 1995-11-30 | Information filtering device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP31330195A JP3588510B2 (en) | 1995-11-30 | 1995-11-30 | Information filtering device |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004010848A Division JP2004118877A (en) | 2004-01-19 | 2004-01-19 | Information filtering device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH09153063A JPH09153063A (en) | 1997-06-10 |
| JP3588510B2 true JP3588510B2 (en) | 2004-11-10 |
Family
ID=18039579
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP31330195A Expired - Fee Related JP3588510B2 (en) | 1995-11-30 | 1995-11-30 | Information filtering device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3588510B2 (en) |
Families Citing this family (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3633224B2 (en) * | 1997-08-11 | 2005-03-30 | 三菱電機株式会社 | Information retrieval system |
| DE69805437T2 (en) * | 1997-10-21 | 2002-12-12 | British Telecommunications Public Ltd. Co., London | INFORMATION MANAGEMENT SYSTEM |
| JP3468062B2 (en) * | 1997-11-11 | 2003-11-17 | 松下電器産業株式会社 | Information filtering apparatus and information filtering method |
| JP3497712B2 (en) * | 1997-12-01 | 2004-02-16 | 株式会社エヌ・ティ・ティ・データ | Information filtering method, apparatus and system |
| JP3497713B2 (en) * | 1997-12-01 | 2004-02-16 | 株式会社エヌ・ティ・ティ・データ | Information classification method, apparatus and system |
| JP3219386B2 (en) * | 1997-12-26 | 2001-10-15 | 松下電器産業株式会社 | Information filter device and information filter method |
| JP3284962B2 (en) * | 1998-03-12 | 2002-05-27 | 日本電気株式会社 | Information distribution system and recording medium recording information distribution program |
| JP3692416B2 (en) * | 1998-03-27 | 2005-09-07 | 沖電気工業株式会社 | Information filtering method and apparatus |
| JP3673093B2 (en) * | 1998-09-29 | 2005-07-20 | 株式会社ニューズウオッチ | Information filtering device |
| JP3617331B2 (en) * | 1998-10-02 | 2005-02-02 | 日本ビクター株式会社 | Information providing server and information providing method |
| JP2000137725A (en) * | 1998-10-30 | 2000-05-16 | Ricoh Co Ltd | Information retrieval system, information retrieval method, and computer-readable recording medium recording program for executing the method |
| JP3547339B2 (en) * | 1999-04-06 | 2004-07-28 | 株式会社エヌ・ティ・ティ・データ | Preference information collection system |
| JP2011141897A (en) * | 2000-08-01 | 2011-07-21 | Panasonic Corp | Transmission and reception system, transmission apparatus and reception apparatus |
| JP2002073677A (en) * | 2000-09-05 | 2002-03-12 | Zenrin Co Ltd | Device for collecting personal preference information on reader and information reading support device using the information collecting device |
| JP4278379B2 (en) * | 2000-11-20 | 2009-06-10 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | How to manage resources |
| JP2002279153A (en) * | 2001-03-15 | 2002-09-27 | Just Syst Corp | User-specific statistical information calculating device and user-specific statistical information calculating method |
| JP2002334214A (en) * | 2001-05-11 | 2002-11-22 | Hitachi Kokusai Electric Inc | Securities information provision system |
| JP2004005751A (en) * | 2003-09-04 | 2004-01-08 | Matsushita Electric Ind Co Ltd | Information filter device and method |
| US7469276B2 (en) | 2004-12-27 | 2008-12-23 | International Business Machines Corporation | Service offering for the delivery of information with continuing improvement |
| WO2009014058A1 (en) * | 2007-07-20 | 2009-01-29 | Nec Corporation | Knowledge discovery assistance system, method and program |
| CN108735854B (en) * | 2017-04-13 | 2020-11-20 | 苏州阿特斯阳光能源科技有限公司 | A Characterization Method for Optical Utilization of Internal Reflection of Photovoltaic Module Welding Ribbon |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06348755A (en) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | Method and system for classifying document |
-
1995
- 1995-11-30 JP JP31330195A patent/JP3588510B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH09153063A (en) | 1997-06-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3588510B2 (en) | Information filtering device | |
| US7941431B2 (en) | Electronic document repository management and access system | |
| US6199067B1 (en) | System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches | |
| US9323827B2 (en) | Identifying key terms related to similar passages | |
| JP3870666B2 (en) | Document retrieval method and apparatus, and recording medium recording the processing program | |
| JPH09101990A (en) | Information filtering device | |
| JP2003016089A (en) | Information retrieval system and server | |
| JP2003044491A (en) | Knowledge analysis system, analysis condition setting method, analysis condition storage method, and re-analysis processing method in the system | |
| JPH08255172A (en) | Document search system | |
| JP7064871B2 (en) | Text mining device and text mining method | |
| JP3356519B2 (en) | Document information retrieval device | |
| JP2002269106A (en) | Book introduction device | |
| JPH08161343A (en) | Related word dictionary preparing device | |
| KR20020089677A (en) | Method for classifying a document automatically and system for the performing the same | |
| KR100616152B1 (en) | How to automatically sort articles on the Internet and send them to other websites automatically | |
| JP3908634B2 (en) | Search support method and search support device | |
| JP2004118877A (en) | Information filtering device | |
| JP3512926B2 (en) | Information filtering device | |
| Fairon et al. | GlossaNet 2: a linguistic search engine for RSS-based corpora | |
| JP2002117061A (en) | Device and method for providing information | |
| KR20010107810A (en) | Web search system and method | |
| JP4497337B2 (en) | Concept search device and recording medium recording computer program | |
| JPH10162011A (en) | Information search method, information search system, information search terminal device, and information search device | |
| JPH11195041A (en) | Document retrieval device/method and recording medium | |
| KR20010082966A (en) | Method and system for providing related web sites for the current visitting of client |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040119 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040316 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040517 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040520 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040706 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040720 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040810 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040816 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070820 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090820 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090820 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100820 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100820 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110820 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |