WO2003046765A1

WO2003046765A1 - Method for automatically extracting related words

Info

Publication number: WO2003046765A1
Application number: PCT/JP2002/012504
Authority: WO
Inventors: Genichiro Sueki; Hiroaki Fujiki; Naoko Yoshino; Kazuko Adachi
Original assignee: Mitsubishi Space Software Co Ltd
Current assignee: Mitsubishi Space Software Co Ltd
Priority date: 2001-11-30
Filing date: 2002-11-29
Publication date: 2003-06-05
Anticipated expiration: 2004-05-30
Also published as: JP3553543B2; JP2003167894A

Description

明細書

関連語自動抽出方法技術分野

この発明は、データベース中に含まれる言葉の統計情報に基づいて、ユーザ一が指定した言葉に関連の深い言葉を自動的に抽出する関連語自動抽出方法において、一般的な既存のシソーラス辞書には記載されていない、ユーザ —が指定した特定分野に出現する専門用語や、新語及び流行語を抽出可能にした関連語自動抽出方法とその関連語自動抽出装置に関するものである。背景技術

従来の関連語自動抽出装置は、その内部構成品として既存のシソーラス辞書を持っており、ユーザーが指定した言葉を該シソーラス辞書から単に検索してその結果を関連語抽出結果として表示させるのみであるのが一般的であしかし、従来の関連語自動抽出装置では、既存のシソーラス辞書には記載されていない専門用語や新語及び流行語はその重要度にかかわらず抽出することができないという欠点があった。

また、複数の分野についての関連語が必要な場合、各分野個別にシソ一ラス辞書を用意する必要があつたため、コスト面でも無駄が多かった。

さらに、既存のシソーラス辞書を用いず、デ一夕ベースの統計情報から関連語を自動抽出する方法においても、従来の関連語自動抽出方法では例えば単独に出現する言葉の出現頻度のみを使用したものが一般的である。

したがって、たとえ専門用語や新語及び流行語を含んだ文書データベースを用いたとしても、関連語抽出方法の抽出精度に欠点がありユーザーの所望する的確な関連語を抽出することが困難であった。発明の開示

この発明は上記した従来技術の問題点を解決するためになされたもので、その目的とするところは、一般的な既存のシソーラス辞書には記載されていない、ユーザ一が指定した特定分野に出現する専門用語や、新語及び流行語を自動抽出することが可能で、さらにユーザーが指定した言葉に関連の深い重要語を高精度で的確に抽出することが可能な関連語自動抽出方法及び関連語自動抽出装置を提供することにある。

かかる課題を解決するために、第 1の発明は、ユーザーが指定した分野の文書群をデータベースとして用い、該データベース中の文書から重要度の高い言葉である重要語を選別し、該重要語又は重要語のペアに対する統計情報を用いて重要語同士の関連度を計算する関連語自動抽出方法を使用することを特徴としている。ここで、重要度とは、その文書が示している内容の特徴、又はその文書のジャンルにおいてその特徴をよく表している度合いのことをいう。

これによれば、一般的なシソーラス辞書には記載されていない、ユーザーが指定した特定分野に出現する専門用語や、新語及び流行語を自動抽出する方法とその方法を用いた装置を提供することが可能となる。

第 2の発明は、第 1の発明の構成に加えて、前記デ一夕ベースに複数分野の文書群が蓄積されている場合に、各分野毎の関連語を自動的に抽出可能にしたことを特徴としている。

これによれば、請求項 1の効果に加えて、例えば同一の言葉に対して、ある分野では関連語となるが、別の分野では関連語とはならないといった、分野特有の関連語を抽出することが可能となる。また、既存シソーラス辞書の分野に関わらずユーザーが独自に分野を設定できるので、設定した分野のレベルに応じた関連語が抽出可能となる。

第 3の発明は、第 1又は 2の発明の構成に加えて、前記デ一夕べ一スは任意の時期に更新 ·追加が可能であり、関連語自動抽出の際に差分デー夕を逐次反映させたことを特徴としている。

これによれば、第 1又は 2の発明の効果に加えて、常に最新のデータべ一スの情報を反映した新語及び流行語を含む最新の関連語を抽出することが可能となる。

第 4の発明は、請求項 1乃至 3のいずれかの一つの構成に加えて、前記データベース中の文書群が、文書のヘッダ一情報を利用して同一文書か否かを判定し、複数の同一文書が含まれていた場合に一つの文書を残して他の同一文書を除去したものであることを特徴としている。

これによれば、請求項 1乃至 3のいずれか一つの効果に加えて、特定の文書が多くの同一文書を持った場合に生じる統計情報の不要な偏りを除去することができ、その結果関連語抽出精度を向上させることが可能となる。第 5の発明は、請求項 1乃至 4のいずれか一つの構成に加えて、重要語を前記データベース中の文書を品詞単位に分割し分割した形態素から作成した複合語としたことを特徴としている。

これによれば、請求項 1乃至 4のいずれか一つの効果に加えて、分割による言葉の抽象化を回避することでき、最終的に抽出する関連語の精度を向上させることができる。

第 6の発明は、請求項 1乃至 5のいずれか一つの構成に加えて、重要語をデ一夕ベース中の文書毎に特徴を表すと予測される品詞としたことを特徴としている。

これによれば、請求項 1乃至 5のいずれか一つの効果に加えて、抽出する重要語の漏れを少なくすることができる。第 7の発明は、請求項 1乃至 6のいずれか一つの構成に加えて、重要語から除外する言葉を除外リストとして保有し、重要語抽出後除外リスト中の言葉を重要語から除外することを特徴としている。

これによれば、請求項 1乃至 6のいずれか一つの効果に加えて、不要の言葉を排除できる。

第 8の発明は、請求項 1乃至 7のいずれか一つの構成に加えて、同一の意味を持つ重要語を同一語リストとして保有し、重要語抽出の際に同一語リスト中の言葉の統計情報をまとめて保存することを特徴としている。これによれば、請求項 1乃至 7のいずれか一つの効果に加えて、重要語の抽出精度を向上させることができる。

第 9の発明は、請求項 1乃至 8のいずれか一つの構成に加えて、統計情報は、デ一夕べ一ス中の全出現回数、及びデ一夕べ一ス内に重要語が含まれる文書数の割合であることを特徴としている。

これによれば、請求項 1乃至 8のいずれか一つの効果に加えて、抽出精度を向上させることができる。

第 1 0の発明は、請求項 9の構成に加えて、前記統計情報には前記データベース中の文書に含まれる重要語の単独出現回数の他に、一定範囲内の複数重要語の出現回数も用いたことを特徴としている。

これによれば、請求項 9の効果に加えて、複数個の重要語のペアによる意味付けがより正確にでき、その結果関連語抽出精度を向上させることが可能となる。

第 1 1の発明は、請求項 9の構成に加えて、前記統計情報の他に、前記データベース中の文書に含まれる表層表現を自動抽出し、該表層表現から自動構築した重要語の上下階層関係を用いたことを特徴としている。これによれば、請求項 9の効果に加えて、互いに無関係な複数の重要語が偶発的に出現したことによるノイズを除去することができ、その結果関連語抽出精度を向上させることが可能となる。

第 1 2の発明は、請求項 1乃至 1 1のいずれか一つの構成に加えて、前記統計情報の算出の際、複数の異なる検索条件式を作成し、該複数の異なる検索条件式を複数の異なるプロセッサを有する超並列計算機の前記複数の異なるプロセッサ上に別個に設定し、データベース中に蓄積されている文書群を前記複数の異なる検索条件式で同時並行的に全文検索し、前記検索条件式に合致した結果を用いたことを特徴としている。

これによれば、請求項 1乃至 1 1のいずれか一つの効果に加えて、統計情報の算出の際、複数の異なる検索条件式を作成し、関連語自動抽出方法を適用するたびに最新のデータベースに対応した正確な統計情報を用いることが可能となり、その結果関連語抽出精度を向上させることが可能となる。第 1 3の発明は、請求項 1の構成に加えて、ユーザーが指定した分野の文書群を格納する請求項 1に記載のデ一夕べ一ス部と、該デ一夕ベース部に含まれる重要語を抽出 ·選別する重要語解析部と、該重要語解析部で選別した重要語に対する統計情報及び重要語の上下階層関係情報を取得するカウント部と、該カウント部で生成したカウントリストを用いて重要語同士の関連度を計算する関連語抽出部とからなり、一連の処理には請求項 1に記載の関連語自動抽出方法を用いたことを特徴としている。

これによれば、ユーザーは該関連語自動抽出装置の内部構造を意識することなく、専門用語や新語及び流行語等ユーザーの所望する関連語を的確に抽出することが可能となる。

第 1 4の発明は、デ一夕べ一ス中の文書に含まれる重要語の単独出現回数の他に、一定範囲内の複数重要語の出現回数も用いて複数重要語を自動抽出する複数重要語抽出プログラムにおいて、デ一夕べ一ス内の文書を一文書ずつ読み込み、該文書中から重要語を探索し、探索された重要語から予め定義した一定範囲内に別の重要語があるか否かを探索し、重要語から一定範囲内に存在する重要語が探索された場合に重要語のペアを逐次カウントリストに保存し、重要語のペアを既に作成したカウントリストから探索し、既に同一の重要語のペアがカウントリス卜に存在した場合、出現回数のカウントに 1加えてカウントリストを更新し、カウントリス卜に存在しなかった場合、前記重要語のペアのカウントを 1にしてカウントリストに新たに保存し、これらの処理をデータベース内の予め指定した複数文書について行い、作成したカウントリストを元に、重要語のペアの重要度を判定することを特徴としている。

これによれば、複数個の重要語のペアによる意味付けを合理的にでき、その結果関連語抽出精度を向上させることが可能となる。

第 1 5の発明は、データベース中の文書に含まれる表層表現を自動抽出し、該表層表現から自動構築した重要語の上下階層関係を用いた重要語上下階層関係抽出プログラムにおいて、データベース内の文書を一文書ずつ読み込み、該文書中から予め作成しておいた表層表現リス卜に書かれている表層表現を抽出し、抽出された表層表現中の上位語部分及び下位語部分に前記重要語解析部 2で抽出した重要語が含まれるか否かを探索し、上位語部分及び下位語部分の双方ともに重要語が探索された場合、探索された上下重要語のペアを逐次カウントリス卜に保存し、既に同一の重要語のペアがカウントリストに存在した場合、出現回数のカウントに 1加えてカウントリストを更新し、カウントリストに存在しなかった場合、前記上下重要語のペアの力ゥントを 1にしてカウントリストに新たに保存し、これらの処理をデ一夕べ —ス内の予め指定した複数文書について行い、作成したカウントリストを元に重要語の上下階層関係を構築することを特徴としている。

これによれば、互いに無関係な複数の重要語が偶発的に出現したことによるノイズを合理的に除去することができる。図面の簡単な説明

第 1図は、この発明の実施の形態に係る関連語自動抽出装置のブロック図である。

第 2図は、同実施の形態に係る関連語自動抽出装置に使用する重要語リストの概念図である。

第 3図は、同実施の形態に係る関連語自動抽出装置に使用するカウントリストの概念図である。

第 4図は、第 3図のカウントリスト及び第 2図の重要語リストを元にして作成した関連度判定リス卜の概念図である。

第 5図は、同実施の形態に係る関連語自動抽出方法における、一定範囲内の複数重要語の抽出手順を示すフローチャートである。

第 6図は、同実施の形態に係る関連語自動抽出方法における、重要語の上下階層関係の抽出手順を示すフローチャートである。発明を実施するための最良の形態

以下、この発明を図示の実施の形態に基づいて詳細に説明する。

すなわち、この関連語自動抽出装置は、ユーザーが指定した分野の文書群を格納するデ一夕べ一ス部 1と、このデータベース部 1に含まれる重要語を抽出 ·選別する重要語解析部 2と、重要語解析部 2で選別した重要語に対する統計情報及び重要語の上下階層関係情報を取得するカウント部 3と、カウント部 3で生成したカウントリストを用いて重要語同士の関連度を計算する関連語抽出部 4とを備えた構成となっており、デ一夕べ一ス部 1中の文書から重要度の高い言葉である重要語を選別し、重要語又は重要語のペアに対する統計情報を用いて重要語同士の関連度を計算する処理を行う。データベース部 1は、入力される文書群から同一文書を判定し、複数の同一文書が含まれていた場合に一つの文書を残して他の同一文書を除去する同一文書判定機能部 1 1及び同一文書判定機能部 1 1で同一文書を除去した後の文書を格納するデータベース 1 2から構成される。

以下、同一文書判定機能部 1 1について詳しく説明する。

例えば、データベース 1 2中の文書が特許文書であると仮定した場合、特許文書のヘッダー部から「出願人の氏名又は名称」、「発明の名称」及び「発明者の氏名」を抽出し、（ 1 ) 「出願人の氏名又は名称」が同一であること（ 2 ) 「発明の名称」が同一であること（ 3 ) 発明者の人数が一致している、かつ各々の「発明者の氏名」がすべて一致している（記載順は不問）ことを判定する。前記（ 1 ) 乃至（ 3 ) の条件に合致した文書群はすべて同一文書とみなす。

重要語解析部 2は、形態素解析部 2 1及び重要語の抽出部 2 2から構成される。

形態素解析部 2 1では、前記デ一夕ベース中の文書を形態素解析により品詞単位に分割し、品詞情報を取得する。

重要語の抽出部 2 2では、前記形態素解析部 2 1で品詞単位に分割した形態素を、例えば、連続する名詞は結合させる等の複合語処理をすることにより複合語を作成し、該複合語を重要語として品詞情報及び統計情報と共に重要語リストに保存する。複合語作成により、分割による言葉の抽象化を回避することができ、最終的に抽出する関連語の精度を向上させることができる _c 重要語とは、前記方法により作成した複合語に限られるものではなく、例えば複合語以外の普通名詞、固有名詞、未定義語等、データベース 1 2中の文書のジャンル毎にその文書の内容を特徴付けると考えられる言葉の品詞を ί曰疋。

また、重要語の抽出後、場合によっては必ず除外する言葉等を除外リストとして保有しておき、除外リスト中の言葉は重要語から除外する機能を追加してもよい。具体的には、データベースの文書のジャンル毎に、例えば、特許文書であれば「発明者」、「比較例」等その文書の内容を特徴付けることができない言葉を除外リス卜に登録することが考えられる。

この除外リス卜には、形態素毎に完全一致することを除外条件とする言葉の他に、部分的に一致していれば除外対象とする言葉を含んでいてもよい。さらに、同一の意味を持つ重要語を同一語リストとして保有しておき、重要語抽出の際に、この重要語リスト中の言葉の統計情報をまとめて保存することにより、重要語の抽出精度を向上させることができる。

第 2図は、重要語リストの概念図である。

ここで、前記重要語リストに保存されるべき「統計情報」とは、重要語 2 3のデータベース中の全出現回数 2 5、及びデ一夕ベース内に重要語が含まれる文書数 2 4の割合を用いる。これらは、後のカウント部 3及び関連語の抽出部 4 1で使用する各種統計量の元になる情報である。

データベース 1 2内に重要語が含まれる文書数の取得には、各々の重要語に対応する複数の異なる検索条件式を作成し、該複数の異なる検索条件式を複数の異なるプロセッサを有する超並列計算機の前記複数の異なるプロセッサ上に別個に設定し、データベース 1 2中に蓄積されている文書群を前記複数の異なる検索条件式で同時並行的に全文検索し、前記検索条件式に合致した結果を用いることができる。ここで、各々の検索条件式に合致した結果数が、データベース 1 2中に各々の重要語が含まれる文書数となる。重要語解析部 2の処理の都度、前記全文検索を行うことで統計情報の正確さを保持することできる。

前記超並列計算機は、数千乃至数万のプロセッサ（以下、これらをまとめてパイプラインという）を内蔵することにより、このパイプラインに複数の異なった検索条件式を同時に設定可能としている。そして、これら大量のプ口セッサを同時に動作させることによって、複数の異なった検索条件式とデ —夕ベースのマッチングを行う全文検索を実行する。マッチングの結果、検索条件式に合致する文書が見つかったら、その文書がヒットしたとみなす機能を有する。

超並列計算機は、全文検索エンジン（例えば、 P a r a c e l社製、 F D F (登録商標） 4 T T e x t F i n d e r ) のような機器が望ましいが、これと同等の機能及び性能を有するワークステーション等の機器でもよい。カウント部 3は、一定範囲内の複数重要語の抽出部 3 1及び重要語の上下階層関係の抽出部 3 2から構成される。

関連語自動抽出方法において、一定範囲内の複数重要語の抽出部 3 1又は重要語の上下階層関係の抽出部 3 2のいずれか一方の処理を予めユーザーが選択しておき、ユーザ一が選択した処理のみを行う。

一定範囲内の複数重要語の抽出部 3 1では、重要語解析部 2で抽出した重要語を基準にして、基準から予め定義した一定の範囲内に別の重要語が存在する場合を複数重要語と定義し、該複数重要語の出現数をカウントしたものをカウントリストとして保存する。複数重要語の抽出手順を第 5図のフローチャートに示しているが、その詳細は後述する。

重要語の上下階層関係の抽出部 3 2では、上位語と下位語の関係が明確に表現されている表層表現を予め定義しておき、前記重要語解析部 2で抽出した重要語が含まれる該表層表現を抽出する。抽出した表層表現中の重要語を上位重要語及び下位重要語とし、それらの出現数をカウントしたものをカウントリストとして保存する。重要語の上下階層関係の抽出手順を第 6図のフローチャートに示しているが、その詳細は後述する。

第 1図において、関連語抽出部 4は、関連語の抽出部 4 1からなる。該関連語の抽出部 4 1において、前記カウント部 3で作成したカウントリストを元に関連語判定を行う。関連語判定には、例えば、二つの言葉の非類似度を判定する I nf o rm a t i o n Rad ius (.Chr i s t ophe r D. Manning and H i n r i c h S chut z e, Foundat i ons 0 f S t at i s t i c a l Natura l Language Pr o c e s s i ng, The MI T Pr e s s (MAN F H 0 - 262 - 13360 - 1 ) ) 等の判定指標を用いることができるが、これに限らず、例えば前記一定範囲内の複数重要語の抽出部 31を選択した場合は一定範囲内に存在する重要語が共通している重要語のペア、又は前記重要語の上下階層関係の抽出部 32を選択した場合は下位重要語が共通している重要語のぺァを、関連語と判定することもできる。

第 3図は、カウントリストの概念図であり、重要語 1の ID 33、重要語 2の I D 34、重要語 1と重要語 2のペアの出現回数 35がリスト項目としてカウントリストが作成されている。

第 4図は、第 3図のカウントリスト及び第 2図の重要語リストを元にして作成した関連度判定リストの概念図である。

第 4図の各列に配置されている言葉 A、 B、 C、 D、 · · ·が関連語判定の対象になる関連語判定対象語（重要語） 42の集合で、各行に配置されている言葉 a、 b、 c、 d、 · · ·が関連語判定の用いる関連語判定使用語 (重要語） 43である。基本的に、各列、各行とも重要語解析部 2で抽出した重要語であり、カウント部 3で抽出した重要語ペアの片方が列に、もう片方が行に配置される。例えば、第 5図の一定範囲内に存在する重要語ペアでは重要語 Aを列に、重要語 Bを行に配置する。第 6図の上下重要語ペアでは上位重要語を列に、下位重要語を行に配置する。第 4図の関連度判定リストにおいて、各セルの数字は、出現確率を表している。例えば c列 A行では、「重要語 Aと重要語 cが一定範囲内に出現する確率」、又は「重要語 Aが上位語で重要語 cが下位語である確率」を表す。以下、関連語判定の一例として、二つの言葉の非類似度を判定するのに I nf o rmat i on Rad iusの判定指標を用いた場合の判定例について説明する。

統計量は、この出現確率を用いて計算される「二つの言葉の非類似度」で、各列に配置された大文字アルファべッ卜のすべてのペアについて計算する (Aと B、 Aと C、 Aと D、 · · ·、 Bと C、 Bと D ' · ·、 Cと D、 · · · ) 。重要語 Aと重要語 Dの関連度判定を例にとり説明すると、 Aに対する a、 b、 c、 d、 · · ' 出現確率と、 Dに対する a、 b、 c、 d、 · · ·の出現確率の違いが、非類似度として算出される。仮にすベての行において出現確率が同じ値（a行 A列 =a行 D列、 b行 A列 =b行 D列、 c行 A列 =c 行 D列、 d行 A列 =d行 D列、 · · ·）であれば、非類似度は 0、つまり A と Dの類似度は最大となり、したがって、重要語 Aと重要語 Dの関連度は最大となる。逆に、出現確率が共に 0でない言葉 a、 b、 c、 d、 · · 'がーつもなければ非類似度は最大、つまり関連度は最小となる。以上のように、すべての大文字アルファベットのペアについて、統計量を計算し、ある閾値以下のペアのみ互いに関連のある言葉（関連語）と判定する。

第 5図は、この発明の実施の形態に係る関連語自動抽出方法における、一定範囲内に存在する複数個の重要語の同時出現回数をカウントする手順を示すフローチヤ一トである。

まず、データベース内の文書を一文書ずつ読み込み（ステップ S 1) 、該文書中から前記重要語解析部 2で抽出した重要語を探索する（ステップ S 2)

ここで探索すべき重要語とは、前記重要語解析部 2で抽出したものに限らず、場合によっては予めユーザーが定義したユーザ一定義重要語リストに含まれる言葉でもよい。ユーザ一定義重要語リス卜には、完全一致することを探索条件とする言葉の他に、部分的に一致していれば探索対象とする言葉を含んでいてもよい。

さらに、探索すべき言葉の重要度の判定尺度として、データベース中の全出現回数、データベース内にその重要語が含まれる文書数の割合や文字数を必要に応じて探索対象重要語のフィルターに適用してもよい。これらの各種フィル夕一を適用することにより、重要語を更に絞り込むことができ、その結果最終的に抽出される関連語の精度を向上させることができる。

重要語が探索された場合（ステップ S 3で Y E Sと判定された場合）、探索された重要語（これを重要語 Aとよぶ）から予め定義した一定範囲内に別の重要語（これを重要語 Bとよぶ）があるか否かを探索する（ステップ S 4 ) 。

一定範囲内とは、例えば、一文内（一文の先頭から句点「。」までの範囲）で、前後二つまで近接したものを一定範囲内と定義するが、これに限らずデータベース中の文書毎に特徴を表すと予測される範囲を指定する。重要語 Aから一定範囲内に存在する重要語 Bが探索された場合（ステップ S 5で Y E Sと判定された場合）、重要語 A及び重要語 Bのペアを逐次カウントリス卜に保存する。

重要語 A及び重要語 Bのペアを既に作成したカウントリストから探索し（ステツプ S 6 ) 、既に同一のペアがカウントリス卜に存在した場合（ステップ S 7で Y E Sと判定された場合）、出現回数のカウントに 1加えてカウントリストを更新する（ステップ S 8 ) 。

カウントリストに存在しなかった場合（ステップ S 7で N Oと判定された場合）、前記重要語 A及び重要語 Bのペアのカウントを 1にしてカウントリストに新たに保存する（ステップ S 9 ) 。

以上、ステップ S 1乃至ステップ S 9の処理をデータベース内の予め指定した複数文書について行う（ステップ S 1 0 ) 。

その後、前記ステップ S 1乃至 S 1 0で作成したカウントリスト及び重要語リスト中の統計情報を元に、重要語 A及び重要語 Bのペアの重要度を判定する（ステップ S 1 1 ) 。ステップ S 1 1には、例えば、 D i e e係数や相互情報量等を用いることができる。

第 6図は、この発明の実施の形態に係る関連語自動抽出方法における、重要語の上下階層関係を抽出する手順を示すフローチャートである。

まず、デ一夕ベース内の文書を一文書ずつ読み込み（ステップ S 2 1 ) 、該文書中から予め作成しておいた表層表現リストに書かれている表層表現を抽出する（ステップ S 2 2 ) 。

ここで、前記表層表現リストに書かれるべき表層表現とは、上位語と下位語の関係が明確に表現されているものであり、例えば、「A、 B、 C等の D」（A乃至 Dは各々重要語とする）という表現においては、上位語が D、下位語が A、 B、 Cである。

次に、前記ステップ S 2 2で抽出された（ステップ S 2 3で Y E Sと判定された場合）表層表現中の上位語部分及び下位語部分に前記重要語解析部 2 で抽出した重要語が含まれるか否かを探索する（ステップ S 2 4 ) 。

ここで、探索すべき重要語とは、前記重要語解析部 2で抽出したものに限らず、場合によっては予めユーザ一が定義したユーザ一定義重要語リストに含まれる言葉でもよい。また、ユーザー定義重要語リストには、完全一致することを探索条件とする言葉の他に、部分的に一致していれば探索対象とする言葉を含んでいてもよい。

この探索により、上位語部分及び下位語部分の双方ともに重要語が探索された場合（ステヅプ S 2 5で Y E Sと判定された場合）、探索された上下重要語ペアを逐次カウントリストに保存する。この時、上下重要語ペアの重要度の判定尺度として、データベース 1 2内に上位重要語及び下位重要語が含まれる文書数の割合の比較、上位重要語及び下位重要語の形態素の比較、及び必ず除外する上下重要語ペアを上下重要語ペア除外リス卜として保有しておき、上下重要語ペア除外リスト中の上下重要語ペアは除外する機能等を必要に応じて適用しても

よい。

上下重要語ペアを既に作成したカウントリストから探索し（ステップ S 2 6 ) 、既に同一のペアがカウントリストに存在した場合（ステップ S 2 7で Y E Sと判定された場合）、出現回数のカウントに 1加えてカウントリストを更新する（ステップ S 2 8 ) 。

カウントリス卜に存在しなかった場合（ステップ S 2 7で N Oと判定された場合）、前記上下重要語ペアのカウントを 1にしてカウントリストに新たに保存する（ステップ S 2 9 ) 。

以上、ステップ S 2 1乃至ステップ S 2 9の処理をデータベース内の予め指定した複数文書について行う（ステップ S 3 0 ) 。

その後、前記ステップ S 2 1乃至 S 3 0で作成したカウントリスト及び重要語リスト中の統計情報を元に重要語の上下階層関係を構築する（ステップ S 3 1 )

具体的には、例えば、共通の下位重要語 Cを持つ上位重要語 A及び Bが抽出されていると同時に上位重要語 A及び下位重要語 Bが抽出されている場合、全体的にみれば直接の上下関係になっているペアは A (上位） — B (下位）ペア及び B (上位） — C (下位）ペアのみであり、 A (上位） — C (下位）ペアは冗長分に過ぎない。したがって、重要語の上下階層関係を構築する際に前記 A— Cの冗長ペアを除外する。

また、上下階層関係の構築の際、前記上下重要語ペアのデータベース中での全出現回数に閾値を設け、閾値未満の該上下重要語ペアを必要に応じて除外してもよい。産業上の利用可能性この発明によれば、データベース中に含まれる言葉の統計情報に基づいて、ユーザーが指定した言葉に関連の深い言葉を自動的に抽出する関連語自動抽出方法において、一般的な既存のシソーラス辞書には記載されていない、ュ一ザ一が指定した特定分野に出現する専門用語や、新語及び流行語を抽出可能にした関連語自動抽出方法が実現できる関連自動抽出装置として有効に使用できる。

Claims

請求の範囲

1 . ユーザーが指定した分野の文書群をデータベースとして用い、該データベース中の文書から重要度の高い言葉である重要語を選別し、該重要語又は重要語のペアに対する前記データベース中に含まれる言葉の統計情報を用いて重要語同士の関連度を計算して関連語を抽出することを特徴とする関連語自動抽出方法。

2 . 前記データベースに複数分野の文書群が蓄積されている場合に、各分野毎の関連語を自動的に抽出可能にしたことを特徴とする請求項 1に記載の関連語自動抽出方法。

3 . 前記データベースは任意の時期に更新 '追加が可能であり、関連語自動抽出の際に差分データを逐次反映させたことを特徴とする請求項 1又は 2に記載の関連語自動抽出方法。

4 . 前記データベース中の文書群が、文書のヘッダ一情報を利用して同一文書か否かを判定し、複数の同一文書が含まれていた場合に一つの文書を残して他の同一文書を除去したものであることを特徴とする請求項 1乃至 3のいずれかの一つに記載の関連語自動抽出方法。

5 . 前記重要語は、データベース中の文書を品詞単位に分割し、分割した形態素から作成した複合語である請求項 1乃至 4のいずれか一つに記載の関連語自動抽出方法。

6 . 前記重要語は、データベース中の文書毎に特徴を表すと予測される品詞である請求項 1乃至 5のいずれか一つに記載の関連語自動抽出方法。

7 . 重要語から除外する言葉を除外リストとして保有し、重要語抽出後、除外リスト中の言葉を重要語から除外する請求項 1乃至 6のいずれか一つに記載の関連語自動抽出方法。

8 . 同一の意味を持つ重要語を同一語リストとして保有し、重要語抽出の際に同一語リスト中の言葉の統計情報をまとめて保存する請求項 1乃至 7のいずれか一つに記載の関連語自動抽出方法。

9 . 前記統計情報は、データベース中の全出現回数、及びデータベース内に重要語が含まれる文書数の割合である請求項 1乃至 8のいずれか一つに記載の関連語自動抽出方法。

1 0 . 前記統計情報には前記データベース中の文書に含まれる重要語の単独出現回数の他に、一定範囲内の複数重要語の出現回数も用いたことを特徴とする請求項 9に記載の関連語自動抽出方法。

1 1 . 前記統計情報の他に、前記データベース中の文書に含まれる表層表現を自動抽出し、該表層表現から自動構築した重要語の上下階層関係を用いたことを特徴とする請求項 9に記載の関連語自動抽出方法。

1 2 . 前記統計情報の算出の際、複数の異なる検索条件式を作成し、該複数の異なる検索条件式を複数の異なるプロセッサを有する超並列計算機の前記複数の異なるプロセッサ上に別個に設定し、デ一夕ベース中に蓄積されている文書群を前記複数の異なる検索条件式で同時並行的に全文検索し、前記検索条件式に合致した結果を用いたことを特徴とする請求項 1乃至 1 1のいずれか一つに記載の関連語自動抽出方法。

1 3 . ユーザ一が指定した分野の文書群を格納する請求項 1に記載のデ一夕ベース部と、該デ一夕ベース部に含まれる重要語を抽出 ·選別する重要語解析部と、該重要語解析部で選別した重要語に対する統計情報及び重要語の上下階層関係情報を取得するカウント部と、該カウント部で生成したカウントリストを用いて重要語同士の関連度を計算する関連語抽出部とからなり、一連の処理には請求項 1に記載の関連語自動抽出方法を用いたことを特徴とする関連語自動抽出装置。

1 4 . データベース中の文書に含まれる重要語の単独出現回数の他に、一定範囲内の複数重要語の出現回数も用いて複数重要語を自動抽出する複数重要語抽出プログラムにおいて、

データベース内の文書を一文書ずつ読み込み、該文書中から重要語を探索し、探索された重要語から予め定義した一定範囲内に別の重要語があるか否かを探索し、重要語から一定範囲内に存在する重要語が探索された場合に重要語のペアを逐次カウントリス卜に保存し、重要語のペアを既に作成した力ゥントリス卜から探索し、既に同一の重要語のペアがカウントリストに存在した場合、出現回数のカウントに 1加えてカウントリストを更新し、カウントリス卜に存在しなかった場合、前記重要語のペアのカウントを 1にして力ゥントリス卜に新たに保存し、これらの処理をデータベース内の予め指定した複数文書について行い、作成したカウントリストを元に、重要語のペアの重要度を判定することを特徴とする複数重要語抽出プログラム。

1 5 . データベース中の文書に含まれる表層表現を自動抽出し、該表層表現から自動構築した重要語の上下階層関係を用いた重要語上下階層関係抽出プログラムにおいて、

データベース内の文書を一文書ずつ読み込み、該文書中から予め作成しておいた表層表現リス卜に書かれている表層表現を抽出し、抽出された表層表現中の上位語部分及び下位語部分に前記重要語解析部 2で抽出した重要語が含まれるか否かを探索し、上位語部分及び下位語部分の双方ともに重要語が探索された場合、探索された上下重要語のペアを逐次カウントリス卜に保存し、既に同一の重要語のペアがカウントリストに存在した場合、出現回数のカウントに 1加えてカウントリストを更新し、カウントリス卜に存在しなかつた場合、前記上下重要語のペアのカウントを 1にしてカウントリストに新たに保存し、これらの処理をデータベース内の予め指定した複数文書について行い、作成したカウントリストを元に重要語の上下階層関係を構築することを特徴とする重要語上下階層関係抽出プログラム。