JP2022014400A

JP2022014400A - 重要技術語取得装置、重要技術語取得方法、およびプログラム

Info

Publication number: JP2022014400A
Application number: JP2020116718A
Authority: JP
Inventors: 朝飛邊土名; Asahi Hendona; 尋史野中; Hiroshi Nonaka; 英和谷川; Hidekazu Tanigawa
Original assignee: Nagaoka University of Technology NUC; IRD CORP
Current assignee: Nagaoka University of Technology NUC; IRD CORP
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2022-01-19

Abstract

【課題】特許文書から重要度が高い技術語を的確に取得する重要技術語取得装置、方法およびプログラムを提供する。
【解決手段】重要技術語取得装置１において、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、特許文書における技術語候補の１以上の出現箇所を決定する出現箇所決定部と、１以上の出現箇所に応じて、技術語候補のスコアを取得するスコア取得部と、スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、重要技術語を出力する重要技術語出力部と、を具備する。
【選択図】図１

Description

本発明は、特許文書から重要な技術語を取得する重要技術語取得装置等に関するものである。

従来、ＴＦ－ＩＤＦと共起頻度をベースとした、半自動的に稀少なキーワードを抽出する統計的手法が存在した（例えば、非特許文献１参照）。

また、グラフベースの教師なし手法として、従来、ＴｅｘｔＲａｎｋが存在した（例えば、非特許文献２参照）。さらには、重要な単語ほど先頭にかつ頻繁に出現すると仮定し、文書中の単語の位置情報と頻度に基づくバイアスを組み込んだモデルであるＰｏｓｉｔｉｏｎＲａｎｋも存在した（例えば、非特許文献３参照）。

Y. -R. Li, L. -H. Wang, C. -F., Hong, "Extracting the significant-rare keywords for patent analysis," Expert Systems with Applications, vol. 36, pp. 5200-5204, 2009. Mihalcea, R. and Tarau, P.: TextRank: Bringing Order into Text, in Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404?411, Barcelona, Spain (2004), Association for Computational Linguistics Florescu, C. and Caragea, C.: PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents, in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pp. 1105?1115, Vancouver, Canada (2017), Association for Computational Linguistics

しかし、ＴＦ－ＩＤＦベースの統計的手法で特許文書から抽出されるキーワードは、意味的に雑多であり、重要技術語としては適切ではないことが多かった。

また、ＴｅｘｔＲａｎｋやＰｏｓｉｔｉｏｎＲａｎｋといった、従来のグラフベース教師なし手法でも、特許文書から重要度が高い技術語を的確に取得することは困難であった。

本第一の発明の重要技術語取得装置は、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、特許文書における技術語候補の１以上の出現箇所を決定する出現箇所決定部と、１以上の出現箇所に応じて、技術語候補のスコアを取得するスコア取得部と、スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、重要技術語を出力する重要技術語出力部とを具備する重要技術語取得装置である。

かかる構成により、特許文書から重要度が高い技術語を的確に取得できる。

また、本第二の発明の重要技術語取得装置は、第一の発明に対して、技術語候補条件は、１以上の形容詞と１以上の名詞の集合であることである重要技術語取得装置である。

かかる構成により、特許文書から重要度が高い技術語を的確かつ簡易に取得できる。

また、本第三の発明の重要技術語取得装置は、第一または第二の発明に対して、技術語候補取得部は、技術語候補条件を満たす用語である技術語候補を、特許文書から取得する取得手段と、取得手段が取得した文字列のうち、ノイズであると判断される条件であるノイズ条件を満たす文字列を削除する削除手段とを具備する重要技術語取得装置である。

かかる構成により、特許文書から重要度が高い技術語をより的確に取得できる。

また、本第四の発明の重要技術語取得装置は、第一から第三いずれか１つの発明に対して、出現箇所決定部は、技術語候補が含まれる文の種類を決定する、または技術語候補が含まれる書類を決定する、または技術語候補が含まれる明細書内のタグ項目を決定し、スコア取得部は、技術語候補が含まれる文の種類に応じて異なるスコアを取得する、または技術語候補が含まれる書類に応じて異なるスコアを取得する、または技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得する重要技術語取得装置である。

かかる構成により、技術語候補の出現位置に応じたスコアを的確に取得できる。

また、本第五の発明の重要技術語取得装置は、第一から第四いずれか１つの発明に対して、課題を取得するための表現である１以上の課題手がかり表現が格納される課題手がかり表現格納部をさらに具備し、出現箇所決定部は、技術語候補が、１以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が含まれる書類を決定し、かつ技術語候補が含まれる明細書内のタグ項目を決定し、スコア取得部は、出現箇所決定部が決定した文の種類、書類、およびタグ項目に応じて、スコアを取得する重要技術語取得装置である。

また、本第六の発明の重要技術語取得装置は、第五の発明に対して、出現箇所決定部は、技術語候補が、１以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が、重要詳細文以外の文に含まれる場合に、技術語候補が含まれる文の種類を「一般詳細文」であると決定し、技術語候補が、技術語候補が要約書に含まれる場合に、技術語候補が含まれる書類を「要約書」と決定し、技術語候補が、特定の請求項に含まれる場合に、技術語候補が含まれるタグ項目を「特定の請求項」と決定し、技術語候補が、明細書の中の符号の説明の項目に含まれる場合に、技術語候補が含まれるタグ項目を「符号の説明」と決定し、スコア取得部は、技術語候補取得部が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間にエッジを付加した有向グラフを構築する構造情報構築手段と、有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出するスコア算出手段とを具備する重要技術語取得装置である。

かかる構成により、技術語候補の出現位置に応じたスコアを容易かつ的確に取得できる。

本発明によれば、特許文書から重要度が高い技術語を的確に取得できる。

実施の形態における重要技術語取得装置のブロック図同重要技術語取得装置の動作を説明するフローチャート同技術語候補取得処理を説明するフローチャート同出現箇所決定処理を説明するフローチャート同有向グラフの一例を示す図同評価結果の一例を示す図同コンピュータシステムの外観図同コンピュータシステムの内部構成の一例を示す図

以下、重要技術語取得装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

本実施の形態において、特許文書から技術語候補を取得し、技術語候補の出現箇所に応じた技術語候補の重要度を取得し、重要度が高い語を重要技術語とする重要技術語取得装置１について説明する。

重要技術語取得装置１は、例えば、ＬＡＮやインターネット等のネットワーク、無線または有線の通信回線などを介して、図示しない外部のサーバまたは／および図示しない１以上の端末装置の各々と通信可能に接続されることは好適であるが、スタンドアロンでも良い。

特許文書は、例えば、図示しない外部のサーバから受信されるが、重要技術語取得装置１の内部の記録媒体に予め格納されていても良いし、着脱式の記録媒体から読み込まれても良い。なお、内部の記録媒体とは、例えば、格納部１１等を実現する記録媒体でも良いし、他の記録媒体でも良い。以下では、こうした各種の記録媒体を、単に記録媒体と記す場合がある。

特許文書から取得された１以上の重要技術語は、例えば、図示しない端末装置に送信されるが、重要技術語取得装置１の内部または外部のディスプレイに表示されても良いし、記録媒体に蓄積されても良い。

図１は、本実施の形態における重要技術語取得装置１のブロック図である。

重要技術語取得装置１は、格納部１１、受付部１２、処理部１３、出力部１４、受信部１５、および送信部１６を備える。格納部１１は、特許文書格納部１１１、および課題手がかり表現格納部１１２を備える。処理部１３は、技術語候補取得部１３１、出現箇所決定部１３２、スコア取得部１３３、および重要技術語取得部１３４を備える。技術語候補取得部１３１は、取得手段１３１１、および削除手段１３１２を備える。スコア取得部１３３は、構造情報構築手段１３３１、およびスコア算出手段１３３２を備える。出力部１４は、重要技術語出力部１４１を備える。

なお、重要技術語取得装置１がスタンドアロンの場合は、受信部１５および送信部１６を備えなくても良い。

格納部１１は、各種の情報を格納し得る。各種の情報とは、例えば、後述する特許文書、後述する課題手がかり表現などである。

また、格納部１１には、例えば、各種の技術分野の用語の辞書や、ストップワードの辞書なども格納される。ストップワードとは、極めて一般的であるため、通常、単独では検索から除外される単語である。ストップワードは、例えば、日本語の「は」や「です」、英語の「the」や「of」などであるが、一般的な用語であれば何でも良い。なお、その他の情報について、適時説明する場合がある。

特許文書格納部１１１には、１または２以上の特許文書が格納される。特許文書とは、特許に関する文書である。特許文書は、通常、特許公報である。特許公報とは、特許庁が発行する公報である。特許公報は、例えば、公開特許公報、特許公報、公表特許公報、再公表特許、登録実用新案公報などであるが、その種類は問わない。

特許公報は、例えば、日本国の特許庁が発行する公報であるが、外国の特許庁が発行する公報でも良い。外国の特許庁は、例えば、米国特許庁、欧州特許庁等であるが、所属する国や地域は問わない。特許文書の言語は、例えば、日本語であるが、外国語でも良い。外国語は、例えば、英語、中国語等であるが、その種類は問わない。

特許文書は、例えば、願書、特許請求の範囲、要約書、および明細書を含む。ただし、特許文書は、例えば、要約書や願書を含まなくてもよく、その構成は問わない。また、特許文書は、特許庁以外の組織が発行する文書でもよく、特許に関する文書であれば種類は問わない。

特許文書は、通常、１または２以上のタグ項目を有する。タグ項目とは、タグとなる項目である。タグ項目は、例えば、墨付き括弧の情報であるが、括弧は、「（）」「［］」等、問わない。タグ項目は、例えば、課題、解決手段、請求項１～請求項Ｎ（ただし、Ｎは１または２以上の整数）、発明の名称、技術分野、背景技術、先行技術文献、発明の概要、発明を実施するための形態、産業上の利用可能性、および符号の説明などである。タグ項目は、例えば、項目名を示す文字列と、当該文字列を挟む一対の記号とで構成される。一対の記号は、例えば、墨付き括弧であるが、その種類は問わない。

通常、課題および解決手段は、要約書に含まれ、請求項は、特許請求の範囲に含まれ、その他の項目は、明細書に含まれるが、各タグ項目が属する書類は問わない。また、以下では、請求項１～請求項Ｎを、単に請求項と記す場合がある。

特許文書格納部１１１には、例えば、文書識別子に対応付けて、１以上の特許文書が格納される。文書識別子とは、特許文書を識別する情報である。文書識別子は、例えば、公開番号、特許番号等であるが、文献名やＩＤ等でもよく、特許文書を識別し得る情報であれば何でも良い。ただし、特許文書格納部１１１に一の特許文書しか格納されていない場合、文書識別子はなくても良い。

課題手がかり表現格納部１１２には、１または２以上の課題手がかり表現が格納される。課題手がかり表現とは、課題を表現した文を検出するための手がかりとなる表現である。課題手がかり表現は、例えば、「ことで、」「ことが可能であり、」「ようにしたため、」等の文字列である。文字列とは、１または２以上の文字の配列である。文字列は、例えば、句読点やその他の記号も含んでいても良い。ただし、課題手がかり表現の内容や形式は問わない。

なお、課題手がかり表現については、例えば、「坂地泰紀，野中尋史，酒井浩之，増山繁：CrossBootstrapping：特許文書からの課題・効果表現対の自動抽出手法，電子情報通信学会論文誌 D, Vol. J93-D, No. 6, pp. 742?755 (2010)」に記載されている。

受付部１２は、各種の情報を受け付ける。受け付けとは、例えば、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付けであるが、ネットワークや通信回線を介して受信された情報の受け付けでも良いし、ディスクや半導体メモリなどの記録媒体から読み出された情報の受け付けでもよく、その態様は問わない。

各種の情報とは、例えば、取得指示である。取得指示とは、特許文書から重要技術語を取得する旨の指示である。取得指示は、通常、１または２以上の文書識別子を有する。

また、受付部１２は、例えば、特許文書、課題手がかり表現等の情報を受け付けてもよく、受け付けられる情報の種類は問わない。

処理部１３は、各種の処理を行う。各種の処理とは、例えば、技術語候補取得部１３１、出現箇所決定部１３２、スコア取得部１３３、重要技術語取得部１３４、取得手段１３１１、削除手段１３１２、構造情報構築手段１３３１、およびスコア算出手段１３３２などの処理である。

また、処理部１３は、例えば、フローチャートで説明する各種の判別などの処理も行う。なお、その他の処理について、適時説明する場合がある。

技術語候補取得部１３１は、１または２以上の技術語候補を特許文書から取得する。例えば、受付部１２が、１以上の文書識別子を有する取得指示を受け付けたことに応じて、技術語候補取得部１３１は、当該１以上の各文書識別子ごとに、当該文書識別子に対応する特許文書から１以上の技術語候補を取得しても良い。技術語候補とは、特許文書に含まれる２以上の用語のうち、技術語候補条件を満たす用語である。技術語候補とは、技術語または後述する重要技術語の候補となる用語である。技術語とは、技術に関する用語であり、例えば、技術的手段、技術の専門用語等である。

技術語候補取得部１３１は、例えば、特許文書に対して形態素解析を行い、形態素解析の結果と、格納部１１に格納されている辞書とを用いて、２以上の用語を取得する。形態素解析とは、自然言語の文を１または２以上の形態素に分割し、当該分割した１以上の各形態素ごとに、品詞や活用形等の属性情報を取得する処理である。なお、形態素解析とその結果に基づく用語の取得は、公知技術であり、説明を省略する。

技術語候補条件とは、技術語または重要技術語の候補に関する予め決められた条件である。技術語候補条件は、例えば、１以上の形容詞と１以上の名詞の集合であることは好適である。なお、本実施の形態でいう形容詞は、例えば、形容詞と同等の働きをする２以上の単語の集合（例えば、形容詞句など）でも良い。

１以上の形容詞と１以上の名詞の集合は、具体的には、例えば、「底付きパイプ」や「塩化ビニルのパイプ」、「水道水の流入口」、「前記パイプ」などである。

技術語候補条件は、例えば、「（形容詞）＊（名詞）＋」でも良い。ここで、“＊”は、直前の要素（ここでは、形容詞）の０回以上の繰り返しを意味し、“＋”は、直前の要素（ここでは、名詞）の１回以上の繰り返しを意味する。ただし、技術語候補条件の内容や形式は問わない。

技術語候補取得部１３１は、例えば、図示しない技術語辞書に格納されている用語を特許文書が取得する。かかる場合、技術語候補条件は、技術語辞書に格納されていることである。技術語辞書には、１または２以上の技術語が格納される。

技術語候補取得部１３１は、例えば、技術語候補条件「（形容詞）＊（名詞）＋」を満たす１以上の技術語候補を取得した後、当該取得した１以上の各技術語候補から、ノイズ条件を満たす文字列を削除しても良い。ノイズ条件とは、ノイズの用語であると判断される条件である。ノイズ条件は、ノイズを除去する予め決められた条件である、と言っても良い。

ノイズ条件は、例えば、予め決められたパターンに一致する文字列であることである。予め決められたパターンは、例えば、正規表現パターンである。正規表現パターンとは、文字列の集合を一つの文字列で表現した情報である。正規表現パターンは、例えば、「(?(?:上記 | 前記 | 請求項＼d* | 該)*)」、または「((?:＼d+ | 等)*)$」であるが、その内容や形式は問わない。予め決められたパターンは、例えば、特許文書に頻出する用語（例えば、上記、前記、請求項、該、当該）を含む用語である。用語は、１または２以上の単語を含む。

または、ノイズ条件は、例えば、予め準備された辞書に含まれる単語と一致する文字列であることでも良い。予め準備された辞書は、例えば、ストップワードの辞書である。ストップワードの辞書は、例えば、Slothlibの提供する日本語ストップワード辞書であるが、その言語や提供元は問わない。本実施の形態におけるストップワード辞書は、例えば、既存のストップワード辞書に、特許文書に頻出する１以上単語を追加したものでも良い。追加する単語は、例えば、請求項に頻出する“特徴”，“記載”等の単語でも良い。

詳しくは、技術語候補取得部１３１を構成する取得手段１３１１は、前述した技術語候補条件を満たす１以上の技術語候補を、特許文書から取得する。

削除手段１３１２は、取得手段１３１１が取得した１または２以上の文字列のうち、前述したノイズ条件を満たす１以上の文字列を削除する。削除手段１３１２は、例えば、取得された文字列のうち、正規表現パターン等の予め決められたパターンに一致する文字列を削除し、さらに、ストップワード辞書等の予め準備された辞書に含まれる単語と一致する文字列をも削除することは好適である。

出現箇所決定部１３２は、特許文書における技術語候補の１以上の出現箇所を決定する。出現箇所とは、技術語候補が出現する箇所を特定する情報である。出現箇所は、例えば、（１）技術語候補が出現する文の種類（例えば、「重要詳細文」「一般詳細文」）を特定する情報、（２）技術語候補が出現する書類を特定する情報（例えば、「特許請の範囲」、「要約書」、「明細書」）（３）技術語候補が出現するタグ項目（例えば、「符号の説明」、「課題を解決するための手段」、「発明の効果」）を特定する情報である。

出現箇所決定部１３２は、例えば、技術語候補が含まれる文の種類を決定する。

または、出現箇所決定部１３２は、例えば、技術語候補が含まれる書類を決定しても良い。

または、出現箇所決定部１３２は、例えば、技術語候補が含まれる明細書内のタグ項目を決定しても良い。

出現箇所決定部１３２は、例えば、技術語候補が、1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が含まれる書類を決定し、かつ技術語候補が含まれる明細書内のタグ項目を決定することは好適である。つまり、通常、課題の表現と共起する技術語は、重要な技術語である可能性が高い、と考えられる。

詳しくは、出現箇所決定部１３２は、例えば、技術語候補取得部１３１が取得した１以上の各技術語候補について、次のような出現箇所決定処理を行う。すなわち、出現箇所決定部１３２は、最初、当該技術語候補を含む文が、課題手がかり表現格納部１１２に格納されている１以上の課題手がかり表現のうち、１または２以上の課題手がかり表現を含むか否かを判断する。そして、当該技術語候補を含む文が、格納されている１以上の課題手がかり表現のうち１以上の課題手がかり表現を含む場合に、出現箇所決定部１３２は、当該技術語候補を含む文を「重要詳細文」に決定する。一方、課題手がかり表現を１つも含まない場合には、出現箇所決定部１３２は、当該技術語候補を含む文を「一般詳細文」に決定する。

次に、出現箇所決定部１３２は、特許文書を構成する１以上の書類のうち、技術語候補取得部１３１が取得した技術語候補が含まれる書類を決定する。例えば、特許文書を構成する１以上の各書類の先頭に、「書類名」を含むタグ項目が配置されている。

出現箇所決定部１３２は、「書類名」のタグ項目に属する文字列（「書類名」のタグ項目に続く文字列）で示される書類を、出現箇所に決定する。なお、あるタグ項目に属する文字列とは、そのタグ項目と、その次のタグ項目との間に存在する文字列である。例えば、「書類名」を含むタグ項目に属する文字列が「要約書」である場合、当該技術語候補の出現箇所は、「要約書」に決定される。

さらに、出現箇所決定部１３２は、当該技術語候補が含まれる書類内のタグ項目をも決定する。例えば、出現箇所決定部１３２は、明細書中の当該技術語候補が含まれるタグ項目を決定する。例えば、明細書中で、当該技術語候補から前方を検索し、「符号の説明」を含むタグ項目が最初に検出された場合、「符号の説明」を含むタグ項目が、当該技術語候補の出現箇所に決定される。例えば、出現箇所決定部１３２は、文字列「“請求項”［１－９］［０－９］＊」に合致する文字列のタグの中に技術語候補取得部１３１が取得した技術語候補が含まれると判断した場合、当該技術語候補の出現箇所を「請求項」として取得する。

なお、出現箇所に決定することは、例えば、出現箇所を取得すること、出現箇所へのポインタを取得すること等である。

スコア取得部１３３は、出現箇所決定部１３２が決定した１以上の出現箇所に応じて、技術語候補のスコアを取得する。スコア取得部１３３は、通常、同じ技術語候補でも、出現箇所が異なれば、異なるスコアを取得する。

スコア取得部１３３は、例えば、技術語候補が含まれる文の種類に応じて異なるスコアを取得する。技術語候補が含まれる文の種類に応じて異なるスコアを取得するとは、通常、重要詳細文が一般詳細文よりも高いスコアを取得することである。

スコア取得部１３３は、例えば、後述するページランクのアルゴリズムにより、スコアを取得することは好適である。

スコア取得部１３３は、例えば、技術語候補取得部１３１が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間に、重要度が低いものから高いものに向かうエッジを付加した有向グラフを構築し、当該構築した有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出しても良い。

詳しくは、スコア取得部１３３を構成する構造情報構築手段１３３１は、技術語候補取得部１３１が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間に、文の種類、書類、およびタグ項目の各々から技術語候補に向かうエッジを付加した有向グラフを構築する。

さらに具体的には、例えば、格納部１１に、ノード要素識別子群、および重要度情報が格納されている。ノード要素識別子群とは、ノード要素識別子の集合である。ノード要素識別子とは、ノードとなる要素を識別する情報である。ノード要素識別子は、例えば、後述する図５に示されている、重要詳細文、一般詳細文、請求項、要約、符号の説明、技術語候補等の要素であるが、その種類は問わない。

重要度情報とは、ノード要素間の重要度の関係に関する情報である。重要度情報は、例えば、“重要詳細文＜請求項＜要約＜符号の説明”といった、重要度が高い順又は低い順にノード要素識別子を配列した情報でも良いし、ノード要素識別子と重要度の組の集合でも良く、その形式は問わない。また、重要度情報は、例えば、“請求項１＞請求項２”といった、請求項間の重要度に関する情報や、“一般詳細文＜重要詳細文”といった、文の種類の間の重要度に関する情報なども含むことは好適である。

構造情報構築手段１３３１は、例えば、上記ノード要素識別子群を用いて、ノード群を定義する。具体的には、構造情報構築手段１３３１は、技術語候補取得部１３１が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとして取得する。

なお、ノード群とは、各種のノードの集合である。各種のノードとは、例えば、重要詳細文ノード、請求項ノード、要約ノード、および符号の説明ノードなどである。次に、構造情報構築手段１３３１は、当該定義したノード群に対し、上記重要度情報を用いて、重要度が低いノードから高いノードに向かう有向エッジを付加する。重要度が低いノードから高いノードに向かう有向エッジとは、例えば、重要詳細文ノードから請求項ノードに向かう有向エッジ、請求項ノードから要約ノードに向かう有向エッジ、請求項ノードから符号の説明ノードに向かう有向エッジ、および要約ノードから符号の説明ノードに向かう有向エッジ、ならびに、請求項、要約、および符号の説明の各ノードから技術語候補に向かう有向エッジなどである。

次に、構造情報構築手段１３３１は、技術語候補ノードから重要詳細文ノードに向かう有向エッジ、および技術語候補ノードから一般詳細文ノードに向かう有向エッジも付加する。ただし、一般詳細文ノードから他のノードに向かう有向エッジは付加されない。

また、構造情報構築手段１３３１は、例えば、下位の請求項から上位の請求項に向かう有向エッジをも付加する。下位の請求項から上位の請求項に向かう有向エッジとは、例えば、請求項２から請求項１に向かう有向エッジなどである。これにより、図５に示す有向グラフが構築される。

また、構造情報構築手段１３３１は、例えば、従属請求項から、当該従属請求項が従属している被従属の請求項に向かう有向エッジをも付加する。

スコア算出手段１３３２は、構造情報構築手段１３３１が構築した有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出する。ページランクのアルゴリズムとは、Ｗｅｂページをノードとして、Ｗｅｂページ間の有向リンクをエッジとした場合に、Ｗｅｂページの重要度を決定するためのアルゴリズムである。ページランクのアルゴリズムは、例えば、具体例で説明する数１の式を用いるアルゴリズムであるが、マルコフ行列等の確率行列を用いるアルゴリズムでもよく、その種類は問わない。

ページランクは、例えば、次のようにして、各ページのスコアを計算するアルゴリズムである。すなわち、各ページ（ノード）に、固有の得点が対応付いている。各リンク（有向エッジ）にも、固有の得点が対応付いている。あるページＸの得点がＰであり、他のページからＸへのリンクの得点がＱ１，Ｑ２・・・Ｑｎであり、Ｘから他のページへのリンクの得点がＲ１，Ｒ２・・・Ｒｍである。このとき、“Ｑ１＋Ｑ２＋・・・＋Ｑｎ＝Ｐ”かつ“Ｒ１＝Ｒ２＝・・・＝Ｒｍ＝Ｐ／ｍ”が成り立つように、各ページの得点を決定する。

つまり、各ページに「流れ込む」リンクの得点の総和と、各ページから「流れ出す」リンクの得点の総和とが等しくなるようにして、その総和をそのページのスコアとする。このスコアが高いほど、そのページは重要であると考えられる。また、ページランクは、例えば、グラフ理論に基づくアルゴリズムでも良い。すなわち、各ページをノードとし、各リンクをエッジとした有向グラフを定義する。この有向グラフ隣接行列を転置したものをＡ＝（ａ_ｉｊ）とし、行列Ｂ＝（ｂ_ｉｊ）を“ｂ_ｉｊ＝ａ_ｉｊ／Σ_ｋａ_ｋｊ”として、Ｂの最大固有値に属する固有ベクトルを求める。この固有ベクトルの各要素の値が、求めるべき各ページのスコアとなる。

また、ページランクは、例えば、数１の式により、あるページｖ_ｉのスコアＳ（ｖ_ｉ）を計算するアルゴリズムでも良い。数１の式において、Ｓ（ｖ_ｊ）は、ページｖ_ｉにリンクしている他のページｖ_ｊのスコアである。Ｏｕｔ（ｖ_ｊ）は、ページｖ_ｊに含まれるその他のページへのリンクの総数である。なお、数１の式については、「Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine」に記載されている。

スコア算出手段１３３２は、このページランクのアルゴリズムを、構造情報構築手段１３３１が構築した有向グラフに適用し、技術語候補のスコアを取得する。具体的には、スコア算出手段１３３２は、例えば、取得された技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目をノードとし、文の種類、書類、およびタグ項目の各々から技術語候補に向かうエッジを付加することにより構築した有向グラフに適用し、技術語候補のスコアを取得する。これにより、技術語候補の出現箇所によって異なるスコアが取得される。

さらに具体的には、スコア算出手段１３３２は、例えば、ページランクのアルゴリズムを、図５に示した有向グラフ内の循環グラフに適用し、各ノードのスコアを算出しても良い。循環グラフとは、一のノード（例えば、重要詳細文ノード）から出て、他の２以上のノード（請求項ノード、要約ノード、または符号の説明ノードのうち１以上のノード、および技術語候補ノード）を経て、当該一のノードに戻るグラフである。これにより、技術語候補の出現箇所間の関係性に応じたスコアが取得される。

また、例えば、格納部１１に、重要詳細文と一般詳細文への配点に関する第一配点情報が格納されており、スコア取得部１３３は、当該格納されている第一配点情報を用いて、技術語候補が含まれる文の種類に応じたスコアを取得しても良い。具体的には、例えば、第一配点情報が“重要詳細文：５点，一般詳細文：１点”であり、決定された文の種類が、重要詳細文である場合は５点が取得され、一般詳細文である場合は１点が取得されても良い。

または、スコア取得部１３３は、例えば、技術語候補が含まれる書類に応じて異なるスコアを取得しても良い。書類に応じて異なるスコアを取得するとは、例えば、「要約書＞特許請求の範囲＞明細書」の順位で高いスコアを取得することである。

例えば、格納部１１に、各種の書類への配点に関する第二配点情報が格納されており、スコア取得部１３３は、当該格納されている第二配点情報を用いて、技術語候補が含まれる書類に応じたスコアを取得しても良い。具体的には、例えば、第二配点情報が“要約書：５点，特許請求の範囲：３点，明細書：１点”であり、決定された書類が要約書である場合は５点が取得され、明細書である場合は１点が取得されても良い。

または、スコア取得部１３３は、例えば、技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得しても良い。明細書内のタグ項目とは、例えば、実施の形態、符号の説明、発明の効果などである。タグ項目に応じて異なるスコアを取得するとは、例えば、「符号の説明＞発明の効果＞発明の実施の形態」の順位で高いスコアを取得することである。

例えば、格納部１１に、明細書内の各種のタグ項目への配点に関する第三配点情報が格納されており、スコア取得部１３３は、当該格納されている第三配点情報を用いて、技術語候補が含まれる明細書内のタグ項目に応じたスコアを取得しても良い。具体的には、例えば、第三配点情報が“符号の説明：５点，発明の効果：３点，実施の形態：０点”であり、決定されたタグ項目が、符号の説明である場合は５点が取得され、発明の効果である場合は３点が取得され、実施の形態である場合は点が取得されなくても良い。

スコア取得部１３３は、例えば、出現箇所決定部１３２が決定した文の種類、書類、およびタグ項目に応じて、スコアを取得することは好適である。

例えば、格納部１１に、上記第一～第三の３つの配点情報が格納されており、スコア取得部１３３は、当該格納されている３つの配点情報を用いて、決定された文の種類、書類、およびタグ項目に応じたスコアを取得しても良い。具体的には、例えば、決定された書類が、要約書である場合は５点が取得され、特許請求の範囲である場合は３点が取得されても良い。

決定された書類が明細書である場合は、まず１点が取得され、次に、決定された明細書内のタグ項目が、符号の説明である場合は、さらに５点が、発明の効果である場合は、さらに３点が、それぞれ取得されても良い。決定された明細書内のタグ項目が実施の形態であり、決定された文の種類が、重要詳細文である場合は、さらに５点が、一般詳細文である場合は１点が取得されても良い。

重要技術語取得部１３４は、技術語候補取得部１３１が取得した１以上の技術語候補のうち、スコア取得部１３３が取得したスコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する。

予め決められた条件とは、例えば、スコア取得部１３３が取得したスコアが、閾値以上であること、閾値より大きいこと、上位Ｎ個の中に含まれること等である。

出力部１４は、各種の情報を出力する。各種の情報とは、例えば、重要技術語である。出力とは、例えば、ディスプレイへの表示であるが、プリンタでのプリントアウト、スピーカからの音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどでも良い。

重要技術語出力部１４１は、重要技術語取得部１３４が取得した１または２以上の重要技術語を、例えば、記録媒体に蓄積する。重要技術語出力部１４１は、例えば、重要技術語を抽出した特許文書に対応付けて、１以上の重要技術語を記録媒体に蓄積する。特許文書に対応付けることは、特許識別子に対応付けることと同意義である。

または、例えば、受信部１５が図示しない端末装置から端末識別子と対に取得指示を受信したことに応じて、重要技術語取得部１３４が取得した１以上の重要技術語を、重要技術語出力部１４１は、当該端末識別子に対応する端末装置に送信しても良い。

なお、取得指示が２以上の文書識別子を有する場合、重要技術語出力部１４１は、文書識別子と１以上の重要技術語との組を、２組以上、出力しても良い。

受信部１５は、各種の情報を受信し得る。各種の情報とは、例えば、取得指示である。受信部１５は、例えば、図示しない端末装置から、端末識別子と対に取得指示を受信しても良い。端末識別子とは、端末装置を識別する情報である。端末識別子は、例えば、ＭＡＣアドレス、ＩＰアドレス、ＩＤなどであるが、端末装置のユーザを識別するユーザ識別子でもよく、端末装置を識別し得る情報であれば何でも良い。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、住所・氏名、電話番号、メールアドレス、ＩＤなどであるが、ユーザを識別し得る情報であれば何でも良い。

送信部１６は、各種の情報を送信し得る。各種の情報とは、例えば、重要技術語である。例えば、受信部１５が取得指示を受信したことに応じて重要技術語取得部１３４が取得した1以上の重要技術語を、当該取得指示と対に受信された端末識別子で識別される端末装置に送信しても良い。

格納部１１、特許文書格納部１１１、および課題手がかり表現格納部１１２は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、ＲＡＭなど揮発性の記録媒体でも実現可能である。

格納部１１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１等で記憶されるようになっても良い。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でも良い。

受付部１２は、入力デバイスを含むと考えても、含まないと考えても良い。受付部１２は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。

処理部１３、技術語候補取得部１３１、出現箇所決定部１３２、スコア取得部１３３、重要技術語取得部１３４、取得手段１３１１、削除手段１３１２、構造情報構築手段１３３１、およびスコア算出手段１３３２は、通常、ＭＰＵやメモリ等から実現され得る。処理部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。ただし、処理手順は、ハードウェア（専用回路）で実現しても良い。

出力部１４、および重要技術語出力部１４１は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えても良い。出力部１４等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。

受信部１５は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

送信部１６は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。

次に、重要技術語取得装置１の動作について図２～図４のフローチャートを用いて説明する。なお、図２～図４のフローチャートは、例えば、取得指示が一の文書識別子のみを有しており、当該一の文書識別子で識別される一の特許文書に対して実行される処理である。取得指示が２以上の文書識別子を有する場合は、２以上の各文書識別子ごとに、同様の処理が実行される。

図２は、重要技術語取得装置１の動作を説明するフローチャートである。

（ステップＳ２０１）処理部１３は、受付部１２が取得指示を受け付けたか否かを判別する。受付部１２が取得指示を受け付けたと判別された場合はステップＳ２０２に進み、受け付けていないと判別された場合はステップＳ２０１に戻る。

（ステップＳ２０２）技術語候補取得部１３１は、ステップＳ２０１で受け付けられた取得指示が有する文書識別子で識別される特許文書から１以上の技術語候補を取得する処理である技術語候補取得処理を実行する。なお、技術語候補取得処理については、図３を用いて説明する。

（ステップＳ２０３）処理部１３は、変数ｉに初期値１をセットする。変数ｉとは、ステップＳ２０２で取得された１以上の技術語候補のうち、未選択の技術語候補を順番に選択していくための変数である。

（ステップＳ２０４）処理部１３は、ｉ番目の技術語候補があるか否かを判別する。ｉ番目の技術語候補が、あると判別された場合はステップＳ２０５に進み、ないと判別された場合はステップＳ２０８に進む。

（ステップＳ２０５）出現箇所決定部１３２は、ｉ番目の技術語候補について、その出現個所を決定する処理である出現箇所決定処理を実行する。なお、出現箇所決定処理については、図４を用いて説明する。

（ステップＳ２０６）スコア取得部１３３は、ｉ番目の技術語候補について、ステップＳ２０５で特定した出現箇所（例えば、文の種類、書類、およびタグ項目）に応じたスコアを取得する。なお、出現箇所に応じたスコアの取得方法については、前述したので繰り返さない。

（ステップＳ２０７）処理部１３は、変数ｉをインクリメントする。ステップＳ２０４に戻る。

（ステップＳ２０８）重要技術語取得部１３４は、ステップＳ２０２で取得された１以上の技術語候補のうち、ステップＳ２０６で取得されたスコアが予め決められた条件を満たすほど高い１以上の各技術語候補を、重要技術語として取得する。

（ステップＳ２０９）重要技術語出力部１４１は、ステップＳ２０８で取得された１以上の重要技術語を、ステップＳ２０１で受け付けられた取得指示が有する文書識別子に対応付けて出力する。ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、重要技術語取得装置１の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

図３は、ステップＳ３０２の技術語候補取得処理を説明するフローチャートである。

（ステップＳ３０１）技術語候補取得部１３１は、特許文書に対して形態素解析を行い、２以上の用語を取得する。

（ステップＳ３０２）技術語候補取得部１３１は、変数ｊに初期値１をセットする。変数ｊとは、ステップＳ３０１で取得された２以上の用語のうち、未選択の用語を順番に選択していくための変数である。

（ステップＳ３０３）技術語候補取得部１３１は、ｊ番目の用語があるか否かを判別する。ｊ番目の用語が、あると判別された場合はステップＳ３０３に進み、ないと判別された場合は上位の処理にリターンする。

（ステップＳ３０４）技術語候補取得部１３１を構成する取得手段１３１１は、ｊ番目の用語が技術語候補条件を満たすか否かを判別する。ｊ番目の用語が技術語候補条件を満たすと判別された場合はステップＳ３０５に進み、満たさないと判別された場合はステップＳ３０７に進む。

（ステップＳ３０５）削除手段１３１２は、j番目の用語がノイズ条件を満たすか否かを判別する。j番目の用語がノイズ条件を満たすと判別された場合はステップＳ３０７に進み、満たさないと判別された場合はステップＳ３０６に進む。

（ステップＳ３０６）取得手段１３１１は、j番目の用語を技術語候補として取得する。

（ステップＳ３０７）技術語候補取得部１３１は、変数ｉをインクリメントする。ステップＳ３０３に戻る。

図４は、ステップＳ２０５の出現箇所決定処理を説明するフローチャートである。

（ステップＳ４０１）出現箇所決定部１３２は、i番目の技術語候補が含まれる文を特許文書から取得する。

（ステップＳ４０２）出現箇所決定部１３２は、ステップＳ４０１で取得した文が課題手がかり表現を含むか否かを判別する。文が課題手がかり表現を含むと判別された場合はステップＳ４０３に進み、含まないと判別された場合はステップＳ４０４に進む。

（ステップＳ４０３）出現箇所決定部１３２は、文の種類を「重要詳細文」に決定する。ステップＳ４０５に進む。

（ステップＳ４０４）出現箇所決定部１３２は、文の種類を「一般詳細文」に決定する。

（ステップＳ４０５）出現箇所決定部１３２は、ｉ番目の技術語候補が含まれる書類を決定する。

（ステップＳ４０６）出現箇所決定部１３２は、ｉ番目の技術語候補が含まれる明細書内のタグ項目を決定する。上位処理にリターンする。

以下、本実施の形態における重要技術語取得装置１の具体的な動作例について説明する。

本例の手法は、特許文書内の項目等の意味関係を有向グラフとして表現した、教師なしグラフベース手法である。本例において、有向グラフは、以下の仮定に基づいて特許文書から構築される。

（仮定１）発明の技術的特徴の要約度合は、請求項、「要約」、「符号の説明」の順に高くなっていく。従って、各項目の重要度は、請求項＜「要約」＜「符号の説明」となる。

（仮定２）独立請求項は、従属請求項よりも重要である。

（仮定３）明細書において、技術上の課題が含まれている文は、その課題を解決する重要な技術情報を含むことがあるため重要である。一方、その他の文には、一般的な技術情報が多く含まれており、発明の技術的特徴の記載は少ない。

上記仮定１～３に基づき、各要素と技術語候補をノード、それらの意味関係を有向エッジとして表現した有向グラフの一例を図５に示す。

本例で提案する手法は、次の３段階のステップで重要技術語を抽出する。（１）はじめに、技術語候補となるフレーズを選択する（技術語候補の選択）。（２）次に、特許文書から有向グラフを構築する（グラフ構築）。グラフ構築では、明細書を構成する文を、技術上の課題が含まれている文と、それ以外の文に分類しておく（重要／一般詳細文）。（３）最後に、グラフベースのランキングアルゴリズムを適用し、技術語候補をスコアリングする(ランキングと抽出)。

なお、本例の「技術語候補の選択」は、図２のステップＳ２０２、および図３のＳ３０１～Ｓ３０７に対応する。また、「重要／一般詳細文」と「グラフ構築」は、図２のステップＳ２０５、および図４のＳ４０１～Ｓ４０６に対応する。さらに、「ランキングと抽出」は、図２のステップＳ２０８，Ｓ２０９に対応する。以下、各ステップの詳細を説明する。

（技術語候補の選択）

技術語候補Tiは、(形容詞)*(名詞)+のパターンに一致するフレーズとする。技術語候補は、「要約」、「特許請求の範囲」、「発明の詳細な説明」、「符号の説明」の各セクションから抽出する。また、フレーズに含まれる単語数に制限は設けない。キーワード抽出の先行研究では、候補フレーズはbi-gramにするなど、単語数に制限を設けていることがある。しかしながら、厳密な記述が求められる特許文書には、複雑で長い名詞句を多く含んでいるという特徴がある。そのため、技術語候補となる候補フレーズの単語数には制限を設けないこととした。次に、技術語候補に対してノイズ除去を行う。はじめに、技術語候補から、(?(?:上記 | 前記 | 請求項＼d* | 該)*)または((?:＼d+ | 等)*)$の正規表現パターンに一致する文字列を削除する。次に、ストップワード辞書に含まれる単語と一致する技術語候補を除去する。本例では、ストップワード辞書としてSlothlibの提供する日本語ストップワード辞書に、請求項に頻出する“特徴”，“記載”の２単語を追加したものを使用する。

（重要／一般詳細文）

要詳細文と一般詳細文に分類する。明細書には、発明の背景や課題、解決手段、効果、実施例など、発明に関する具体的な内容が記述されているため、他の項目よりも技術情報が多く含まれている。特に、技術上の課題が含まれている箇所には、その課題を解決するための重要な技術情報が含まれていると考えられる。そこで、技術上の課題が含まれている詳細文を重要詳細文、その他の詳細文を一般詳細文と定義する。本例では、Cross-Bootstrapping法により自動的に取得された「ことで、」、「ことが可能であり、」、「ようにしたため、」といった課題手がかり表現（３０件）を含む詳細文を重要詳細文とした。

なお、Cross-Bootstrapping法については、「坂地泰紀,野中尋史,酒井浩之,増山繁：CrossBootstrapping:特許文書からの課題・効果表現対の自動抽出手法,電子情報通信学会論文誌 D, Vol. J93-D, No. 6, pp. 742?755 (2010)」に記載されている。

（グラフ構築）

ノードは、以下のように定義する。特許dから構築される有向グラフをG = (V,E)とする。VはUT,UC,UDS,UDN,VA,VSから成るノードの集合である。ここで、UTは技術語候補ノード集合、UCは請求項ノード集合、UDSは重要詳細文ノード集合、UDNは一般詳細文ノード集合である。VAとVSは、必ず１個のみ存在するノードであり、それぞれ特許dにおける「要約」セクションと「符号の説明」セクションを表している。技術語候補ノードUT,i は技術語候補Tiに、請求項ノードUC,jはj番目の請求項Cjに、重要詳細文ノードUDS,kは重要詳細文DSkに、一般詳細文ノードUDN,lは一般詳細文DNlにそれぞれ対応する。

エッジは、以下のように定義する。はじめに、技術語候補の重要度を高める働きをするエッジについて説明する。請求項Cj内に技術語候補Tiが存在する場合、UC,jからUT,iへエッジ(UC,j,UT,i) ∈ Eを設ける。同様にして、「概要」セクション内または「符号の説明」セクションに技術語候補Tiが存在する場合、エッジ(VA,UT,i) ∈ E,(VS,UT,i) ∈ Eをそれぞれ設ける。

次に、技術語候補ノードUT,iから出るエッジについて説明する。重要詳細文DSkまたは一般詳細文DNlに技術語候補Tiが存在する場合、エッジ(UT,i,UDS,k) ∈ E,(UT,i,UDN,l) ∈ Eをそれぞれ設ける。これらのエッジにより、多くの文に出現する一般的な（すなわち、重要でない）技術語候補の重要度を下げることができる。しかし、重要詳細文に偏って出現する技術語候補は、そうでないものよりも重要度が高いと考えられる。これを考慮するため、任意の重要詳細文ノードUDS,kから任意の請求項ノードUC,jへエッジ(UDS,k,UC,j) ∈ Eを設ける。

従って、グラフG内にUT,i → UDS,k → UC,j → UT,i →・・・のような循環グラフが構築される。このグラフGに対して後述するPageRankアルゴリズムを適用した場合、重要詳細文に偏って出現する技術語候補のスコア（重要度）は、一般詳細文に多数出現するものよりも高くなりやすくなる。

最後に、特許の項目間の意味関係を表すエッジについて説明する。独立請求項は下に連なる従属請求項よりも重要であることを考慮するため、従属請求項のノードから独立請求項のノードへエッジを設ける。なお、本例では単純化のため、請求項第１項が独立請求項、第２項以下が従属請求項とする。従って、請求項間のエッジは(UC,j,UC,1) ∈ E (j ? 2)のように設けられる。また、各項目の重要度が請求項＜「要約」＜「符号の説明」となることを考慮するために、任意の請求項ノードUC,jから要約ノードVAへ、さらに任意の請求項ノードUC,jおよび要約ノードVAから符号の説明ノードVSへそれぞれエッジ (UCj,VA) ∈ E,(UCj,VS) ∈ E,(VA,VS) ∈ Eを設ける。

（ランキングと抽出）

グラフ構築後、各ノードのスコアを計算し、技術語候補ノードのみを選択する。最後に、スコア上位N件の技術語候補を特許文書dにおける重要技術語として抽出する。ノードのスコアの計算には、TextRankと同様にPageRankアルゴリズムを適用する。ノードviのPageRankスコアS(vi)は、次の式（数１）で再帰的に計算することによって得られる。

ここで、I(vi)はviへ接続するノードの集合、Out(vj)はvjから出るエッジの数、αはダンピングファクターである。

（評価実験のためのデータセット）

本例では、重要技術語の抽出性能を評価するためにオリジナルのデータセットを作成した。はじめに、NTCIR-6の日本語公開特許公報全文データ（期間：1993～2002 年，文書数：3,496,252件）から，国際特許分類のセクションA～Hに属する特許をセクションごとに１０件ずつランダムサンプリングした。次に、サンプリングした各特許文書から、発明上特に重要と思われる技術語を、弁理士を含めた３名のアノテーターの合議により選択した。このとき、重要技術語は特許１件あたり５個を目安として選択した。なお、化学・冶金分野のセクションCの特許は、発明において重要な要素が化学式で表現されることが多いため、データセットから除外した。

（評価実験）

提案手法の有効性を検証するために、複数の教師なしキーワード抽出手法との間で重要技術語抽出の性能の比較を行った。比較手法として、統計的手法のTF-IDF、グラフベース手法のTextRank，PositionRankを選択した。TF-IDFのIDFスコアは、NTCIR-6データセットからランダムサンプリングされた10万件の特許から計算したものを使用した。TextRank とPositionRankは、候補単語をノードとし、候補単語wiとwjが前後２単語内で共起した場合にエッジを設けた無向グラフを構築した。これら３つの比較手法では、先行研究に従い、技術語候補を構成する単語のスコアの総和を、その技術語候補のスコアとした。

PageRankアルゴリズムを用いているグラフベースの手法（提案手法，TextRank，PositionRank）は、ダンピングファクターαを0.85に設定し、PageRankの反復計算を１００ステップあるいは１ステップ前のスコアSとの差が０．００１より小さくなるまで実行した。実験に際し、全ての手法に関して、特許１件から抽出する重要技術語の個数は５つとした。また、技術語候補およびその技術語を構成する候補単語は「技術語候補の選択」記載の方法で選択し、態素解析器にはGiNZAを使用した。抽出性能の評価指標にはPrecision，Recall，F値を用いた。

（評価結果）

提案手法および比較手法の評価結果を図６に示す。全セクションでの評価結果を見ると、比較手法の中で最も抽出性能が高いPositionRankよりも、提案手法の方が48.94ポイント F値が高かった。さらに、各セクションごとの結果でも、提案手法が一貫して最も高い抽出性能を示している。

次に、特許１０件分の抽出結果をランダムサンプリングし、比較手法のエラーアナリシスを行った。各手法ごとに誤抽出の内容を見ると、技術語と思われるフレーズに不必要な単語が付いた技術語候補を誤抽出しているケースが多数確認できた。例えばTF-IDFでは、１の特許文書から“各シェル”，“シェル上”といった、“シェル”が含まれた技術語候補を複数個誤抽出していた。このタイプの誤抽出が、TF-IDFで４５件中２４件、TextRankで４４件中１７件、PositionRankで４４件中１６件存在した。

このような誤抽出が生じる要因として、比較手法の技術語候補スコアの算出方法が考えられる。比較手法では、単語ごとにスコアを求めており、技術語候補のスコアは構成単語のスコアの総和としている。しかしながら、提案手法と同様にしてスコア算出の単位を単語から技術語候補に変更すると、ほとんどの技術語候補の出現頻度が非常に低くなる可能性がある。そのため、TF-IDFのような頻度に基づく手法は、技術語候補のスコアがうまく計算できなくなる恐れがある。

一方で、TextRankやPositionRankといった従来のグラフベースの手法では、スコア算出の単位を単語から技術語候補に変更したとしても顕著な効果は現れないと考えられる。その理由として、厳密さが求められる特許文書では、多くの修飾語句を用いて用語の意味を限定する記述をしていることが挙げられる。従来のグラフベースの手法は、ある範囲内での候補単語・フレーズの共起に基づいてエッジを設けているため、技術語周辺の修飾語句の影響が強く現れてしまう可能性がある。

これらの理由から、語の統計量に依存している従来手法のアプローチでは、重要技術語抽出は困難であると考えられる。一方、提案手法は、特許文書の意味的な構造に着目することで上記の問題を回避しているため、結果として最も高い抽出性能を示したと考えられる。

以上、本実施の形態によれば、特許文書から重要度が高い技術語を的確に取得できる重要技術語取得装置１が実現される。

また、技術語候補条件が１以上の形容詞と１以上の名詞の集合であることであることにより、重要技術語取得装置１は、特許文書から重要度が高い技術語を的確かつ簡易に取得できる。

また、重要技術語取得装置１は、技術語候補条件を満たす用語である技術語候補を特許文書から取得し、当該取得した文字列のうち、ノイズ条件を満たす文字列を削除することにより、特許文書から重要度が高い技術語をより的確に取得できる。

また、重要技術語取得装置１は、技術語候補が含まれる文の種類を決定する、または技術語候補が含まれる書類を決定する、または技術語候補が含まれる明細書内のタグ項目を決定し、技術語候補が含まれる文の種類に応じて異なるスコアを取得する、または技術語候補が含まれる書類に応じて異なるスコアを取得する、または技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得することにより、技術語候補の出現位置に応じたスコアを的確に取得できる。

また、課題手がかり表現格納部１１２に１以上の課題手がかり表現が格納されており、重要技術語取得装置１は、技術語候補が、１以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が含まれる書類を決定し、かつ技術語候補が含まれる明細書内のタグ項目を決定する。そして、重要技術語取得装置１は、当該決定した文の種類、書類、およびタグ項目に応じて、スコアを取得することにより、技術語候補の出現位置に応じたスコアを的確に取得できる。

また、重要技術語取得装置１は、技術語候補が、１以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が、重要詳細文以外の文に含まれる場合に、技術語候補が含まれる文の種類を「一般詳細文」であると決定し、技術語候補が、技術語候補が要約書に含まれる場合に、技術語候補が含まれる書類を「要約書」と決定し、技術語候補が、特定の請求項に含まれる場合に、技術語候補が含まれるタグ項目を「特定の請求項」と決定し、技術語候補が、明細書の中の符号の説明の項目に含まれる場合に、技術語候補が含まれるタグ項目を「符号の説明」と決定する。そして、重要技術語取得装置１は、当該取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間にエッジを付加した有向グラフを構築し、当該構築した有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出することにより、技術語候補の出現位置に応じたスコアを容易かつ的確に取得できる。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、特許に関する特許文書が格納される特許文書格納部１１１にアクセス可能なコンピュータを、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、前記特許文書から取得する技術語候補取得部１３１と、前記特許文書における前記技術語候補の１以上の出現箇所を決定する出現箇所決定部１３２と、前記１以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得部１３３と、前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部１３４と、前記重要技術語を出力する重要技術語出力部１４１として機能させるためのプログラムである。

図７は、本実施の形態におけるプログラムを実行して、重要技術語取得装置１を実現するコンピュータシステム９００の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図７において、コンピュータシステム９００は、ディスクドライブ９０５を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、ディスプレイ９０４とを備える。なお、キーボード９０２やマウス９０３やディスプレイ９０４をも含むシステム全体をコンピュータと呼んでも良い。

図８は、コンピュータシステム９００の内部構成の一例を示す図である。図８において、コンピュータ９０１は、ディスクドライブ９０５に加えて、ＭＰＵ９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード９１６と、を備える。ストレージ９１４は、例えば、ハードディスク、ＳＳＤ、フラッシュメモリなどである。

コンピュータシステム９００に、重要技術語取得装置１の機能を実行させるプログラムは、例えば、ＤＶＤ、ＣＤ－ＲＯＭ等のディスク９２１に記憶されて、ディスクドライブ９０５に挿入され、ストレージ９１４に転送されても良い。これに代えて、そのプログラムは、ネットワークを介してコンピュータ９０１に送信され、ストレージ９１４に記憶されても良い。プログラムは、実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ディスク９２１、またはネットワークから直接、ロードされても良い。また、ディスク９２１に代えて他の着脱可能な記録媒体（例えば、ＤＶＤやメモリカード等）を介して、プログラムがコンピュータシステム９００に読み込まれても良い。

プログラムは、コンピュータの詳細を示す９０１に、重要技術語取得装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

なお、上述したコンピュータシステム９００は、サーバまたは据え置き型のＰＣであるが、重要技術語取得装置１は、例えば、タブレット端末やスマートフォンやノートＰＣといった、携帯端末で実現されても良い。この場合、例えば、キーボード９０２およびマウス９０３はタッチパネルに、ディスクドライブ９０５はメモリカードスロットに、ディスク９２１はメモリカードに、それぞれ置き換えられることが望ましい。図示しないサーバや端末装置等も、基本的なハードウェア構成は、上記と同様で良い。ただし、以上は例示であり、重要技術語取得装置１を実現するコンピュータのハードウェア構成は問わない。

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であっても良い。すなわち、一のコンピュータが集中処理を行ってもよく、あるいは複数のコンピュータが分散処理を行っても良い。

また、上記実施の形態において、一の装置に存在する２以上の通信手段（受信部１５、送信部１６など）は、物理的に一の媒体で実現されてもよいことは言うまでもない。

また、上記実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されても良い。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる重要技術語取得装置は、特許文書から重要度が高い技術語を的確に取得できるという効果を有し、重要技術語取得装置等として有用である。

１重要技術語取得装置
１１格納部
１２受付部
１３処理部
１４出力部
１５受信部
１６送信部
１１１特許文書格納部
１１２表現格納部
１３１技術語候補取得部
１３２出現箇所決定部
１３３スコア取得部
１３４重要技術語取得部
１４１重要技術語出力部
１３１１取得手段
１３１２削除手段
１３３１構造情報構築手段
１３３２スコア算出手段

Claims

予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、
前記特許文書における前記技術語候補の１以上の出現箇所を決定する出現箇所決定部と、
前記１以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得部と、
前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、
前記重要技術語を出力する重要技術語出力部とを具備する重要技術語取得装置。
前記技術語候補条件は、１以上の形容詞と１以上の名詞の集合であることである請求項１記載の重要技術語取得装置。
前記技術語候補取得部は、
前記技術語候補条件を満たす用語である技術語候補を、前記特許文書から取得する取得手段と、
前記取得手段が取得した文字列のうち、ノイズであると判断される条件であるノイズ条件を満たす文字列を削除する削除手段とを具備する請求項１または請求項２記載の重要技術語取得装置。
前記出現箇所決定部は、
前記技術語候補が含まれる文の種類を決定する、または前記技術語候補が含まれる書類を決定する、または前記技術語候補が含まれる明細書内のタグ項目を決定し、
前記スコア取得部は、
前記技術語候補が含まれる文の種類に応じて異なるスコアを取得する、または前記技術語候補が含まれる書類に応じて異なるスコアを取得する、または前記技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得する請求項１から請求項３いずれか一項に記載の重要技術語取得装置。
課題を取得するための表現である１以上の課題手がかり表現が格納される課題手がかり表現格納部をさらに具備し、
前記出現箇所決定部は、
前記技術語候補が、前記１以上の課題手がかり表現を含む重要詳細文に含まれる場合に、当該技術語候補が含まれる文の種類を「重要詳細文」であると決定し、前記技術語候補が含まれる書類を決定し、かつ前記技術語候補が含まれる明細書内のタグ項目を決定し、
前記スコア取得部は、
前記出現箇所決定部が決定した前記文の種類、前記書類、および前記タグ項目に応じて、スコアを取得する請求項１から請求項４いずれか一項に記載の重要技術語取得装置。
前記出現箇所決定部は、
前記技術語候補が、前記１以上の課題手がかり表現を含む重要詳細文に含まれる場合に、当該技術語候補が含まれる文の種類を「重要詳細文」であると決定し、
前記技術語候補が、前記重要詳細文以外の文に含まれる場合に、当該技術語候補が含まれる文の種類を「一般詳細文」であると決定し、
前記技術語候補が、前記技術語候補が要約書に含まれる場合に、当該技術語候補が含まれる書類を「要約書」と決定し、
前記技術語候補が、特定の請求項に含まれる場合に、当該技術語候補が含まれるタグ項目を「特定の請求項」と決定し、
前記技術語候補が、明細書の中の符号の説明の項目に含まれる場合に、当該技術語候補が含まれるタグ項目を「符号の説明」と決定し、
前記スコア取得部は、
前記技術語候補取得部が取得した技術語候補、当該技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、当該技術語候補と、前記文の種類、書類、およびタグ項目の間にエッジを付加した有向グラフを構築する構造情報構築手段と、
前記有向グラフに対して、ページランクのアルゴリズムにより、前記技術語候補のノードのスコアを算出するスコア算出手段とを具備する請求項５記載の重要技術語取得装置。
技術語候補取得部、出現箇所決定部、スコア取得部、重要技術語取得部、および重要技術語出力部によって実現される重要技術語取得方法であって、
前記技術語候補取得部が、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得ステップと、
前記出現箇所決定部が、前記特許文書における前記技術語候補の１以上の出現箇所を決定する出現箇所決定ステップと、
前記スコア取得部が、前記１以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得ステップと、
前記重要技術語取得部が、前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得ステップと、
前記重要技術語出力部が、前記重要技術語を出力する重要技術語出力ステップとを具備する重要技術語取得方法。
コンピュータを、
予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、
前記特許文書における前記技術語候補の１以上の出現箇所を決定する出現箇所決定部と、
前記１以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得部と、
前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、
前記重要技術語を出力する重要技術語出力部として機能させるためのプログラム。