JP2022054879A

JP2022054879A - 関連表現抽出装置及び関連表現抽出方法

Info

Publication number: JP2022054879A
Application number: JP2020162131A
Authority: JP
Inventors: 章井奥; Akira Ioku; 秀樹林; Hideki Hayashi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-04-07
Anticipated expiration: 2040-09-28
Also published as: US20230359816A1; US12327083B2; JP7507647B2; WO2022064741A1; EP4198770A4; EP4198770A1

Abstract

【課題】検索クエリや質問文に係る関連表現の的確な抽出を状況に応じて可能とする。【解決手段】関連表現抽出装置１は、テキストデータの入力を受け入れ、受け入れたテキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方を行い、テキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の比較評価モデル２７、２８のいずれを用いて関連表現群データ２６を抽出するかを決定し、決定した比較評価モデル２７、２８を用いて、テキストデータの内容に関連する関連表現を関連表現群データ２６から抽出する。【選択図】図１

Description

本発明は、関連表現抽出装置及び関連表現抽出方法に関する。

深層学習によるEnd-to-End学習（後述の評価モデル２、あるいは「第二の比較評価モデル」）は、従来からの、単語の出現統計や構文解析などの基礎解析（後述の評価モデル１、テキスト間比較の場合は頻度統計を活用し単語等の頻度をもとに類似度を把握する方式であり後述の「第一の比較評価モデル」）とは異なる機構により、対話、情報推薦、ガイドに伴う、自然言語を対象とする解析の可能性を広げている。

例えば機械翻訳では大量の対訳データを用いてEnd-to-End学習を行うことにより、構文木や述語項構造などの中間状態を必要とせずに高精度な翻訳を実現している。

しかし、どのタスクでも大量のデータを用意できるわけではない。そのようなタスクでは基礎解析結果を重視することにより、精度を改善することができると考えられる。また、特徴の異なる評価モデルの使い分けによって精度の改善が期待できる。このような考え方で効果的な質問応答システムを実現する目的で、非特許文献１は、次のような評価モデル１と評価モデル２を適宜選択する方式を採っている。

評価モデル１は、入力された質問文と用意された回答候補などの文との記号マッチング（出現単語等の一致）結果が影響する度合いが大きい評価方式であり、評価モデル２は、前記影響度合いが評価モデル１よりも軽微との考えで深層学習を用いている。

他方、効果的な知的学習支援を実現するための検討が進められてきている。その成果は、学習支援だけでなく、対話、情報推薦、ガイドなど、ユーザとの適応的なインストラクションを要するシステム全般に大きな影響を与えてきた。

「学習工学」等と称される技術領域では、効果的な知的学習支援を実現するために、主に以下に示す４要素の観点で検討が進められているが、適応的なインストラクションを検索システムにおいて効果的に実現する技術としても見なしうる。
（１）「領域モデル」：教育対象の知識を表現
（２）「学習者モデル」：学習状態や進捗状況を表現
（３）「指導モデル」：指導戦略を表現
（４）「ＵＩモデル」：ユーザーインタフェースやインタラクションを表現

坂田亘，他３名，"行政対話システムにおける検索エンジンTSUBAKIとBERTを併用したFAQ検索の高度化"，言語処理学会第２５回年次大会発表論文集，［online］，２０１９年３月，言語処理学会，［令和２年７月２７日検索］，インターネット<URL:https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F5-1.pdf>

「学習工学」等においては、効果的な知的学習支援を実現するために、個々の学習者にとって適切で効果的な支援を意図して、学習者の状態の特徴（一例として「学習者モデル」）に応じた、適応的支援、すなわち学びを促す情報（問題、説明、ヒント、場面など）の生成・提示・推薦、問題演習や訓練における問題系列の組み立て方、学びを指導する方略（指導方略）、学習者との対話を進める方略などが研究対象となっている。

検索システムや対話システムにおいても、非特許文献１に存在しない情報の獲得を行う主体となる検索者や質問者の状態の考慮（「学習者モデル」相当の考慮）は、適応的なインストラクションの効果の向上において、有効な課題と考えられる。

本発明は上記の課題に鑑みてなされたもので、関連表現の抽出における評価モデルの選択に際して学習工学における学習者モデルなどのような、検索者や質問者の状態（前提知識の多寡等）を考慮することで、入力されたテキスト等の関連表現の、的確な抽出を可能とする関連表現抽出装置及び関連表現抽出方法を提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う関連表現抽出装置は、入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、関連表現抽出装置はプロセッサ及びメモリを有し、メモリには、少なくともテキストデータの内容に対する回答を含む関連表現群データと、テキストデータと関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、プロセッサは、テキストデータの入力を受け入れ、受け入れたテキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方を行い、テキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の比較評価モデルのいずれを用いて関連表現群データを抽出するかを決定し、決定した比較評価モデルを用いて、テキストデータの内容に関連する関連表現を関連表現群データから抽出する。

本発明によれば、検索クエリや質問文に係る関連表現の的確な抽出を状況に応じて可能とする関連表現抽出装置及び関連表現抽出方法を実現することができる。

実施例１に係る関連表現抽出装置の概略構成を示す図である。実施例１に係る関連表現抽出装置の動作の概要を説明するためのフローチャートである。実施例１に係る関連表現抽出装置の動作の一例を説明するためのフローチャートである。実施例１に係る関連表現抽出装置の比較評価モデルの選択・特定動作の一例を説明するためのフローチャートである。実施例１に係る関連表現抽出装置の比較評価モデルの選択・特定動作の他の例を説明するためのフローチャートである。実施例１に係る関連表現抽出装置の比較評価モデルの選択・特定動作のまた他の例を説明するためのフローチャートである。実施例１に係る関連表現抽出装置の比較評価モデルの選択・特定動作のさらに他の例を説明するためのフローチャートである。実施例２に係る関連表現抽出装置の概略構成を示す図である。実施例２に係る関連表現抽出装置の動作の概要を説明するためのフローチャートである。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。

また、以下の説明では、情報の一例として「ｘｘｘデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘデータ」を「ｘｘｘテーブル」と言うことができる。さらに、「ｘｘｘデータ」を単に「ｘｘｘ」と言うこともある。そして、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。

なお、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central Processing Unit））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又は通信インターフェースデバイス（例えばポート）を用いながら行うため、処理の主語がプログラムとされても良い。プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する計算機が行う処理としても良い。

上記課題を解決するための、本実施形態の関連表現抽出装置は、関連情報候補を表現しているテキストの構造パターン、そして、質問の類型やパターンに応じて、あるいは、入力文（検索クエリや質問文）と関連情報候補（回答候補）の類似度や関連度の大小に応じて、複数の評価モデルの選択を行うことで、対話、情報推薦など多くの自然言語を伴う情報解析の効果向上に資する。
評価モデルの選択基準としては、例えば（１）関連情報候補を表現しているテキストと入力文を構成するテキストとの比較結果としての関連度、類似度に基づくもの（２）ルールベース（質問の類型やパターン：専門的な質問か、一般的な質問かの判定に関するルール等）が挙げられる。

質問の類型やパターンに注目するのは、質問には、入力者（質問者）の状態等（学習者モデル）が反映される場合が少なくないためである。質問の類型やパターンに注目することは入力者（質問者等）の状態（一例として質問者の前提知識の多寡）を考慮することにもなり、入力者に対して適応性を高めたインタラクションの実現にも有用と考えられるためである。たとえば、"Shallow Question"、"Deep Question"は、質問の類型の一例である。ここに、Shallow Questionとは、相対的に回答が容易な問いであり、基本的にはテキストに陽に記載される基礎知識である。また、Deep Questionとは、相対的に難しい問いであり、回答にはさまざまな情報の統合が求められる。質問対象となる知識領域（対象領域）に関する理解の深化に伴い、"Shallow Question"よりも"Deep Question"による知識獲得の必要性が、質問者にとって高まっていくと考えられている（参考：瀬田和久，他２名，"オープンエンドな学習空間における主体的学びの知的支援"，人工知能、人工知能学会，２０２０年３月，第３５巻，第２号，ｐ２０８－２１７）。

評価モデルとしては、本実施形態において以下が典型的な選択肢として用意される。
すなわち、評価モデル１（第一の比較評価モデル）として、単語等の頻度統計（テキスト間比較の場合は頻度統計を活用し単語等の頻度をもとに類似度を把握する方式）、構文解析などの基礎解析でわかる情報をもとにした方式（例：記号マッチング方式）が、評価モデル２（第二の比較評価モデル）として深層学習など、基礎解析（各言語の文法情報を外部知識として与えることが必須ではない）方式が好適な例として挙げられる。

双方の評価モデルの選択においては、入力文（検索クエリや質問文等）が求めている情報がテキストとして陽に記載される知識である、と見なせるか否かを指針とする。テキストとして陽に記載される知識と見なせる好適な例は、入力文のキーワードが関連表現候補群に存在する場合である。その場合、入力文(検索クエリや質問文など)と関連表現候補群の一部とを比較すると、形態素解析や構文解析で得られる情報に基づく単語等の出現頻度などに関する共通性が高く、その共通性が評価結果に反映されやすい評価モデルを選択する。

・評価モデル１を選択する場合の考え方：
入力文で求めている情報がテキストに陽に表現される知識であり、情報をそのまま引用することが回答として相応しい場合に適する。あらかじめ用意された質問文と回答文のぺアのなかからの選択だけで対応しやすい状況であり、特に入力文の重要なキーワードが関連表現候補に同様に存在することが確認できた場合には、関連表現候補と入力文とに同一のキーワードが同様に用いられているので入力文との単語等のマッチングの度合いが比較的大きく、評価モデル１の結果に従って関連表現を回答文として採用すればよいとみなす(評価モデル１による評価スコアの大小を信用すればよい)。

・評価モデル２を選択する場合の考え方：
関連表現候補の部分的な情報をそのまま引用することが回答として相応しくない場合に適する。あらかじめ用意された質問文と回答文のぺアのなかからの選択だけでは対応しにくい状況であり、同義語や類義語も含めた解釈や複数の情報を統合解釈を行った上で関連表現候補群から回答となる情報を特定したうえで、回答を構築すべきような状況が想定される。このような想定においては、評価モデル１の評価値ではなく、評価モデル２の評価値を採用する。

関連表現候補群のなかの部分的な情報をそのまま引用することが回答として相応しいか否かの選択において、質問の類型やパターンにも注目する。前述のように、質問の類型やパターンに注目することは入力者（質問者等）の状態（一例として質問者の前提知識の多寡）を考慮することにもなり、入力者に対して適応性を高めたインタラクションの実現にも有用と考えられるためである。

一例として、関連表現候補群のなかの部分的な情報をそのまま引用することが回答として相応しい（したがって、前述のように評価モデル１を選択する）のは、Shallow Questionに回答する場合とみなす。Shallow Questionは相対的に回答が容易な問いであり、基本的にはテキストとして陽に記載される基礎知識であると想定される為である。他方、Deep Questionは、相対的に難しい問いであり、回答にはさまざまな情報の統合が求められる。相対的に部分的な情報をそのまま引用することは相応しくない（したがって、評価モデル２を選択する）。

また、本明細書全体を通じて、「関連表現」は広い意味を包含する。一例として、関連表現抽出装置が文書検索に用いられる場合、検索クエリに対してこのクエリにマッチする表現が関連表現であり、関連表現抽出装置が自然対話システムとして用いられる場合、質問文が入力されたときにこの質問にマッチする応答文が関連表現であり、関連表現抽出装置が自動翻訳システムとして用いられる場合、入力された日本語にマッチする英語が関連表現である。

図１は、本実施例の関連表現抽出装置の構成図である。

図１に示す関連表現抽出装置１は、各種情報処理が可能な装置、一例としてコンピュータ等の情報処理装置である。関連表現抽出装置１は、プロセッサ１０、メモリ２０を有し、さらに、外部ネットワーク１００との通信を行う通信部４０を有する。さらに、関連表現抽出装置１は、必要に応じて、マウス、キーボード等の入力部、ディスプレイ等の画面部を有する。

プロセッサは、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array）等である。メモリは、例えばＨＤＤ（Hard Disk Drive）などの磁気記憶媒体、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＳＳＤ（Solid State Drive）などの半導体記憶媒体等を有する。また、ＤＶＤ（Digital Versatile Disk）等の光ディスク及び光ディスクドライブの組み合わせもメモリとして用いられる。その他、磁気テープメディアなどの公知の記憶媒体もメモリとして用いられる。

メモリには、ファームウェアなどのプログラムが格納されている。関連表現抽出装置１の動作開始時（例えば電源投入時）にファームウェア等のプログラムをこのメモリから読み出して実行し、関連表現抽出装置１の全体制御を行う。また、メモリには、プログラム以外にも、関連表現抽出装置１の各処理に必要なデータ等が格納されている。

なお、本実施例の関連表現抽出装置１は、複数の情報処理装置が通信ネットワークを介して通信可能に構成された、いわゆるクラウドにより構成されてもよい。

本実施例の関連表現抽出装置１のメモリ２０には、プログラムとして、類型化プログラム２１、構造パターン判定プログラム２２、評価モデル決定プログラム２３、関連表現抽出プログラム２４及び前処理プログラム２５が格納されており、これらプログラムが実行されることで、それぞれのプログラムに対応した機能部が実現される。それぞれのプログラムに対応した機能部が行う機能については後に詳述する。

また、本実施例の関連表現抽出装置１のメモリ２０には、データとして関連表現候補群データ２６、第一の比較評価モデル２７、第二の比較評価モデル２８、及び典型的表現パターン２９が格納されている。

関連表現候補群データ２６には、ＦＡＱ等から入手した質問文Ｑと回答文Ａとがペアとなって格納されている。但し、Ｑ＆Ａがペアで格納されることは必須ではない。関連表現候補群データ２６は関連表現候補群の全体を参照することも、その一部分を参照することも可能である。質問文Ｑについては後述する典型的表現パターンを判別しうるテンプレート的なものであってもよい。第一の比較評価モデル２７及び第二の比較評価モデル２８については既に説明したとおりである。典型的表現パターン２９は、上述した"Shallow Question"及び"Deep Question"の特徴を表す典型的表現パターンがその一例である。

次に、図２～図７のフローチャートを参照して、本実施例の関連表現抽出装置１の動作について説明する。

まず、図２は、本実施例の関連表現抽出装置１の動作の概要を説明するためのフローチャートである。

外部ネットワーク１００等からを介して入力された検索クエリ（検索語、検索文）に基づいて、関連表現抽出装置１は、類型化プログラム２１により入力（入力者属性や入力内容等）の類型化を行う（ステップＳ１００、以下「処理Ａ」ということがある）。また、関連表現抽出装置１は、構造パターン判定プログラム２２により、入力情報（検索クエリや質問文）で探したい情報（知識等）を含む対象（一例として、関連表現候補群）の構造パターンを判定する（ステップＳ１０１、以下「処理Ｂ」ということがある）。

次いで、関連表現抽出装置１は、評価モデル決定プログラム２３により、ステップＳ１００、Ｓ１０１で行った類型化処理及び構造パターン判定処理の少なくとも一方に基づいて、評価モデル（第一の比較評価モデル２７または第二の比較評価モデル２８のいずれか）を決定する（ステップＳ１０２、以下「処理Ｃ」ということがある）。

そして、関連表現抽出装置１は、関連表現抽出プログラム２４により、評価モデル決定プログラム２３が決定した評価モデルを用いて、関連表現候補群データ２６から、検索クエリにマッチする順に関連表現候補をランキングし、このランキングに基づいて検索クエリに対する回答を決定する（ステップＳ１０３、以下「処理Ｄ」ということがある）。

次に、図３～図７のフローチャートを参照して、本実施例の関連表現抽出装置１の具体的な動作について説明する。

図３は、本実施例の関連表現抽出装置１の動作の一例を説明するためのフローチャートである。

外部ネットワーク１００等からを介して入力された検索クエリ（検索語、検索文）に基づいて、関連表現抽出装置１は、まず、前処理プログラム２５により検索クエリの入力解析（前処理）を行う（ステップＳ２００）。前処理プログラム２５は、一般的な検索システムにおけるいわゆる前処理動作を行う。具体的には、前処理プログラム２５は、例えば形態素解析の手法等を用いて検索クエリを文節単位、さらには単語単位に分割し、「てにをは」といった助詞を削除する。さらに、前処理プログラム２５は、後述する評価モデル決定に必要な前処理を行う。具体的には、前処理プログラム２５は、検索クエリ等を分類する、検索クエリ等に回答に必要な情報が欠落しているかどうかを判定する、検索クエリ等が法律条文に関するものであればこの検索クエリ等が要件の部分を訊ねているものかあるいは但し書きの部分を訊ねているものか等の法律の構成要素の分類を判定する、さらには検索クエリ等の類型、パターン（上述したShallow QuestionであるかDeep Questionであるか）を評価する。

次に、関連表現抽出装置１は、類型化プログラム２１、構造パターン判定プログラム２２及び評価モデル決定プログラム２３により、入力者属性や入力内容等に応じた比較評価モデル（第一の比較評価モデル２７、第二の比較評価モデル２８）の選択、特定を行う（ステップＳ２０１）。ステップＳ２０１の具体的な処理については図４～図７を参照して後述する。

次に、関連表現抽出装置１は、関連表現抽出プログラム２４により、関連表現候補群データ２６から関連表現候補を取得する（ステップＳ２０２）。そして、関連表現抽出装置１は、関連表現抽出プログラム２４により、ステップＳ２０１において特定した比較評価モデルを用いて、入力である検索クエリと関連表現候補との比較評価を実行する（ステップＳ２０３）。そして、関連表現抽出装置１は、ステップＳ２０３の評価結果に基づいて、関連表現抽出プログラム２４により、関連表現候補をランキングする（ステップＳ２０４）。これにより、回答文Ａが確定する。

図４は、本実施例の関連表現抽出装置１の比較評価モデルの選択・特定動作の一例を説明するためのフローチャートであり、図３のステップＳ２０１の詳細動作を説明するためのフローチャートである。

まず、関連表現抽出装置１は、類型化プログラム２１により、入力である検索クエリと典型的表現パターン２９との比較を行う（ステップＳ３００）。ここでの典型的表現パターン２９は、Shallow Question及びDeep Questionの特徴をそれぞれよく表す典型的表現パターンである。

類型化プログラム２１は、一例として、質問文Ｑの自然言語解析により、質問文ＱがShallow Questionの特徴またはDeep Questionの特徴のいずれに近いかを判定する。あるいは、類型化プログラム２１は、質問文Ｑの類型の判定が難しい場合（前記質問文Ｑが、Shallow Questionの特徴とDeep Questionの特徴を同程度に兼ね備えているような場合）などには、前処理プログラム２５と協同して、入力者の状態、一例として、専門家か一般人かを判定するルールを保持し、このルールによる判定を行うことができるＱ＆Ａを入力者との間で行い、このＱ＆Ａに基づいて入力者の状態を判定し、それを質問文の類型化の判定に勘案する。入力者が知識量が多い専門家であると判定したら、回答に際して深い考察を伴い行間を読み解く必要性が高いような質問が投入されている、すなわち、質問文ＱはDeep Questionであるとみなし、他方、入力者が知識量が少ない一般人であると判定したら、表面的で一意な解を持つ基本的な問い、すなわち、質問文ＱはShallow Questionであるとみなし、質問類型の判定結果として扱う。さらに、同じ話題についてより多くの情報を引き出すための質問（「深堀質問」）と、別の話題に移行する質問（「話題転換質問」といった類型を用意し、入力文を話題の深さと広さで把握し、話題を広くする「話題転換質問」の場合は、"Deep Question"と同様に扱い、「深堀質問」が続く場合には、"Shallow Question"相当として扱うといった判定も、本発明の趣旨を逸脱しない範囲で採用可能である。

次いで、関連表現抽出装置１は、評価モデル決定プログラム２３により、ステップＳ３００の判定結果に基づいて比較評価モデルを選択する（ステップＳ３０１）。ここでは、評価モデル決定プログラム２３は、質問文ＱがShallow Questionであると判定されたら、第一の比較評価モデル２７を選択する。一方、質問文ＱがDeep Questionであると判定されたら、第二の比較評価モデル２８を選択する。

図５は、本実施例の関連表現抽出装置１の比較評価モデルの選択・特定動作の他の例を説明するためのフローチャートである。

まず、関連表現抽出装置１は、構造パターン判定プログラム２２により、関連表現候補群データ２６から関連表現候補を取得する（ステップＳ４００）。次に、関連表現抽出装置１は、構造パターン判定プログラム２２により、入力である質問文Ｑと関連表現候補とを比較評価し、第一の比較評価モデル２７に基づいてその類似度を算出する（ステップＳ４０１）。

この類似度の算定では、関連表現候補の重要な構成要素と考えられる主題を示す単語等が、質問文の主題を示す単語等とマッチする場合には、スコアが大きくなるような(類似度を示す指標が大きくなるような)加重操作をしてもよい。たとえば、質問文Ｑが「○○はいつ開始されるのか？」というものであった場合に、構造パターン判定プログラム２２は、質問文Ｑが何かしらの主題についてのものであると判定し、関連表現候補に含まれる主題部分の重み付けをそれ以外の部分の重み付けより重くする。そして、入力である質問文Ｑと関連表現候補との類似度を再度算出する。

次いで、関連表現抽出装置１は、類型化プログラム２１及び前処理プログラム２５により、質問文Ｑの類型化を行う。一例として、類型化プログラム２１及び前処理プログラム２５は、類似度の改善量（つまり前記加重時の類似度が加重前の変化量）が閾値以上であれば、○○を主題に含む関連表現候補が存在する可能性が高いと判定し（ステップＳ４０２においてＹＥＳ）、ステップＳ４０３に移行する。一方、改善量が閾値を下回ったら、○○を主題に含む関連表現候補が存在する可能性があまり高くないと判定し（ステップＳ４０２においてＮＯ）、ステップＳ４０４に移行する。

ステップＳ４０３では、類型化プログラム２１が、質問文Ｑの類型がShallow Questionであると判定する。一方、ステップＳ４０４では、類型化プログラム２１が、質問文Ｑの類型がDeep Questionであると判定する。

この後、関連表現抽出装置１は、評価モデル決定プログラム２３により、比較評価モデルを選択する（ステップＳ４０５）。ここでは、評価モデル決定プログラム２３は、質問文Ｑの類型がShallow Questionであると判定されたら、第一の比較評価モデル２７を選択する。一方、質問文Ｑの類型がDeep Questionであると判定されたら、第二の比較評価モデル２８を選択する。

図６は、本実施例の関連表現抽出装置１の比較評価モデルの選択・特定動作のまた他の例を説明するためのフローチャートである。

まず、関連表現抽出装置１は、構造パターン判定プログラム２２により、関連表現候補群データ２６から関連表現候補を取得する（ステップＳ５００）。次に、関連表現抽出装置１は、構造パターン判定プログラム２２により、入力である質問文Ｑと関連表現候補とを比較評価し、第一の比較評価モデル２７に基づいてその類似度を算出する（ステップＳ５０１）。

この類似度の算定では、関連表現候補の重要な構成要素と考えられる主題を示す単語等が、質問文の主題を示す単語等とマッチする場合には、スコアが大きくなるような(類似度を示す指標が大きくなるような)加重操作をしてもよい。たとえば、質問文Ｑが「○○はいつ開始されるのか？」というものであった場合に、構造パターン判定プログラム２２は、質問文Ｑが何かしらの時期についてのものであると判定し、関連表現候補に含まれる時期に関する情報の重み付けをそれ以外の部分の重み付けより重くする。そして、入力である質問文Ｑと関連表現候補との類似度を再度算出する。

次いで、関連表現抽出装置１は、類型化プログラム２１及び前処理プログラム２５により、質問文Ｑの類型化を行う。一例として、類型化プログラム２１及び前処理プログラム２５は、

類似度の改善量（つまり変化量）が閾値以上であれば、○○を含み、時期を説明する関連表現候補が存在する可能性が高いと判定し（ステップＳ５０２においてＹＥＳ）、ステップＳ５０３に移行する。一方、改善量が閾値を下回ったら、○○を主題に含む関連表現候補が存在する可能性があまり高くないと判定し（ステップＳ５０２においてＮＯ）、ステップＳ５０４に移行する。

ステップＳ５０３では、類型化プログラム２１が、質問文Ｑの類型がShallow Questionであると判定する。一方、ステップＳ５０４では、類型化プログラム２１が、質問文Ｑの類型がDeep Questionであると判定する。

この後、関連表現抽出装置１は、評価モデル決定プログラム２３により、比較評価モデルを選択する（ステップＳ５０５）。ここでは、評価モデル決定プログラム２３は、質問文Ｑの類型がShallow Questionであると判定されたら、第一の比較評価モデル２７を選択する。一方、質問文Ｑの類型がDeep Questionであると判定されたら、第二の比較評価モデル２８を選択する。

図７は、本実施例の関連表現抽出装置１の比較評価モデルの選択・特定動作のさらに他の例を説明するためのフローチャートである。

まず、関連表現抽出装置１は、類型化プログラム２１により、入力者の属性や状態を特定する（ステップＳ６００）。ここに、入力者の属性には、入力者が専門家であるか一般人であるかという情報が含まれ、入力者の状態には、入力者の知識量が含まれる。

類型化プログラム２１による入力者の属性や状態の特定動作は、一例として、入力者自身が自身の状態を関連表現抽出装置１に入力する、あるいは関連表現抽出装置１に教示し、入力者の入力等に基づいて特定することにより行われる。このため、関連表現抽出装置１は、検索クエリの入力に先立って入力者に対して新人か否か、専門家か否かを判定するためのガイド質問を提示し、入力者がこのガイド質問に対して回答する。類型化プログラム２１は、このガイド質問の回答に基づいて入力者の状態を判定する。

あるいは、類型化プログラム２１は、これまで入力者が入力したクエリの内容から、入力者の状態を判定する。なお、ステップＳ６００の特定において、類型化プログラム２１は、質問文Ｑの表現を解析等することはない。

次いで、類型化プログラム２１は、入力者の知識量が少ないと判定したら（ステップＳ６０１においてＹＥＳ）、ステップＳ６０２に移行する。一方、類型化プログラム２１は、入力者の知識量が少なくないと判定したら（ステップＳ６０１においてＮＯ）、ステップＳ６０３に移行する。

ステップＳ６０２では、類型化プログラム２１が、質問文Ｑの類型がShallow Questionであると判定する。一方、ステップＳ６０３では、類型化プログラム２１が、質問文Ｑの類型がDeep Questionであると判定する。

この後、関連表現抽出装置１は、評価モデル決定プログラム２３により、比較評価モデルを選択する（ステップＳ６０４）。ここでは、評価モデル決定プログラム２３は、質問文Ｑの類型がShallow Questionであると判定されたら、第一の比較評価モデル２７を選択する。一方、質問文Ｑの類型がDeep Questionであると判定されたら、第二の比較評価モデル２８を選択する。

以上詳細に説明したように、本実施例の関連表現抽出装置１によれば、質問文Ｑを入力する入力者の状態等（学習モデル）に基づいて比較評価モデルを適切に選択することができ、これにより、質問文Ｑに対してより適切な回答文Ａを抽出することができる。よって、本実施例によれば、検索クエリや質問文に係る関連表現の的確な抽出を状況に応じて可能とする関連表現抽出装置１を実現することができる。

上述の実施例１の関連表現抽出装置１では、検索クエリ毎に比較評価モデルを選択していたが、複数の検索クエリをまとめて比較評価モデルを選択してもよい。

図８は、実施例２に係る関連表現抽出装置１の概略構成を示す図である。本実施例の関連表現抽出装置１は、類型化プログラム２１及び構造パターン判定プログラム２２を欠くかわりに、類似度算出プログラム３０を有する。類似度算出プログラム３０の動作については後述する。

図９は、本実施例の関連表現抽出装置１の動作の概要を説明するためのフローチャートである。

外部ネットワーク１００等からを介して入力された検索クエリ（検索語、検索文）に基づいて、関連表現抽出装置１は、まず、前処理プログラム２５により検索クエリの入力解析（前処理）を行う（ステップＳ８００）。前処理プログラム２５による処理は上述した実施例１の前処理プログラム２５と同一であるので、ここでの説明は省略する。

次に、関連表現抽出装置１は、複数の検索クエリ（図示例ではクエリ１～ｎ：ｎは自然数）についてステップＳ８０１及びＳ８０２の処理を行う。これらステップＳ８０１及びＳ８０２の処理はパラレルに行ってもよく、シーケンシャルに行ってもよい。

まず、関連表現抽出装置１は、類似度算出プログラム３０により、関連表現候補群データ２６から関連表現候補全体を取得する（ステップＳ８０１）。次いで、類似度算出プログラム３０は、検索クエリや質問文と関連表現候補群との比較評価を、類似度を算出することにより行う（ステップＳ８０２）。ここにいう類似度とは、検索クエリと個々の関連表現候補との単語ベースでの一致度をいう。

次いで、関連表現抽出装置１は、評価モデル決定プログラム２３により、クエリ１～ｎの類似度を比較する（ステップＳ８０３）。そして、評価モデル決定プログラム２３は、ステップＳ８０３の比較結果に基づいて比較評価モデルを決定する（ステップＳ８０４）。ステップＳ８０４における比較評価モデルの決定手法のうち、最も簡単な手法は、類似度が高い検索クエリと類似度が低い検索クエリとで比較評価モデルを区別する手法であり、多数決により比較評価モデルを決定する手法ともいえる。

そして、関連表現抽出装置１は、関連表現抽出プログラム２４により、ステップＳ８０４において特定した比較評価モデルを用いて、入力である検索クエリと関連表現候補との比較評価を実行し、この評価結果に基づいて、関連表現抽出プログラム２４により、関連表現候補をランキングする（ステップＳ８０５）。これにより、回答文Ａが確定する。

従って、本実施例によっても、実施例１の関連表現抽出装置１と同様の作用効果を得ることができる。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ等の広範囲のプログラムまたはスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１…関連表現抽出装置１０…プロセッサ２０…メモリ２１…類型化プログラム２２…構造パターン判定プログラム２３…評価モデル決定プログラム２４…関連表現抽出プログラム２５…前処理プログラム２６…関連表現候補群データ２７…第一の比較評価モデル２８…第二の比較評価モデル２９…典型的表現パターン３０…類似度算出プログラム４０…通信部１００…外部ネットワーク

Claims

入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、
前記関連表現抽出装置はプロセッサ及びメモリを有し、
前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
前記プロセッサは、
前記テキストデータの入力を受け入れ、
受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方を行い、
前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
ことを特徴とする関連表現抽出装置。
前記関連表現群データには、前記回答に対応する典型的質問が前記回答と組になって格納されていることを特徴とする請求項１に記載の関連表現抽出装置。
前記プロセッサは、前記テキストデータに対して単語単位の切り分け、品詞解析を含む形態素解析を行った後に受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの特定の少なくとも一方を行うことを特徴とする請求項１に記載の関連表現抽出装置。
前記メモリには、前記テキストデータの典型的表現パターンが格納され、
前記プロセッサは、受け入れた前記テキストデータと前記典型的表現パターンとを比較して第一の比較評価モデルまたは第二の比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定する
ことを特徴とする請求項３に記載の関連表現抽出装置。
前記プロセッサは、受け入れた前記テキストデータの内容が、単一の前記回答を用いて回答可能な第一の典型的表現パターンであるか、あるいは、複数の前記回答を用いて回答可能な第二の典型的表現パターンであるかに基づいて、前記第一の比較評価モデルまたは前記第二の比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定することを特徴とする請求項４に記載の関連表現抽出装置。
前記メモリには、前記テキストデータに含まれる単語の頻度を基準にした第一の比較評価モデルと、前記テキストデータに含まれる単語の表現揺らぎに強い第二の比較評価モデルとが格納されていることを特徴とする請求項５に記載の関連表現抽出装置。
前記プロセッサは、前記テキストデータの内容の特定の意味要素に該当する単語等の語句を抽出し、前記回答中に含まれる前記語句の重み付けを前記回答中に含まれる他の単語の重み付けより重くして、前記テキストデータと前記回答との類似度を算出し、この類似度が予め定めた閾値以上であれば前記第一の典型的表現パターンであると判定し、閾値を下回ったら前記第二の典型的表現パターンであると判定することを特徴とする請求項５に記載の関連表現抽出装置。
前記テキストデータの内容の特定の前記意味要素が、主題、５Ｗ１Ｈ（いつ、どこで、誰が、誰に、何を、どのように）の各要素、要件、効果、原則、例外、のいずれか一つあるいは複数であることを特徴とする請求項７に記載の関連表現抽出装置。
前記プロセッサは、前記テキストデータの内容の主題に関する主題意味要素を抽出し、前記回答中に含まれる前記主題意味要素の重み付けを前記回答中に含まれる他の意味要素の重み付けより重くして、前記テキストデータと前記回答との類似度を算出し、この類似度が予め定めた閾値以上であれば前記第一の典型的表現パターンであると判定し、閾値を下回ったら前記第二の典型的表現パターンであると判定することを特徴とする請求項５に記載の関連表現抽出装置。
前記プロセッサは、前記テキストデータを作成した入力者の知識量を、前記入力者が過去に入力した前記テキストデータから判断し、あるいは、前記入力者に対して前記知識量を問うガイド質問を送信して前記入力者がこのガイド質問に対して回答したガイド回答から判断し、前記知識量が予め定めた閾値を下回ったら前記第一の典型的表現パターンであると判定し、閾値以上であれば前記第二の典型的表現パターンであると判定することを特徴とする請求項５に記載の関連表現抽出装置。
入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、
前記関連表現抽出装置はプロセッサ及びメモリを有し、
前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
前記プロセッサは、
複数の前記テキストデータの入力を受け入れ、
受け入れた前記テキストデータと前記回答との類似度を、前記テキストデータと前記回答との単語の一致度により算出し、
算出した前記類似度に基づいて複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
ことを特徴とする関連表現抽出装置。
入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置による関連表現抽出方法であって、
前記関連表現抽出装置はプロセッサ及びメモリを有し、
前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
前記テキストデータの入力を受け入れ、
受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方を行い、
前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
ことを特徴とする関連表現抽出方法。