[go: up one dir, main page]

JP2022054879A - 関連表現抽出装置及び関連表現抽出方法 - Google Patents

関連表現抽出装置及び関連表現抽出方法 Download PDF

Info

Publication number
JP2022054879A
JP2022054879A JP2020162131A JP2020162131A JP2022054879A JP 2022054879 A JP2022054879 A JP 2022054879A JP 2020162131 A JP2020162131 A JP 2020162131A JP 2020162131 A JP2020162131 A JP 2020162131A JP 2022054879 A JP2022054879 A JP 2022054879A
Authority
JP
Japan
Prior art keywords
text data
related expression
extraction device
answer
comparative evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020162131A
Other languages
English (en)
Other versions
JP7507647B2 (ja
Inventor
章 井奥
Akira Ioku
秀樹 林
Hideki Hayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020162131A priority Critical patent/JP7507647B2/ja
Priority to PCT/JP2021/010897 priority patent/WO2022064741A1/ja
Priority to EP21871877.3A priority patent/EP4198770A4/en
Priority to US18/025,950 priority patent/US12327083B2/en
Publication of JP2022054879A publication Critical patent/JP2022054879A/ja
Application granted granted Critical
Publication of JP7507647B2 publication Critical patent/JP7507647B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索クエリや質問文に係る関連表現の的確な抽出を状況に応じて可能とする。【解決手段】関連表現抽出装置1は、テキストデータの入力を受け入れ、受け入れたテキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方を行い、テキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の比較評価モデル27、28のいずれを用いて関連表現群データ26を抽出するかを決定し、決定した比較評価モデル27、28を用いて、テキストデータの内容に関連する関連表現を関連表現群データ26から抽出する。【選択図】図1

Description

本発明は、関連表現抽出装置及び関連表現抽出方法に関する。
深層学習によるEnd-to-End学習(後述の評価モデル2、あるいは「第二の比較評価モデル」)は、従来からの、単語の出現統計や構文解析などの基礎解析(後述の評価モデル1、テキスト間比較の場合は頻度統計を活用し単語等の頻度をもとに類似度を把握する方式であり後述の「第一の比較評価モデル」)とは異なる機構により、対話、情報推薦、ガイドに伴う、自然言語を対象とする解析の可能性を広げている。
例えば機械翻訳では大量の対訳データを用いてEnd-to-End学習を行うことにより、構文木や述語項構造などの中間状態を必要とせずに高精度な翻訳を実現している。
しかし、どのタスクでも大量のデータを用意できるわけではない。そのようなタスクでは基礎解析結果を重視することにより、精度を改善することができると考えられる。また、特徴の異なる評価モデルの使い分けによって精度の改善が期待できる。このような考え方で効果的な質問応答システムを実現する目的で、非特許文献1は、次のような評価モデル1と評価モデル2を適宜選択する方式を採っている。
評価モデル1は、入力された質問文と用意された回答候補などの文との記号マッチング(出現単語等の一致)結果が影響する度合いが大きい評価方式であり、評価モデル2は、前記影響度合いが評価モデル1よりも軽微との考えで深層学習を用いている。
他方、効果的な知的学習支援を実現するための検討が進められてきている。その成果は、学習支援だけでなく、対話、情報推薦、ガイドなど、ユーザとの適応的なインストラクションを要するシステム全般に大きな影響を与えてきた。
「学習工学」等と称される技術領域では、効果的な知的学習支援を実現するために、主に以下に示す4要素の観点で検討が進められているが、適応的なインストラクションを検索システムにおいて効果的に実現する技術としても見なしうる。
(1)「領域モデル」:教育対象の知識を表現
(2)「学習者モデル」:学習状態や進捗状況を表現
(3)「指導モデル」:指導戦略を表現
(4)「UIモデル」:ユーザーインタフェースやインタラクションを表現
坂田亘,他3名,"行政対話システムにおける検索エンジンTSUBAKIとBERTを併用したFAQ検索の高度化",言語処理学会第25回年次大会発表論文集,[online],2019年3月,言語処理学会,[令和2年7月27日検索],インターネット<URL:https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F5-1.pdf>
「学習工学」等においては、効果的な知的学習支援を実現するために、個々の学習者にとって適切で効果的な支援を意図して、学習者の状態の特徴(一例として「学習者モデル」)に応じた、適応的支援、すなわち学びを促す情報(問題、説明、ヒント、場面など)の生成・提示・推薦、問題演習や訓練における問題系列の組み立て方、学びを指導する方略(指導方略)、学習者との対話を進める方略などが研究対象となっている。
検索システムや対話システムにおいても、非特許文献1に存在しない情報の獲得を行う主体となる検索者や質問者の状態の考慮(「学習者モデル」相当の考慮)は、適応的なインストラクションの効果の向上において、有効な課題と考えられる。
本発明は上記の課題に鑑みてなされたもので、関連表現の抽出における評価モデルの選択に際して学習工学における学習者モデルなどのような、検索者や質問者の状態(前提知識の多寡等)を考慮することで、入力されたテキスト等の関連表現の、的確な抽出を可能とする関連表現抽出装置及び関連表現抽出方法を提供することにある。
上記課題を解決すべく、本発明の一つの観点に従う関連表現抽出装置は、入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、関連表現抽出装置はプロセッサ及びメモリを有し、メモリには、少なくともテキストデータの内容に対する回答を含む関連表現群データと、テキストデータと関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、プロセッサは、テキストデータの入力を受け入れ、受け入れたテキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方を行い、テキストデータの類型化及びテキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の比較評価モデルのいずれを用いて関連表現群データを抽出するかを決定し、決定した比較評価モデルを用いて、テキストデータの内容に関連する関連表現を関連表現群データから抽出する。
本発明によれば、検索クエリや質問文に係る関連表現の的確な抽出を状況に応じて可能とする関連表現抽出装置及び関連表現抽出方法を実現することができる。
実施例1に係る関連表現抽出装置の概略構成を示す図である。 実施例1に係る関連表現抽出装置の動作の概要を説明するためのフローチャートである。 実施例1に係る関連表現抽出装置の動作の一例を説明するためのフローチャートである。 実施例1に係る関連表現抽出装置の比較評価モデルの選択・特定動作の一例を説明するためのフローチャートである。 実施例1に係る関連表現抽出装置の比較評価モデルの選択・特定動作の他の例を説明するためのフローチャートである。 実施例1に係る関連表現抽出装置の比較評価モデルの選択・特定動作のまた他の例を説明するためのフローチャートである。 実施例1に係る関連表現抽出装置の比較評価モデルの選択・特定動作のさらに他の例を説明するためのフローチャートである。 実施例2に係る関連表現抽出装置の概略構成を示す図である。 実施例2に係る関連表現抽出装置の動作の概要を説明するためのフローチャートである。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。
また、以下の説明では、情報の一例として「xxxデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「xxxデータ」を「xxxテーブル」と言うことができる。さらに、「xxxデータ」を単に「xxx」と言うこともある。そして、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。
なお、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU(Central Processing Unit))によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)及び/又は通信インターフェースデバイス(例えばポート)を用いながら行うため、処理の主語がプログラムとされても良い。プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する計算機が行う処理としても良い。
上記課題を解決するための、本実施形態の関連表現抽出装置は、関連情報候補を表現しているテキストの構造パターン、そして、質問の類型やパターンに応じて、あるいは、入力文(検索クエリや質問文)と関連情報候補(回答候補)の類似度や関連度の大小に応じて、複数の評価モデルの選択を行うことで、対話、情報推薦など多くの自然言語を伴う情報解析の効果向上に資する。
評価モデルの選択基準としては、例えば(1)関連情報候補を表現しているテキストと入力文を構成するテキストとの比較結果としての関連度、類似度に基づくもの(2)ルールベース(質問の類型やパターン:専門的な質問か、一般的な質問かの判定に関するルール等)が挙げられる。
質問の類型やパターンに注目するのは、質問には、入力者(質問者)の状態等(学習者モデル)が反映される場合が少なくないためである。質問の類型やパターンに注目することは入力者(質問者等)の状態(一例として質問者の前提知識の多寡)を考慮することにもなり、入力者に対して適応性を高めたインタラクションの実現にも有用と考えられるためである。たとえば、"Shallow Question"、"Deep Question"は、質問の類型の一例である。ここに、Shallow Questionとは、相対的に回答が容易な問いであり、基本的にはテキストに陽に記載される基礎知識である。また、Deep Questionとは、相対的に難しい問いであり、回答にはさまざまな情報の統合が求められる。質問対象となる知識領域(対象領域)に関する理解の深化に伴い、"Shallow Question"よりも"Deep Question"による知識獲得の必要性が、質問者にとって高まっていくと考えられている(参考:瀬田和久,他2名,"オープンエンドな学習空間における主体的学びの知的支援",人工知能、人工知能学会,2020年3月,第35巻,第2号,p208-217)。
評価モデルとしては、本実施形態において以下が典型的な選択肢として用意される。
すなわち、評価モデル1(第一の比較評価モデル)として、単語等の頻度統計(テキスト間比較の場合は頻度統計を活用し単語等の頻度をもとに類似度を把握する方式)、構文解析などの基礎解析でわかる情報をもとにした方式(例:記号マッチング方式)が、評価モデル2(第二の比較評価モデル)として深層学習など、基礎解析(各言語の文法情報を外部知識として与えることが必須ではない)方式が好適な例として挙げられる。
双方の評価モデルの選択においては、入力文(検索クエリや質問文等)が求めている情報がテキストとして陽に記載される知識である、と見なせるか否かを指針とする。テキストとして陽に記載される知識と見なせる好適な例は、入力文のキーワードが関連表現候補群に存在する場合である。その場合、入力文(検索クエリや質問文など)と関連表現候補群の一部とを比較すると、形態素解析や構文解析で得られる情報に基づく単語等の出現頻度などに関する共通性が高く、その共通性が評価結果に反映されやすい評価モデルを選択する。
・評価モデル1を選択する場合の考え方:
入力文で求めている情報がテキストに陽に表現される知識であり、情報をそのまま引用することが回答として相応しい場合に適する。あらかじめ用意された質問文と回答文のぺアのなかからの選択だけで対応しやすい状況であり、特に入力文の重要なキーワードが関連表現候補に同様に存在することが確認できた場合には、関連表現候補と入力文とに同一のキーワードが同様に用いられているので入力文との単語等のマッチングの度合いが比較的大きく、評価モデル1の結果に従って関連表現を回答文として採用すればよいとみなす(評価モデル1による評価スコアの大小を信用すればよい)。
・評価モデル2を選択する場合の考え方:
関連表現候補の部分的な情報をそのまま引用することが回答として相応しくない場合に適する。あらかじめ用意された質問文と回答文のぺアのなかからの選択だけでは対応しにくい状況であり、同義語や類義語も含めた解釈や複数の情報を統合解釈を行った上で関連表現候補群から回答となる情報を特定したうえで、回答を構築すべきような状況が想定される。このような想定においては、評価モデル1の評価値ではなく、評価モデル2の評価値を採用する。
関連表現候補群のなかの部分的な情報をそのまま引用することが回答として相応しいか否かの選択において、質問の類型やパターンにも注目する。前述のように、質問の類型やパターンに注目することは入力者(質問者等)の状態(一例として質問者の前提知識の多寡)を考慮することにもなり、入力者に対して適応性を高めたインタラクションの実現にも有用と考えられるためである。
一例として、関連表現候補群のなかの部分的な情報をそのまま引用することが回答として相応しい(したがって、前述のように評価モデル1を選択する)のは、Shallow Questionに回答する場合とみなす。Shallow Questionは相対的に回答が容易な問いであり、基本的にはテキストとして陽に記載される基礎知識であると想定される為である。他方、Deep Questionは、相対的に難しい問いであり、回答にはさまざまな情報の統合が求められる。相対的に部分的な情報をそのまま引用することは相応しくない(したがって、評価モデル2を選択する)。
また、本明細書全体を通じて、「関連表現」は広い意味を包含する。一例として、関連表現抽出装置が文書検索に用いられる場合、検索クエリに対してこのクエリにマッチする表現が関連表現であり、関連表現抽出装置が自然対話システムとして用いられる場合、質問文が入力されたときにこの質問にマッチする応答文が関連表現であり、関連表現抽出装置が自動翻訳システムとして用いられる場合、入力された日本語にマッチする英語が関連表現である。
図1は、本実施例の関連表現抽出装置の構成図である。
図1に示す関連表現抽出装置1は、各種情報処理が可能な装置、一例としてコンピュータ等の情報処理装置である。関連表現抽出装置1は、プロセッサ10、メモリ20を有し、さらに、外部ネットワーク100との通信を行う通信部40を有する。さらに、関連表現抽出装置1は、必要に応じて、マウス、キーボード等の入力部、ディスプレイ等の画面部を有する。
プロセッサは、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)等である。メモリは、例えばHDD(Hard Disk Drive)などの磁気記憶媒体、RAM(Random Access Memory)、ROM(Read Only Memory)、SSD(Solid State Drive)などの半導体記憶媒体等を有する。また、DVD(Digital Versatile Disk)等の光ディスク及び光ディスクドライブの組み合わせもメモリとして用いられる。その他、磁気テープメディアなどの公知の記憶媒体もメモリとして用いられる。
メモリには、ファームウェアなどのプログラムが格納されている。関連表現抽出装置1の動作開始時(例えば電源投入時)にファームウェア等のプログラムをこのメモリから読み出して実行し、関連表現抽出装置1の全体制御を行う。また、メモリには、プログラム以外にも、関連表現抽出装置1の各処理に必要なデータ等が格納されている。
なお、本実施例の関連表現抽出装置1は、複数の情報処理装置が通信ネットワークを介して通信可能に構成された、いわゆるクラウドにより構成されてもよい。
本実施例の関連表現抽出装置1のメモリ20には、プログラムとして、類型化プログラム21、構造パターン判定プログラム22、評価モデル決定プログラム23、関連表現抽出プログラム24及び前処理プログラム25が格納されており、これらプログラムが実行されることで、それぞれのプログラムに対応した機能部が実現される。それぞれのプログラムに対応した機能部が行う機能については後に詳述する。
また、本実施例の関連表現抽出装置1のメモリ20には、データとして関連表現候補群データ26、第一の比較評価モデル27、第二の比較評価モデル28、及び典型的表現パターン29が格納されている。
関連表現候補群データ26には、FAQ等から入手した質問文Qと回答文Aとがペアとなって格納されている。但し、Q&Aがペアで格納されることは必須ではない。関連表現候補群データ26は関連表現候補群の全体を参照することも、その一部分を参照することも可能である。質問文Qについては後述する典型的表現パターンを判別しうるテンプレート的なものであってもよい。第一の比較評価モデル27及び第二の比較評価モデル28については既に説明したとおりである。典型的表現パターン29は、上述した"Shallow Question"及び"Deep Question"の特徴を表す典型的表現パターンがその一例である。
次に、図2~図7のフローチャートを参照して、本実施例の関連表現抽出装置1の動作について説明する。
まず、図2は、本実施例の関連表現抽出装置1の動作の概要を説明するためのフローチャートである。
外部ネットワーク100等からを介して入力された検索クエリ(検索語、検索文)に基づいて、関連表現抽出装置1は、類型化プログラム21により入力(入力者属性や入力内容等)の類型化を行う(ステップS100、以下「処理A」ということがある)。また、関連表現抽出装置1は、構造パターン判定プログラム22により、入力情報(検索クエリや質問文)で探したい情報(知識等)を含む対象(一例として、関連表現候補群)の構造パターンを判定する(ステップS101、以下「処理B」ということがある)。
次いで、関連表現抽出装置1は、評価モデル決定プログラム23により、ステップS100、S101で行った類型化処理及び構造パターン判定処理の少なくとも一方に基づいて、評価モデル(第一の比較評価モデル27または第二の比較評価モデル28のいずれか)を決定する(ステップS102、以下「処理C」ということがある)。
そして、関連表現抽出装置1は、関連表現抽出プログラム24により、評価モデル決定プログラム23が決定した評価モデルを用いて、関連表現候補群データ26から、検索クエリにマッチする順に関連表現候補をランキングし、このランキングに基づいて検索クエリに対する回答を決定する(ステップS103、以下「処理D」ということがある)。
次に、図3~図7のフローチャートを参照して、本実施例の関連表現抽出装置1の具体的な動作について説明する。
図3は、本実施例の関連表現抽出装置1の動作の一例を説明するためのフローチャートである。
外部ネットワーク100等からを介して入力された検索クエリ(検索語、検索文)に基づいて、関連表現抽出装置1は、まず、前処理プログラム25により検索クエリの入力解析(前処理)を行う(ステップS200)。前処理プログラム25は、一般的な検索システムにおけるいわゆる前処理動作を行う。具体的には、前処理プログラム25は、例えば形態素解析の手法等を用いて検索クエリを文節単位、さらには単語単位に分割し、「てにをは」といった助詞を削除する。さらに、前処理プログラム25は、後述する評価モデル決定に必要な前処理を行う。具体的には、前処理プログラム25は、検索クエリ等を分類する、検索クエリ等に回答に必要な情報が欠落しているかどうかを判定する、検索クエリ等が法律条文に関するものであればこの検索クエリ等が要件の部分を訊ねているものかあるいは但し書きの部分を訊ねているものか等の法律の構成要素の分類を判定する、さらには検索クエリ等の類型、パターン(上述したShallow QuestionであるかDeep Questionであるか)を評価する。
次に、関連表現抽出装置1は、類型化プログラム21、構造パターン判定プログラム22及び評価モデル決定プログラム23により、入力者属性や入力内容等に応じた比較評価モデル(第一の比較評価モデル27、第二の比較評価モデル28)の選択、特定を行う(ステップS201)。ステップS201の具体的な処理については図4~図7を参照して後述する。
次に、関連表現抽出装置1は、関連表現抽出プログラム24により、関連表現候補群データ26から関連表現候補を取得する(ステップS202)。そして、関連表現抽出装置1は、関連表現抽出プログラム24により、ステップS201において特定した比較評価モデルを用いて、入力である検索クエリと関連表現候補との比較評価を実行する(ステップS203)。そして、関連表現抽出装置1は、ステップS203の評価結果に基づいて、関連表現抽出プログラム24により、関連表現候補をランキングする(ステップS204)。これにより、回答文Aが確定する。
図4は、本実施例の関連表現抽出装置1の比較評価モデルの選択・特定動作の一例を説明するためのフローチャートであり、図3のステップS201の詳細動作を説明するためのフローチャートである。
まず、関連表現抽出装置1は、類型化プログラム21により、入力である検索クエリと典型的表現パターン29との比較を行う(ステップS300)。ここでの典型的表現パターン29は、Shallow Question及びDeep Questionの特徴をそれぞれよく表す典型的表現パターンである。
類型化プログラム21は、一例として、質問文Qの自然言語解析により、質問文QがShallow Questionの特徴またはDeep Questionの特徴のいずれに近いかを判定する。あるいは、類型化プログラム21は、質問文Qの類型の判定が難しい場合(前記質問文Qが、Shallow Questionの特徴とDeep Questionの特徴を同程度に兼ね備えているような場合)などには、前処理プログラム25と協同して、入力者の状態、一例として、専門家か一般人かを判定するルールを保持し、このルールによる判定を行うことができるQ&Aを入力者との間で行い、このQ&Aに基づいて入力者の状態を判定し、それを質問文の類型化の判定に勘案する。入力者が知識量が多い専門家であると判定したら、回答に際して深い考察を伴い行間を読み解く必要性が高いような質問が投入されている、すなわち、質問文QはDeep Questionであるとみなし、他方、入力者が知識量が少ない一般人であると判定したら、表面的で一意な解を持つ基本的な問い、すなわち、質問文QはShallow Questionであるとみなし、質問類型の判定結果として扱う。さらに、同じ話題についてより多くの情報を引き出すための質問(「深堀質問」)と、別の話題に移行する質問(「話題転換質問」といった類型を用意し、入力文を話題の深さと広さで把握し、話題を広くする「話題転換質問」の場合は、"Deep Question"と同様に扱い、「深堀質問」が続く場合には、"Shallow Question"相当として扱うといった判定も、本発明の趣旨を逸脱しない範囲で採用可能である。
次いで、関連表現抽出装置1は、評価モデル決定プログラム23により、ステップS300の判定結果に基づいて比較評価モデルを選択する(ステップS301)。ここでは、評価モデル決定プログラム23は、質問文QがShallow Questionであると判定されたら、第一の比較評価モデル27を選択する。一方、質問文QがDeep Questionであると判定されたら、第二の比較評価モデル28を選択する。
図5は、本実施例の関連表現抽出装置1の比較評価モデルの選択・特定動作の他の例を説明するためのフローチャートである。
まず、関連表現抽出装置1は、構造パターン判定プログラム22により、関連表現候補群データ26から関連表現候補を取得する(ステップS400)。次に、関連表現抽出装置1は、構造パターン判定プログラム22により、入力である質問文Qと関連表現候補とを比較評価し、第一の比較評価モデル27に基づいてその類似度を算出する(ステップS401)。
この類似度の算定では、関連表現候補の重要な構成要素と考えられる主題を示す単語等が、質問文の主題を示す単語等とマッチする場合には、スコアが大きくなるような(類似度を示す指標が大きくなるような)加重操作をしてもよい。たとえば、質問文Qが「○○はいつ開始されるのか?」というものであった場合に、構造パターン判定プログラム22は、質問文Qが何かしらの主題についてのものであると判定し、関連表現候補に含まれる主題部分の重み付けをそれ以外の部分の重み付けより重くする。そして、入力である質問文Qと関連表現候補との類似度を再度算出する。
次いで、関連表現抽出装置1は、類型化プログラム21及び前処理プログラム25により、質問文Qの類型化を行う。一例として、類型化プログラム21及び前処理プログラム25は、類似度の改善量(つまり前記加重時の類似度が加重前の変化量)が閾値以上であれば、○○を主題に含む関連表現候補が存在する可能性が高いと判定し(ステップS402においてYES)、ステップS403に移行する。一方、改善量が閾値を下回ったら、○○を主題に含む関連表現候補が存在する可能性があまり高くないと判定し(ステップS402においてNO)、ステップS404に移行する。
ステップS403では、類型化プログラム21が、質問文Qの類型がShallow Questionであると判定する。一方、ステップS404では、類型化プログラム21が、質問文Qの類型がDeep Questionであると判定する。
この後、関連表現抽出装置1は、評価モデル決定プログラム23により、比較評価モデルを選択する(ステップS405)。ここでは、評価モデル決定プログラム23は、質問文Qの類型がShallow Questionであると判定されたら、第一の比較評価モデル27を選択する。一方、質問文Qの類型がDeep Questionであると判定されたら、第二の比較評価モデル28を選択する。
図6は、本実施例の関連表現抽出装置1の比較評価モデルの選択・特定動作のまた他の例を説明するためのフローチャートである。
まず、関連表現抽出装置1は、構造パターン判定プログラム22により、関連表現候補群データ26から関連表現候補を取得する(ステップS500)。次に、関連表現抽出装置1は、構造パターン判定プログラム22により、入力である質問文Qと関連表現候補とを比較評価し、第一の比較評価モデル27に基づいてその類似度を算出する(ステップS501)。
この類似度の算定では、関連表現候補の重要な構成要素と考えられる主題を示す単語等が、質問文の主題を示す単語等とマッチする場合には、スコアが大きくなるような(類似度を示す指標が大きくなるような)加重操作をしてもよい。たとえば、質問文Qが「○○はいつ開始されるのか?」というものであった場合に、構造パターン判定プログラム22は、質問文Qが何かしらの時期についてのものであると判定し、関連表現候補に含まれる時期に関する情報の重み付けをそれ以外の部分の重み付けより重くする。そして、入力である質問文Qと関連表現候補との類似度を再度算出する。
次いで、関連表現抽出装置1は、類型化プログラム21及び前処理プログラム25により、質問文Qの類型化を行う。一例として、類型化プログラム21及び前処理プログラム25は、
類似度の改善量(つまり変化量)が閾値以上であれば、○○を含み、時期を説明する関連表現候補が存在する可能性が高いと判定し(ステップS502においてYES)、ステップS503に移行する。一方、改善量が閾値を下回ったら、○○を主題に含む関連表現候補が存在する可能性があまり高くないと判定し(ステップS502においてNO)、ステップS504に移行する。
ステップS503では、類型化プログラム21が、質問文Qの類型がShallow Questionであると判定する。一方、ステップS504では、類型化プログラム21が、質問文Qの類型がDeep Questionであると判定する。
この後、関連表現抽出装置1は、評価モデル決定プログラム23により、比較評価モデルを選択する(ステップS505)。ここでは、評価モデル決定プログラム23は、質問文Qの類型がShallow Questionであると判定されたら、第一の比較評価モデル27を選択する。一方、質問文Qの類型がDeep Questionであると判定されたら、第二の比較評価モデル28を選択する。
図7は、本実施例の関連表現抽出装置1の比較評価モデルの選択・特定動作のさらに他の例を説明するためのフローチャートである。
まず、関連表現抽出装置1は、類型化プログラム21により、入力者の属性や状態を特定する(ステップS600)。ここに、入力者の属性には、入力者が専門家であるか一般人であるかという情報が含まれ、入力者の状態には、入力者の知識量が含まれる。
類型化プログラム21による入力者の属性や状態の特定動作は、一例として、入力者自身が自身の状態を関連表現抽出装置1に入力する、あるいは関連表現抽出装置1に教示し、入力者の入力等に基づいて特定することにより行われる。このため、関連表現抽出装置1は、検索クエリの入力に先立って入力者に対して新人か否か、専門家か否かを判定するためのガイド質問を提示し、入力者がこのガイド質問に対して回答する。類型化プログラム21は、このガイド質問の回答に基づいて入力者の状態を判定する。
あるいは、類型化プログラム21は、これまで入力者が入力したクエリの内容から、入力者の状態を判定する。なお、ステップS600の特定において、類型化プログラム21は、質問文Qの表現を解析等することはない。
次いで、類型化プログラム21は、入力者の知識量が少ないと判定したら(ステップS601においてYES)、ステップS602に移行する。一方、類型化プログラム21は、入力者の知識量が少なくないと判定したら(ステップS601においてNO)、ステップS603に移行する。
ステップS602では、類型化プログラム21が、質問文Qの類型がShallow Questionであると判定する。一方、ステップS603では、類型化プログラム21が、質問文Qの類型がDeep Questionであると判定する。
この後、関連表現抽出装置1は、評価モデル決定プログラム23により、比較評価モデルを選択する(ステップS604)。ここでは、評価モデル決定プログラム23は、質問文Qの類型がShallow Questionであると判定されたら、第一の比較評価モデル27を選択する。一方、質問文Qの類型がDeep Questionであると判定されたら、第二の比較評価モデル28を選択する。
以上詳細に説明したように、本実施例の関連表現抽出装置1によれば、質問文Qを入力する入力者の状態等(学習モデル)に基づいて比較評価モデルを適切に選択することができ、これにより、質問文Qに対してより適切な回答文Aを抽出することができる。よって、本実施例によれば、検索クエリや質問文に係る関連表現の的確な抽出を状況に応じて可能とする関連表現抽出装置1を実現することができる。
上述の実施例1の関連表現抽出装置1では、検索クエリ毎に比較評価モデルを選択していたが、複数の検索クエリをまとめて比較評価モデルを選択してもよい。
図8は、実施例2に係る関連表現抽出装置1の概略構成を示す図である。本実施例の関連表現抽出装置1は、類型化プログラム21及び構造パターン判定プログラム22を欠くかわりに、類似度算出プログラム30を有する。類似度算出プログラム30の動作については後述する。
図9は、本実施例の関連表現抽出装置1の動作の概要を説明するためのフローチャートである。
外部ネットワーク100等からを介して入力された検索クエリ(検索語、検索文)に基づいて、関連表現抽出装置1は、まず、前処理プログラム25により検索クエリの入力解析(前処理)を行う(ステップS800)。前処理プログラム25による処理は上述した実施例1の前処理プログラム25と同一であるので、ここでの説明は省略する。
次に、関連表現抽出装置1は、複数の検索クエリ(図示例ではクエリ1~n:nは自然数)についてステップS801及びS802の処理を行う。これらステップS801及びS802の処理はパラレルに行ってもよく、シーケンシャルに行ってもよい。
まず、関連表現抽出装置1は、類似度算出プログラム30により、関連表現候補群データ26から関連表現候補全体を取得する(ステップS801)。次いで、類似度算出プログラム30は、検索クエリや質問文と関連表現候補群との比較評価を、類似度を算出することにより行う(ステップS802)。ここにいう類似度とは、検索クエリと個々の関連表現候補との単語ベースでの一致度をいう。
次いで、関連表現抽出装置1は、評価モデル決定プログラム23により、クエリ1~nの類似度を比較する(ステップS803)。そして、評価モデル決定プログラム23は、ステップS803の比較結果に基づいて比較評価モデルを決定する(ステップS804)。ステップS804における比較評価モデルの決定手法のうち、最も簡単な手法は、類似度が高い検索クエリと類似度が低い検索クエリとで比較評価モデルを区別する手法であり、多数決により比較評価モデルを決定する手法ともいえる。
そして、関連表現抽出装置1は、関連表現抽出プログラム24により、ステップS804において特定した比較評価モデルを用いて、入力である検索クエリと関連表現候補との比較評価を実行し、この評価結果に基づいて、関連表現抽出プログラム24により、関連表現候補をランキングする(ステップS805)。これにより、回答文Aが確定する。
従って、本実施例によっても、実施例1の関連表現抽出装置1と同様の作用効果を得ることができる。
なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)、Python等の広範囲のプログラムまたはスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
1…関連表現抽出装置 10…プロセッサ 20…メモリ 21…類型化プログラム 22…構造パターン判定プログラム 23…評価モデル決定プログラム 24…関連表現抽出プログラム 25…前処理プログラム 26…関連表現候補群データ 27…第一の比較評価モデル 28…第二の比較評価モデル 29…典型的表現パターン 30…類似度算出プログラム 40…通信部 100…外部ネットワーク

Claims (12)

  1. 入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、
    前記関連表現抽出装置はプロセッサ及びメモリを有し、
    前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
    前記プロセッサは、
    前記テキストデータの入力を受け入れ、
    受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方を行い、
    前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
    決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
    ことを特徴とする関連表現抽出装置。
  2. 前記関連表現群データには、前記回答に対応する典型的質問が前記回答と組になって格納されていることを特徴とする請求項1に記載の関連表現抽出装置。
  3. 前記プロセッサは、前記テキストデータに対して単語単位の切り分け、品詞解析を含む形態素解析を行った後に受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの特定の少なくとも一方を行うことを特徴とする請求項1に記載の関連表現抽出装置。
  4. 前記メモリには、前記テキストデータの典型的表現パターンが格納され、
    前記プロセッサは、受け入れた前記テキストデータと前記典型的表現パターンとを比較して第一の比較評価モデルまたは第二の比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定する
    ことを特徴とする請求項3に記載の関連表現抽出装置。
  5. 前記プロセッサは、受け入れた前記テキストデータの内容が、単一の前記回答を用いて回答可能な第一の典型的表現パターンであるか、あるいは、複数の前記回答を用いて回答可能な第二の典型的表現パターンであるかに基づいて、前記第一の比較評価モデルまたは前記第二の比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定することを特徴とする請求項4に記載の関連表現抽出装置。
  6. 前記メモリには、前記テキストデータに含まれる単語の頻度を基準にした第一の比較評価モデルと、前記テキストデータに含まれる単語の表現揺らぎに強い第二の比較評価モデルとが格納されていることを特徴とする請求項5に記載の関連表現抽出装置。
  7. 前記プロセッサは、前記テキストデータの内容の特定の意味要素に該当する単語等の語句を抽出し、前記回答中に含まれる前記語句の重み付けを前記回答中に含まれる他の単語の重み付けより重くして、前記テキストデータと前記回答との類似度を算出し、この類似度が予め定めた閾値以上であれば前記第一の典型的表現パターンであると判定し、閾値を下回ったら前記第二の典型的表現パターンであると判定することを特徴とする請求項5に記載の関連表現抽出装置。
  8. 前記テキストデータの内容の特定の前記意味要素が、主題、5W1H(いつ、どこで、誰が、誰に、何を、どのように)の各要素、要件、効果、原則、例外、のいずれか一つあるいは複数であることを特徴とする請求項7に記載の関連表現抽出装置。
  9. 前記プロセッサは、前記テキストデータの内容の主題に関する主題意味要素を抽出し、前記回答中に含まれる前記主題意味要素の重み付けを前記回答中に含まれる他の意味要素の重み付けより重くして、前記テキストデータと前記回答との類似度を算出し、この類似度が予め定めた閾値以上であれば前記第一の典型的表現パターンであると判定し、閾値を下回ったら前記第二の典型的表現パターンであると判定することを特徴とする請求項5に記載の関連表現抽出装置。
  10. 前記プロセッサは、前記テキストデータを作成した入力者の知識量を、前記入力者が過去に入力した前記テキストデータから判断し、あるいは、前記入力者に対して前記知識量を問うガイド質問を送信して前記入力者がこのガイド質問に対して回答したガイド回答から判断し、前記知識量が予め定めた閾値を下回ったら前記第一の典型的表現パターンであると判定し、閾値以上であれば前記第二の典型的表現パターンであると判定することを特徴とする請求項5に記載の関連表現抽出装置。
  11. 入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、
    前記関連表現抽出装置はプロセッサ及びメモリを有し、
    前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
    前記プロセッサは、
    複数の前記テキストデータの入力を受け入れ、
    受け入れた前記テキストデータと前記回答との類似度を、前記テキストデータと前記回答との単語の一致度により算出し、
    算出した前記類似度に基づいて複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
    決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
    ことを特徴とする関連表現抽出装置。
  12. 入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置による関連表現抽出方法であって、
    前記関連表現抽出装置はプロセッサ及びメモリを有し、
    前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
    前記テキストデータの入力を受け入れ、
    受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方を行い、
    前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
    決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
    ことを特徴とする関連表現抽出方法。
JP2020162131A 2020-09-28 2020-09-28 関連表現抽出装置及び関連表現抽出方法 Active JP7507647B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020162131A JP7507647B2 (ja) 2020-09-28 2020-09-28 関連表現抽出装置及び関連表現抽出方法
PCT/JP2021/010897 WO2022064741A1 (ja) 2020-09-28 2021-03-17 関連表現抽出装置及び関連表現抽出方法
EP21871877.3A EP4198770A4 (en) 2020-09-28 2021-03-17 DEVICE FOR EXTRACTING ASSOCIATED EXPRESSIONS AND METHOD FOR EXTRACTING ASSOCIATED EXPRESSIONS
US18/025,950 US12327083B2 (en) 2020-09-28 2021-03-17 Related expression extraction device and related expression extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020162131A JP7507647B2 (ja) 2020-09-28 2020-09-28 関連表現抽出装置及び関連表現抽出方法

Publications (2)

Publication Number Publication Date
JP2022054879A true JP2022054879A (ja) 2022-04-07
JP7507647B2 JP7507647B2 (ja) 2024-06-28

Family

ID=80845133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020162131A Active JP7507647B2 (ja) 2020-09-28 2020-09-28 関連表現抽出装置及び関連表現抽出方法

Country Status (4)

Country Link
US (1) US12327083B2 (ja)
EP (1) EP4198770A4 (ja)
JP (1) JP7507647B2 (ja)
WO (1) WO2022064741A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2024042634A1 (ja) * 2022-08-24 2024-02-29
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
US12206629B2 (en) * 2023-03-14 2025-01-21 Dell Products L.P. Method and system to automatically respond to a user input

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004055707A1 (ja) 2002-12-16 2006-04-20 株式会社電通 ブランド動的評価情報処理装置および方法
WO2012047541A1 (en) * 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
WO2013080406A1 (ja) 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
JP6414956B2 (ja) * 2014-08-21 2018-10-31 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
US10110544B2 (en) * 2015-10-05 2018-10-23 Oath Inc. Method and system for classifying a question
US20180341871A1 (en) * 2017-05-25 2018-11-29 Accenture Global Solutions Limited Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains

Also Published As

Publication number Publication date
US20230359816A1 (en) 2023-11-09
US12327083B2 (en) 2025-06-10
JP7507647B2 (ja) 2024-06-28
WO2022064741A1 (ja) 2022-03-31
EP4198770A4 (en) 2024-07-31
EP4198770A1 (en) 2023-06-21

Similar Documents

Publication Publication Date Title
CN106663125B (zh) 提问句生成装置以及记录介质
JP6618735B2 (ja) 質問応答システムの訓練装置及びそのためのコンピュータプログラム
US8983977B2 (en) Question answering device, question answering method, and question answering program
US7519529B1 (en) System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
Otegi et al. Conversational question answering in low resource scenarios: A dataset and case study for basque
WO2022064741A1 (ja) 関連表現抽出装置及び関連表現抽出方法
JP2019526139A (ja) コンピュータ学習および理解のためのアーキテクチャおよびプロセス
US20210240775A1 (en) System and method for providing automated and unsupervised inline question answering
KR102655808B1 (ko) 페러프레이저 모델을 이용한 질의 응답 검색 방법 및 검색 장치
Maheen et al. Automatic computer science domain multiple-choice questions generation based on informative sentences
Nassiri et al. Arabic L2 readability assessment: Dimensionality reduction study
Hong et al. Outcome-constrained large language models for countering hate speech
Łajewska et al. Towards reliable and factual response generation: Detecting unanswerable questions in information-seeking conversations
JP6885506B2 (ja) 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム
Molino et al. Playing with knowledge: A virtual player for “Who Wants to Be a Millionaire?” that leverages question answering techniques
US20190318220A1 (en) Dispersed template-based batch interaction with a question answering system
Riza et al. Natural language processing and levenshtein distance for generating error identification typed questions on TOEFL
KR102410068B1 (ko) 자연어 모델을 기반으로 한 질의-응답 페어 생성 방법 및 이러한 방법을 수행하는 장치
Agarwal Cloze and open cloze question generation systems and their evaluation guidelines
Chakrabarti et al. Inside Out 2: Make Room for New Emotions & LLM: A Reproducibility Study of the Emotional Side of Search in the Classroom
Machhout et al. Enhanced BERT Approach to Score Arabic Essay’s Relevance to the Prompt
Yao et al. Beyond labels: Empowering human with natural language explanations through a novel active-learning architecture
Mc Cahill et al. Exploring text classification for enhancing digital game-based language learning for Irish
Freihat et al. Using grice maxims in ranking community question answers
Wang et al. SLR: A million-scale comprehensive crossword dataset for simultaneous learning and reasoning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240618