JP2022054879A - 関連表現抽出装置及び関連表現抽出方法 - Google Patents
関連表現抽出装置及び関連表現抽出方法 Download PDFInfo
- Publication number
- JP2022054879A JP2022054879A JP2020162131A JP2020162131A JP2022054879A JP 2022054879 A JP2022054879 A JP 2022054879A JP 2020162131 A JP2020162131 A JP 2020162131A JP 2020162131 A JP2020162131 A JP 2020162131A JP 2022054879 A JP2022054879 A JP 2022054879A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- related expression
- extraction device
- answer
- comparative evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(1)「領域モデル」:教育対象の知識を表現
(2)「学習者モデル」:学習状態や進捗状況を表現
(3)「指導モデル」:指導戦略を表現
(4)「UIモデル」:ユーザーインタフェースやインタラクションを表現
評価モデルの選択基準としては、例えば(1)関連情報候補を表現しているテキストと入力文を構成するテキストとの比較結果としての関連度、類似度に基づくもの(2)ルールベース(質問の類型やパターン:専門的な質問か、一般的な質問かの判定に関するルール等)が挙げられる。
すなわち、評価モデル1(第一の比較評価モデル)として、単語等の頻度統計(テキスト間比較の場合は頻度統計を活用し単語等の頻度をもとに類似度を把握する方式)、構文解析などの基礎解析でわかる情報をもとにした方式(例:記号マッチング方式)が、評価モデル2(第二の比較評価モデル)として深層学習など、基礎解析(各言語の文法情報を外部知識として与えることが必須ではない)方式が好適な例として挙げられる。
入力文で求めている情報がテキストに陽に表現される知識であり、情報をそのまま引用することが回答として相応しい場合に適する。あらかじめ用意された質問文と回答文のぺアのなかからの選択だけで対応しやすい状況であり、特に入力文の重要なキーワードが関連表現候補に同様に存在することが確認できた場合には、関連表現候補と入力文とに同一のキーワードが同様に用いられているので入力文との単語等のマッチングの度合いが比較的大きく、評価モデル1の結果に従って関連表現を回答文として採用すればよいとみなす(評価モデル1による評価スコアの大小を信用すればよい)。
関連表現候補の部分的な情報をそのまま引用することが回答として相応しくない場合に適する。あらかじめ用意された質問文と回答文のぺアのなかからの選択だけでは対応しにくい状況であり、同義語や類義語も含めた解釈や複数の情報を統合解釈を行った上で関連表現候補群から回答となる情報を特定したうえで、回答を構築すべきような状況が想定される。このような想定においては、評価モデル1の評価値ではなく、評価モデル2の評価値を採用する。
Claims (12)
- 入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、
前記関連表現抽出装置はプロセッサ及びメモリを有し、
前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
前記プロセッサは、
前記テキストデータの入力を受け入れ、
受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方を行い、
前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
ことを特徴とする関連表現抽出装置。 - 前記関連表現群データには、前記回答に対応する典型的質問が前記回答と組になって格納されていることを特徴とする請求項1に記載の関連表現抽出装置。
- 前記プロセッサは、前記テキストデータに対して単語単位の切り分け、品詞解析を含む形態素解析を行った後に受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの特定の少なくとも一方を行うことを特徴とする請求項1に記載の関連表現抽出装置。
- 前記メモリには、前記テキストデータの典型的表現パターンが格納され、
前記プロセッサは、受け入れた前記テキストデータと前記典型的表現パターンとを比較して第一の比較評価モデルまたは第二の比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定する
ことを特徴とする請求項3に記載の関連表現抽出装置。 - 前記プロセッサは、受け入れた前記テキストデータの内容が、単一の前記回答を用いて回答可能な第一の典型的表現パターンであるか、あるいは、複数の前記回答を用いて回答可能な第二の典型的表現パターンであるかに基づいて、前記第一の比較評価モデルまたは前記第二の比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定することを特徴とする請求項4に記載の関連表現抽出装置。
- 前記メモリには、前記テキストデータに含まれる単語の頻度を基準にした第一の比較評価モデルと、前記テキストデータに含まれる単語の表現揺らぎに強い第二の比較評価モデルとが格納されていることを特徴とする請求項5に記載の関連表現抽出装置。
- 前記プロセッサは、前記テキストデータの内容の特定の意味要素に該当する単語等の語句を抽出し、前記回答中に含まれる前記語句の重み付けを前記回答中に含まれる他の単語の重み付けより重くして、前記テキストデータと前記回答との類似度を算出し、この類似度が予め定めた閾値以上であれば前記第一の典型的表現パターンであると判定し、閾値を下回ったら前記第二の典型的表現パターンであると判定することを特徴とする請求項5に記載の関連表現抽出装置。
- 前記テキストデータの内容の特定の前記意味要素が、主題、5W1H(いつ、どこで、誰が、誰に、何を、どのように)の各要素、要件、効果、原則、例外、のいずれか一つあるいは複数であることを特徴とする請求項7に記載の関連表現抽出装置。
- 前記プロセッサは、前記テキストデータの内容の主題に関する主題意味要素を抽出し、前記回答中に含まれる前記主題意味要素の重み付けを前記回答中に含まれる他の意味要素の重み付けより重くして、前記テキストデータと前記回答との類似度を算出し、この類似度が予め定めた閾値以上であれば前記第一の典型的表現パターンであると判定し、閾値を下回ったら前記第二の典型的表現パターンであると判定することを特徴とする請求項5に記載の関連表現抽出装置。
- 前記プロセッサは、前記テキストデータを作成した入力者の知識量を、前記入力者が過去に入力した前記テキストデータから判断し、あるいは、前記入力者に対して前記知識量を問うガイド質問を送信して前記入力者がこのガイド質問に対して回答したガイド回答から判断し、前記知識量が予め定めた閾値を下回ったら前記第一の典型的表現パターンであると判定し、閾値以上であれば前記第二の典型的表現パターンであると判定することを特徴とする請求項5に記載の関連表現抽出装置。
- 入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置であって、
前記関連表現抽出装置はプロセッサ及びメモリを有し、
前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
前記プロセッサは、
複数の前記テキストデータの入力を受け入れ、
受け入れた前記テキストデータと前記回答との類似度を、前記テキストデータと前記回答との単語の一致度により算出し、
算出した前記類似度に基づいて複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
ことを特徴とする関連表現抽出装置。 - 入力されたテキストデータに対してこのテキストデータの内容に関連する関連表現を抽出する関連表現抽出装置による関連表現抽出方法であって、
前記関連表現抽出装置はプロセッサ及びメモリを有し、
前記メモリには、少なくとも前記テキストデータの内容に対する回答を含む関連表現群データと、前記テキストデータと前記関連表現群データとの比較評価を行う複数の比較評価モデルとが格納され、
前記テキストデータの入力を受け入れ、
受け入れた前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方を行い、
前記テキストデータの類型化及び前記テキストデータの構造パターンの判定の少なくとも一方の結果に基づいて、複数の前記比較評価モデルのいずれを用いて前記関連表現群データを抽出するかを決定し、
決定した前記比較評価モデルを用いて、前記テキストデータの内容に関連する前記関連表現を前記関連表現群データから抽出する
ことを特徴とする関連表現抽出方法。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020162131A JP7507647B2 (ja) | 2020-09-28 | 2020-09-28 | 関連表現抽出装置及び関連表現抽出方法 |
| PCT/JP2021/010897 WO2022064741A1 (ja) | 2020-09-28 | 2021-03-17 | 関連表現抽出装置及び関連表現抽出方法 |
| EP21871877.3A EP4198770A4 (en) | 2020-09-28 | 2021-03-17 | DEVICE FOR EXTRACTING ASSOCIATED EXPRESSIONS AND METHOD FOR EXTRACTING ASSOCIATED EXPRESSIONS |
| US18/025,950 US12327083B2 (en) | 2020-09-28 | 2021-03-17 | Related expression extraction device and related expression extraction method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020162131A JP7507647B2 (ja) | 2020-09-28 | 2020-09-28 | 関連表現抽出装置及び関連表現抽出方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022054879A true JP2022054879A (ja) | 2022-04-07 |
| JP7507647B2 JP7507647B2 (ja) | 2024-06-28 |
Family
ID=80845133
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020162131A Active JP7507647B2 (ja) | 2020-09-28 | 2020-09-28 | 関連表現抽出装置及び関連表現抽出方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US12327083B2 (ja) |
| EP (1) | EP4198770A4 (ja) |
| JP (1) | JP7507647B2 (ja) |
| WO (1) | WO2022064741A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2024042634A1 (ja) * | 2022-08-24 | 2024-02-29 | ||
| CN116303947B (zh) * | 2023-02-24 | 2024-01-19 | 首都师范大学 | 一种问答文本的情绪识别方法、装置及电子设备 |
| US12206629B2 (en) * | 2023-03-14 | 2025-01-21 | Dell Products L.P. | Method and system to automatically respond to a user input |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2004055707A1 (ja) | 2002-12-16 | 2006-04-20 | 株式会社電通 | ブランド動的評価情報処理装置および方法 |
| WO2012047541A1 (en) * | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using multiple models to score candidate answers |
| WO2013080406A1 (ja) | 2011-11-28 | 2013-06-06 | Necソフト株式会社 | 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム |
| JP6414956B2 (ja) * | 2014-08-21 | 2018-10-31 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
| CN104573028B (zh) * | 2015-01-14 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
| US10110544B2 (en) * | 2015-10-05 | 2018-10-23 | Oath Inc. | Method and system for classifying a question |
| US20180341871A1 (en) * | 2017-05-25 | 2018-11-29 | Accenture Global Solutions Limited | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains |
-
2020
- 2020-09-28 JP JP2020162131A patent/JP7507647B2/ja active Active
-
2021
- 2021-03-17 WO PCT/JP2021/010897 patent/WO2022064741A1/ja not_active Ceased
- 2021-03-17 EP EP21871877.3A patent/EP4198770A4/en active Pending
- 2021-03-17 US US18/025,950 patent/US12327083B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US20230359816A1 (en) | 2023-11-09 |
| US12327083B2 (en) | 2025-06-10 |
| JP7507647B2 (ja) | 2024-06-28 |
| WO2022064741A1 (ja) | 2022-03-31 |
| EP4198770A4 (en) | 2024-07-31 |
| EP4198770A1 (en) | 2023-06-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106663125B (zh) | 提问句生成装置以及记录介质 | |
| JP6618735B2 (ja) | 質問応答システムの訓練装置及びそのためのコンピュータプログラム | |
| US8983977B2 (en) | Question answering device, question answering method, and question answering program | |
| US7519529B1 (en) | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service | |
| Otegi et al. | Conversational question answering in low resource scenarios: A dataset and case study for basque | |
| WO2022064741A1 (ja) | 関連表現抽出装置及び関連表現抽出方法 | |
| JP2019526139A (ja) | コンピュータ学習および理解のためのアーキテクチャおよびプロセス | |
| US20210240775A1 (en) | System and method for providing automated and unsupervised inline question answering | |
| KR102655808B1 (ko) | 페러프레이저 모델을 이용한 질의 응답 검색 방법 및 검색 장치 | |
| Maheen et al. | Automatic computer science domain multiple-choice questions generation based on informative sentences | |
| Nassiri et al. | Arabic L2 readability assessment: Dimensionality reduction study | |
| Hong et al. | Outcome-constrained large language models for countering hate speech | |
| Łajewska et al. | Towards reliable and factual response generation: Detecting unanswerable questions in information-seeking conversations | |
| JP6885506B2 (ja) | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム | |
| Molino et al. | Playing with knowledge: A virtual player for “Who Wants to Be a Millionaire?” that leverages question answering techniques | |
| US20190318220A1 (en) | Dispersed template-based batch interaction with a question answering system | |
| Riza et al. | Natural language processing and levenshtein distance for generating error identification typed questions on TOEFL | |
| KR102410068B1 (ko) | 자연어 모델을 기반으로 한 질의-응답 페어 생성 방법 및 이러한 방법을 수행하는 장치 | |
| Agarwal | Cloze and open cloze question generation systems and their evaluation guidelines | |
| Chakrabarti et al. | Inside Out 2: Make Room for New Emotions & LLM: A Reproducibility Study of the Emotional Side of Search in the Classroom | |
| Machhout et al. | Enhanced BERT Approach to Score Arabic Essay’s Relevance to the Prompt | |
| Yao et al. | Beyond labels: Empowering human with natural language explanations through a novel active-learning architecture | |
| Mc Cahill et al. | Exploring text classification for enhancing digital game-based language learning for Irish | |
| Freihat et al. | Using grice maxims in ranking community question answers | |
| Wang et al. | SLR: A million-scale comprehensive crossword dataset for simultaneous learning and reasoning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240409 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240524 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240618 |