JP2011085986A - Text summarization method, its device, and program - Google Patents
Text summarization method, its device, and program Download PDFInfo
- Publication number
- JP2011085986A JP2011085986A JP2009236274A JP2009236274A JP2011085986A JP 2011085986 A JP2011085986 A JP 2011085986A JP 2009236274 A JP2009236274 A JP 2009236274A JP 2009236274 A JP2009236274 A JP 2009236274A JP 2011085986 A JP2011085986 A JP 2011085986A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- text
- evaluation information
- information
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】要約対象テキストから重要文を選択して要約を生成する際に、冗長性の少ない要約を生成すること。
【解決手段】テキスト入力部1により要約対象テキストを受け付け、評価情報抽出部2により前記要約対象テキストから評価対象、評価属性および評価表現の少なくとも3つの要素を含む評価情報を抽出し、評価情報集約部4により前記抽出された評価情報を、評価情報における評価属性間の類似度を格納した評価属性類似度辞書3を用いて集約し、重要文選択部5により、前記集約された評価情報に基づいて前記要約対象テキストから重要文を選択し、テキスト出力部6により、前記選択された重要文を所定の規則に従って並び替えて出力する。
【選択図】図1A summary with less redundancy is generated when a summary is generated by selecting an important sentence from the summary target text.
A summary input text is received by a text input unit, and evaluation information including at least three elements of an evaluation target, an evaluation attribute, and an evaluation expression is extracted from the summary target text by an evaluation information extraction unit, and evaluation information is aggregated. The evaluation information extracted by the unit 4 is aggregated using the evaluation attribute similarity dictionary 3 storing the similarity between the evaluation attributes in the evaluation information, and the important sentence selection unit 5 collects the evaluation information based on the aggregated evaluation information. Then, an important sentence is selected from the summary target text, and the selected important sentence is rearranged according to a predetermined rule by the text output unit 6 and output.
[Selection] Figure 1
Description
本発明は、電子化されたテキスト(文書)を要約する技術に関する。 The present invention relates to a technique for summarizing digitized text (document).
近年、電子化されたテキストが大量に流通するようになった。そのため、それらのテキストに記述された情報を迅速に把握することを目的として機械にテキストを要約させる、いわゆるテキスト要約技術の重要性が高まっている。 In recent years, a large amount of electronic text has been distributed. Therefore, the importance of so-called text summarization techniques that cause a machine to summarize texts for the purpose of quickly grasping information described in those texts is increasing.
現在、機械にテキストを要約させる場合には、要約の対象となるテキスト(以下、要約対象テキスト)から要約にふさわしい文(以下、重要文)を1つ以上選び出し、それらを並び替えて連結することによって行われることが多い。重要文を選択する際には、何らかの方法によって文のスコアを定義し、そのスコアに従って文を選択することが良く行われる。文のスコアを定義する一例としては、事前に要約対象テキストに対して情報抽出を行うことにより、テキストを構成する文が有している情報を特定し、その情報のスコアに従って要約を行うものがある(非特許文献1)。 Currently, when letting a machine summarize text, select one or more sentences (hereinafter, important sentences) suitable for the summary from the text to be summarized (hereinafter, the text to be summarized), and rearrange them and connect them. Often done by. When selecting an important sentence, a sentence score is often defined by some method, and the sentence is often selected according to the score. As an example of defining the score of a sentence, information that is included in a sentence constituting the text is identified by extracting information in advance from the text to be summarized, and summarizing is performed according to the score of the information. Yes (Non-Patent Document 1).
抽出する情報の一例として、ある対象に関する評価や意見等の情報である評価情報がある。評価情報は、評価対象、評価属性および評価表現の少なくとも3つの要素を含む。例えば、「A料理店の餃子はおいしい」という文から評価を抽出することを考える。このとき、評価対象は、店舗や商品等の、評価する対象を表すものであるため、「A料理店」となる。評価属性は、評価対象の仕様(性質や特徴等)やその一部分、評価を行う際の観点等の、評価対象における具体的な評価項目を表すものであるため、「餃子」となる。評価表現は、評価を行う者(テキストの書き手)による、評価対象の評価属性に対する評価そのものを表すものであるため、「おいしい」となる。 As an example of the information to be extracted, there is evaluation information that is information such as evaluation and opinion regarding a certain target. The evaluation information includes at least three elements: an evaluation object, an evaluation attribute, and an evaluation expression. For example, consider extracting an evaluation from the sentence “Gyoza in restaurant A is delicious”. At this time, the evaluation object represents an object to be evaluated, such as a store or a product, and thus becomes “A restaurant”. Since the evaluation attribute represents a specific evaluation item in the evaluation object such as the specification (properties, characteristics, etc.) of the evaluation object, a part thereof, and a viewpoint when performing the evaluation, the evaluation attribute is “gyoza”. The evaluation expression is “delicious” because it represents the evaluation itself of the evaluation attribute to be evaluated by the person who performs the evaluation (text writer).
評価情報は、例えば特許文献1に記載の方法で抽出することができる。以下、評価情報をテキスト中から抽出することを評価情報抽出と呼び、評価情報の3つの要素を<評価対象,評価属性,評価表現>のように『,』で区切り、『<』および『>』で囲った形で示すものとする。
The evaluation information can be extracted by the method described in
抽出する情報の他の例として、2つの固有表現とその間の関係がある。例えば、「麻生首相は秋葉原で演説した」という文からは、固有表現「麻生首相」および「秋葉原」と、これらの2つの固有表現の間に存在する関係「演説」という、3つの要素の組み合わせを抽出できる。以下、このような3つの要素の組み合わせを関係情報と呼ぶ。 Another example of information to be extracted is two specific expressions and a relationship between them. For example, the sentence “Prime Minister Aso addressed in Akihabara” is a combination of three elements: the unique expressions “Prime Minister Aso” and “Akihabara” and the relationship “speech” that exists between these two specific expressions. Can be extracted. Hereinafter, such a combination of three elements is referred to as relation information.
関係情報は、例えば特許文献2に記載の方法で抽出することができる。また、関係情報をテキスト中から抽出することを関係情報抽出と呼ぶことにし、関係情報の3つの要素を[固有表現1,関係,固有表現2]のように『,』で区切り、『[』および『]』で囲った形で示すものとする。
The relationship information can be extracted by the method described in
しかし、特許文献1や特許文献2の手法では、抽出した評価情報または関係情報が同じものである(類似するものである)か否かを認定することができないため、単に特許文献1や特許文献2の手法で抽出した情報を利用して、非特許文献1のような手法によりテキストの要約を行うと、冗長な要約が生成される可能性があるという問題があった。
However, in the methods of
例えば、何らかの商品やサービスの評判が記述されたテキストから、評価情報を抽出し、その結果を用いて当該テキストの要約を行うことを考える。より具体的には、複数の異なる書き手によって記述された、ある飲食店の評判に関する複数のテキストから単一の要約を生成することを考える。 For example, consider that evaluation information is extracted from a text describing the reputation of some product or service, and the text is summarized using the result. More specifically, consider generating a single summary from multiple texts about a restaurant's reputation described by different writers.
一例として、ある書き手によるテキストに「レストランAは味が最高」という文があったとし、また別の書き手によるテキストには「レストランAは味付けが最高です」という文があったとする。これらの2つの文から評価情報を抽出した場合、前の文からは<レストランA,味,最高>という評価情報が、後の文からは<レストランA,味付け,最高>という評価情報が抽出される。 As an example, suppose that there is a sentence “Restaurant A has the best taste” in a text by one writer, and a text “Restaurant A has the best seasoning” in a text by another writer. When the evaluation information is extracted from these two sentences, the evaluation information <Restaurant A, Taste, Best> is extracted from the previous sentence, and the evaluation information <Restaurant A, Seasoning, Best> is extracted from the latter sentence. The
これらの評価情報は、それぞれレストランAの味(あるいは味付け)が優れているということを示しており、ほぼ同じ意味を有している。しかし、この2つの評価情報がほぼ同じものであることを認定するには、「味」と「味付け」がほぼ同じ意味を有していることを認定しなければならない。つまり、もしこれらの評価情報を扱う機械が、「味」と「味付け」がほぼ同じ意味を有していることを認定できなければ、上述の2つの評価情報がほぼ同じものであることを認定できない。 These pieces of evaluation information indicate that the taste (or seasoning) of the restaurant A is excellent, and have almost the same meaning. However, in order to recognize that the two pieces of evaluation information are substantially the same, it is necessary to recognize that “taste” and “seasoned” have substantially the same meaning. In other words, if the machine that handles these evaluation information cannot certify that “taste” and “seasoning” have almost the same meaning, it certifies that the above two evaluation information are almost the same. Can not.
これは関係情報を用いた場合であっても同様である。例えば、あるテキストには「麻生首相は秋葉原で演説した」、他のテキストには「麻生首相は秋葉原でスピーチした」という文があったとき、それぞれから[麻生首相,演説,秋葉原]、[麻生首相,スピーチ,秋葉原]という関係情報が抽出されたとしても、「演説」と「スピーチ」がほぼ同じ意味を有していることを機械が認定できなければ、この2つの関係情報をほぼ同じものであると認定することはできない。 This is the same even when the relationship information is used. For example, when one text contains the sentence "Prime Minister Aso addressed in Akihabara" and the other text says "Prime Minister Aso made a speech in Akihabara", each of them [Prime Minister Aso, Speech, Akihabara], [Aso Even if related information such as “Prime Minister, Speech, Akihabara” is extracted, if the machine cannot recognize that “speech” and “speech” have almost the same meaning, the two related information will be almost the same. Cannot be certified.
翻って、要約のために、評価情報に基づいて重要文の抽出を行うことを考える。要約の読み手が効率的に情報を把握できるよう、要約に、要約対象テキストに含まれる評価情報を出来る限り多く含めることを考えるならば、ほぼ同一の評価情報を含む文が複数あった場合は、そのうちいずれか1つの文のみを要約に含めれば十分である。しかし、ほぼ同一と考えられる評価情報が、機械が評価属性の同一性を認定できないがために同一のものとして扱われない場合には、それらほぼ同一の評価情報を含む文が2つ以上同時に要約に含まれてしまう恐れがある。そのような要約は同じ情報が繰り返し出現するという点で冗長性を含んでおり、情報を効率的に伝達するという観点からは、読み手にとって望ましい要約とは言えない。 In turn, for summary purposes, consider extracting important sentences based on evaluation information. If you want to include as much evaluation information contained in the summary text as possible in the summary so that the reader of the summary can efficiently grasp the information, if there are multiple sentences that contain almost the same evaluation information, It is sufficient to include only one of these sentences in the summary. However, if the evaluation information that is considered to be almost the same is not treated as the same because the machine cannot recognize the identity of the evaluation attributes, two or more sentences containing the same evaluation information are summarized at the same time. May be included. Such summaries include redundancy in that the same information appears repeatedly, and are not desirable summaries for readers in terms of efficiently transmitting information.
そこで、本発明の目的は、要約対象テキストが与えられた際に、類似する評価情報、あるいは関係情報を集約して(まとめて)扱うことで、冗長の少ない要約を生成することにある。 Therefore, an object of the present invention is to generate a summary with less redundancy by collecting (summarizing) similar evaluation information or relationship information when a summary target text is given.
以下、評価情報を抽出して要約を行う場合を例にとって説明するが、評価属性を関係と読み換えれば、関係情報を抽出して要約を行う場合にも本発明は適用できる。 Hereinafter, the case where the evaluation information is extracted and summarized will be described as an example. However, if the evaluation attribute is read as the relationship, the present invention can be applied to the case where the relationship information is extracted and summarized.
前記目的を達成するため、本発明では、要約の対象となるテキストである要約対象テキストから要約にふさわしい文である重要文を少なくとも1つ選択して当該要約対象テキストに対応する要約を生成するテキスト要約装置であって、要約対象テキストを受け付けるテキスト入力部と、テキスト入力部で受け付けた要約対象テキストから評価対象、評価属性および評価表現の少なくとも3つの要素を含む評価情報を抽出する評価情報抽出部と、評価情報における評価属性間の類似度を格納した評価属性類似度辞書と、評価情報抽出部で要約対象テキストから抽出された評価情報を、評価属性類似度辞書を用いて集約する評価情報集約部と、評価情報集約部で集約された評価情報に基づき、テキスト入力部で受け付けた要約対象テキストから重要文を選択する重要文選択部と、重要文選択部で選択された重要文を所定の規則に従って並び替えて出力するテキスト出力部とを備えたことを特徴とする。 In order to achieve the above object, according to the present invention, text that generates at least one important sentence that is a sentence suitable for the summary from the summary target text that is the text to be summarized and generates a summary corresponding to the summary target text. A text input unit that receives summary text, and an evaluation information extraction unit that extracts evaluation information including at least three elements of an evaluation target, an evaluation attribute, and an evaluation expression from the summary target text received by the text input unit. And evaluation information aggregation that uses the evaluation attribute similarity dictionary to collect evaluation attribute similarity dictionary that stores the similarity between evaluation attributes in the evaluation information and evaluation information extracted from the text to be summarized by the evaluation information extraction unit And the summary information received by the text input unit based on the evaluation information aggregated by the evaluation information aggregation unit. A key sentence selection unit for selecting a sentence, characterized in that the key sentences selected by key sentence selection unit and a text outputting unit which outputs rearranged according to a predetermined rule.
本発明によれば、要約対象テキストから抽出された評価情報を単に用いて要約にふさわしい文を選択するのではなくて、評価属性類似度辞書に格納された評価属性間の類似度を用いて、要約対象テキストから抽出された評価情報を集約した後に、それらを利用して重要文を選択することにより、より冗長性の少ない要約を生成することが可能となる。 According to the present invention, instead of simply using the evaluation information extracted from the text to be summarized and selecting a sentence suitable for the summary, the similarity between evaluation attributes stored in the evaluation attribute similarity dictionary is used. It is possible to generate a summary with less redundancy by collecting evaluation information extracted from summary target texts and then selecting important sentences using them.
次に、本発明の実施の形態について図面を参照して説明する。 Next, embodiments of the present invention will be described with reference to the drawings.
図1は本発明のテキスト要約装置の実施の形態の一例を示すもので、本実施の形態のテキスト要約装置は、テキスト入力部1と、評価情報抽出部2と、評価属性類似度辞書3と、評価情報集約部4と、重要文選択部5と、テキスト出力部6とからなる。
FIG. 1 shows an example of an embodiment of a text summarization device according to the present invention. The text summarization device of the present embodiment includes a
<テキスト入力部>
テキスト入力部1は、図示しないキーボード等から直接入力され又は記憶手段から読み出されて入力され又は通信媒体を介して他の装置等から入力された、要約対象テキストを受け付けて(図示しない記憶装置等に)記憶する。図2は要約対象テキストの入力形式の一例を示すもので、ここでは周知の係り受け解析(係り受け解析の前提としての周知の形態素解析および文節解析も含む)がなされたテキストの例を示している。
<Text input part>
The
図2において、「*(アスタリスク)」から始まる行は文節の区切りを表すとともに当該文節の情報を示しており、文節の情報は文節番号、係り先(の文節番号)、係りタイプ、内容部の主辞となる語の番号と機能部の主辞となる語の番号からなっている。また、「*」から始まらない行は直前の「*」から始まる行で示された文節を構成する単語の情報を示しており、各単語の情報は表記、読み、標準形(ある場合のみ)、品詞からなっている。なお、<EOS>とある行はそこで文が終わったことを示している。 In FIG. 2, a line starting with “* (asterisk)” represents a section break and indicates information on the section. The section information includes a section number, a relation destination (the section number), a relation type, and a content part. It consists of the number of the word that becomes the main part and the number of the word that becomes the main part of the functional part. The lines that do not start with “*” indicate the information of the words that make up the phrase indicated by the line that starts with “*” immediately before, and the information of each word is written, read, and standard form (only if there is one) , Consists of parts of speech. Note that the line <EOS> indicates that the sentence ends there.
<評価情報抽出部>
評価情報抽出部2は、テキスト入力部1で受け付けられ記憶された要約対象テキストを入力として、当該要約対象テキストから評価情報を抽出し、該抽出した評価情報を全て記述したリストを評価情報集約部4へ出力する。評価情報の抽出には公知の技術、例えば特許文献1に記載の技術を用いることができる。
<Evaluation information extraction unit>
The evaluation
要約対象テキストから評価情報を抽出する処理の一例を図3に示す。 An example of processing for extracting evaluation information from the summary target text is shown in FIG.
まず、上述した評価表現のリストを格納した評価表現辞書を用意しておく。また、評価表現辞書は評価表現のリストに加えて、ある評価表現がポジティブなものであるのか、ネガティブなものであるのか、あるいは中立的なものであるのかを示す情報を格納しているものでも良い。このような、ある評価表現のポジティブさやネガティブさの指標を評価極性と呼ぶ。但し、評価極性は上述のようにポジティブ、ネガティブおよび中立という3つの種類(値)だけでなく、ポジティブの最大値を1、ネガティブの最大値を−1として、その間のいずれかの値を取る実数値で表すようにしても良い。 First, an evaluation expression dictionary storing the above-described list of evaluation expressions is prepared. In addition to the list of evaluation expressions, the evaluation expression dictionary stores information indicating whether an evaluation expression is positive, negative, or neutral. good. Such an index of positiveness or negativeness of an evaluation expression is called evaluation polarity. However, as described above, the evaluation polarity is not limited to the three types (values) of positive, negative, and neutral, and the positive maximum value is 1 and the negative maximum value is −1. You may make it represent with a numerical value.
例えば、図3に示した評価表現辞書では、評価表現「おいしい」がポジティブな表現であるため、その評価極性はP(ポジティブ)であるが、評価表現「まずい」はネガティブな表現であるため、その評価極性はN(ネガティブ)である。また、評価表現「普通」はポジティブでもネガティブでもない中立的な表現であるため、その評価極性はPN(PとNとの中間の意)である。 For example, in the evaluation expression dictionary shown in FIG. 3, since the evaluation expression “delicious” is a positive expression, its evaluation polarity is P (positive), but the evaluation expression “bad” is a negative expression. The evaluation polarity is N (negative). Further, since the evaluation expression “normal” is a neutral expression that is neither positive nor negative, its evaluation polarity is PN (meaning between P and N).
次に、係り受け解析の結果から評価表現辞書に含まれる評価表現を探す。図3では、要約対象テキスト中の「レストランAは何といってもムサカが最高においしい!」という文を係り受け解析した結果を示しており、このうちの最後の文節「おいしい!」に含まれる「おいしい」がその評価表現に該当する。係り受け解析の結果から評価表現がある文節を特定したら、評価表現を含む文節に「ガ格」で係っている文節を探す。この場合「ムサカが」という文節がそれに該当する。そして、この文節から格助詞「が」を除いた「ムサカ」を評価表現「おいしい」に対応する評価属性とする。また、評価表現を含む文節に「ハ格」で係っている文節を探す。ここでは文節「レストランAは」がそれに該当する。そして、この文節から格助詞「は」を除いた「レストランA」を評価表現「おいしい」に対応する評価対象とする。その結果、入力されたテキストから<レストランA,ムサカ,おいしい>という評価情報が抽出される。 Next, the evaluation expression included in the evaluation expression dictionary is searched from the result of dependency analysis. FIG. 3 shows the result of the dependency analysis of the sentence “Restaurant A is the most delicious!”, Which is included in the last sentence “Delicious!”. “Delicious” corresponds to the evaluation expression. When a phrase having an evaluation expression is identified from the result of dependency analysis, a phrase that is related to the phrase including the evaluation expression by “ga rating” is searched. In this case, the phrase “Musaka is” corresponds to this. Then, “Musaka” obtained by removing the case particle “ga” from this phrase is set as an evaluation attribute corresponding to the evaluation expression “delicious”. In addition, the phrase including “evaluation” is searched for the phrase including the evaluation expression. Here, the phrase “Restaurant A” corresponds to this. Then, “restaurant A” obtained by removing the case particle “ha” from this phrase is set as an evaluation target corresponding to the evaluation expression “delicious”. As a result, the evaluation information <Restaurant A, Musaka, Delicious> is extracted from the input text.
但し、評価情報を抽出する際、評価表現辞書に含まれる評価極性の情報を用いて評価表現を評価極性(P、NあるいはPN)に単純化して扱うこともできる。その場合、図3に示した例では、<レストランA,ムサカ,P>という評価情報が抽出される。 However, when extracting the evaluation information, the evaluation expression can be simplified to the evaluation polarity (P, N, or PN) by using the evaluation polarity information included in the evaluation expression dictionary. In that case, in the example shown in FIG. 3, the evaluation information <Restaurant A, Musaka, P> is extracted.
<評価属性類似度辞書>
評価属性類似度辞書3は、評価情報における評価属性間の類似度を格納したものである。評価属性間の類似度とは、評価属性同士が語として意味的に類似している程度を示したものである。評価属性類似度辞書3の一例を図4に示す。
<Evaluation attribute similarity dictionary>
The evaluation
図4では、各評価属性間の類似度が定義されている。例えば、評価属性「味」と評価属性「味付け」の類似度は0.38である。「味」と「味付け」は語として意味が近いものであるため、これらの類似度は高くなる。一方、「アイスクリーム」と「お刺身」の類似度は、図4においては0である。これは「アイスクリーム」と「お刺身」が意味的に類似していないことを反映している。 In FIG. 4, the similarity between each evaluation attribute is defined. For example, the similarity between the evaluation attribute “taste” and the evaluation attribute “seasoning” is 0.38. Since “taste” and “seasoned” have similar meanings as words, their similarity is high. On the other hand, the similarity between “ice cream” and “sashimi” is 0 in FIG. This reflects the fact that “ice cream” and “sashimi” are not semantically similar.
評価属性類似度辞書3は、一例として、予め評価属性と共起する単語をベクトルの要素とする共起語ベクトルを何らかのコーパス、例えば要約対象テキストのドメイン(飲食店の口コミ、新聞記事などのテキストの種類)に対応するコーパスを用いて作成し、それらを用いて計算したコサイン類似度を格納するもので良い。
As an example, the evaluation
評価属性a1と評価属性a2との間のコサイン類似度を計算するには、一例として以下のようにすれば良い。まず、何らかのコーパスを用いて、評価属性a1と共起する単語を要素とした共起語ベクトルをV=(v1,v2,…,vn)とし、同様に評価属性a2と共起する単語を要素とした共起語ベクトルをW=(w1,w2,…,wn)とする。ベクトルVの要素viおよびベクトルWの要素wi(i=1,2,…n)は、評価属性と何らかの単語が共起した回数とする。そのような場合、評価属性a1の共起語ベクトルVと評価属性a2の共起語ベクトルWのコサイン類似度cos(V,W)は以下の式(1)で定義される。 In order to calculate the cosine similarity between the evaluation attribute a 1 and the evaluation attribute a 2 , for example, the following may be performed. First, using some corpus, a co-occurrence word vector whose elements are words that co-occur with the evaluation attribute a 1 is set to V = (v 1 , v 2 ,..., V n ), and is also shared with the evaluation attribute a 2 . Let W = (w 1 , w 2 ,..., W n ) be a co-occurrence word vector whose elements are words that occur. The element v i of the vector V and the element w i (i = 1, 2,... N) of the vector V are the number of times that the evaluation attribute and some word co-occur. In such a case, the cosine similarity cos (V, W) between the co-occurrence word vector V of the evaluation attribute a 1 and the co-occurrence word vector W of the evaluation attribute a 2 is defined by the following equation (1).
他にも、評価属性間の類似度として、Thomas Hofmann, "Probabilistic latent semantic indexing", In Proceeding of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp.50-57, 1999(参考文献1)に記載の技術を用いて、評価属性が何らかの潜在的なクラスに属する確率を計算して格納することもできる。計算のために必要となる、文書と単語の共起行列の代わりに、一例としては、何らかのコーパスから抽出した評価表現と評価属性の共起行列を用いて計算することができる。その場合、評価属性類似度辞書3には、各評価属性と、それが複数の異なる潜在的なクラスそれぞれに帰属する確率が格納される。
Other similarities between evaluation attributes include Thomas Hofmann, "Probabilistic latent semantic indexing", In Proceeding of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp.50-57, 1999 (references) Using the technique described in 1), the probability that the evaluation attribute belongs to some potential class can be calculated and stored. Instead of the document and word co-occurrence matrix required for the calculation, as an example, the calculation can be performed using the evaluation expression extracted from some corpus and the co-occurrence matrix of the evaluation attributes. In that case, the evaluation
また、上述したコサイン類似度によるもの、何らかの潜在的なクラスに属する確率によるもの以外にも、池原 悟、他「日本語語彙大系 CD-ROM版」、岩波書店、1999(参考文献2)のような類義語が構造化されたものを格納しても良い。参考文献2のような類義語が構造化された辞書を用いた場合は、一例として、ある評価属性と別の評価属性とが同一のカテゴリに属する場合は類似度を1、そうでない場合は類似度を0として評価属性類似度辞書に格納することができる。
In addition to the above cosine similarity and the probability of belonging to some potential class, Satoru Ikehara, et al. “Japanese Vocabulary Series CD-ROM Version”, Iwanami Shoten, 1999 (reference 2) Such a structured synonym may be stored. When a dictionary in which synonyms are structured as in
<評価情報集約部>
評価情報集約部4は、評価情報抽出部2で要約対象テキストから抽出された評価情報のリストと、評価属性類似度辞書3とを入力として、要約対象テキストから抽出された評価情報を集約し、集約後のリストを重要文選択部5へ出力する。ここでは、上述の評価属性類似度辞書3に評価属性同士のコサイン類似度を格納している場合について説明する。
<Evaluation Information Aggregation Department>
The evaluation information aggregating unit 4 collects the evaluation information extracted from the summary target text by inputting the evaluation information list extracted from the summary target text by the evaluation
図5は要約対象テキストの一例、ここでは異なる書き手によって記述された、2つのテキストAおよびBからなる要約対象テキストを示すものである。 FIG. 5 shows an example of a summary target text, here a summary target text composed of two texts A and B described by different writers.
図5に示すテキストAおよびBから、評価情報抽出部2で説明した方法で評価情報を抽出すると、図6に示す評価情報リスト(集約前)が得られる。図5に示したテキストAの1番目の文(文番号A1)からは<レストランA,アイスクリーム,おいしい>、2番目の文(文番号A2)からは<レストランA,味,最高>という評価情報が抽出され、テキストBの1番目の文(文番号B1)からは<レストランA,味付け,最高>、2番目の文(文番号B2)からは<レストランA,お刺身,おいしい>という評価情報が抽出されたとする。
When the evaluation information is extracted from the texts A and B shown in FIG. 5 by the method described in the evaluation
なお、評価情報リストには評価情報とともに、当該評価情報が抽出された文の文番号(抽出元文番号)と、要約対象テキストにおける当該評価情報の出現頻度(要約対象テキストから直接抽出された(集約前の)出現頻度)とが併せて記述されているものとする。 The evaluation information list is extracted together with the evaluation information, the sentence number of the sentence from which the evaluation information is extracted (extraction source sentence number), and the appearance frequency of the evaluation information in the summary target text (extracted directly from the summary target text ( (Appearance frequency) before aggregation is also described.
図6に示されている評価属性リストを見ると、<レストランA,味,最高>と<レストランA,味付け,最高>が別の評価情報として扱われているが、これらはほぼ同じ評価情報であるため、これらを別々の評価情報として扱うより、同一の評価情報として扱いたい。これらを別の評価情報として扱ってしまうと、冗長な要約が生成される可能性があるためである。そのため、上述の評価属性類似度辞書3を用いて、評価属性「味」と「味付け」の同一性を判定する。
Looking at the evaluation attribute list shown in FIG. 6, <Restaurant A, Taste, Best> and <Restaurant A, Taste, Best> are treated as different evaluation information, but these are almost the same evaluation information. Therefore, we want to treat these as the same evaluation information rather than as separate evaluation information. This is because if these are treated as different evaluation information, a redundant summary may be generated. For this reason, the evaluation
要約対象テキストから抽出された評価情報の任意の2つのうち、評価属性類似度辞書3に含まれる評価属性をそれぞれ有し、それらの評価属性間の類似度が予め設定された値(閾値)より高く、かつ評価対象および評価表現(あるいは評価極性)が同一のものは、それらは等価とみなし、集約する。
Of any two pieces of evaluation information extracted from the text to be summarized, each has evaluation attributes included in the evaluation
例えば、上述の閾値を0.3とした場合、評価属性「味」と「味付け」の類似度は図4より0.38であって閾値より高く、また評価対象および評価表現も同一であるため、<レストランA,味,最高>と<レストランA,味付け,最高>の2つの評価情報を集約する。 For example, when the above threshold value is 0.3, the similarity between the evaluation attributes “taste” and “seasoning” is 0.38 from FIG. 4, which is higher than the threshold value, and the evaluation target and evaluation expression are the same. , Taste, best> and <restaurant A, seasoned, best>.
集約後の評価情報リストを図7に示す。集約の際には、同一とみなされた評価情報のいずれかが、集約される各評価情報の出現頻度の総和の回数だけ出現したとみなす。例においては、図6に示したように、<レストランA,味,最高>と<レストランA,味付け,最高>はそれぞれ要約対象テキストにおいて1回ずつ出現しているので、集約の結果<レストランA,味,最高>が2回出現したものとみなす。 FIG. 7 shows the evaluation information list after aggregation. At the time of aggregation, it is considered that any piece of evaluation information regarded as the same has appeared for the total number of appearance frequencies of each evaluation information to be aggregated. In the example, as shown in FIG. 6, <Restaurant A, Taste, Best> and <Restaurant A, Seasoned, Best> each appear once in the summary target text. , Taste, best> appears to have appeared twice.
なお、異なる評価情報を同一のものとみなして集約する際、集約先の評価情報を選ぶ問題がある。前述した例であれば、それぞれの評価情報の評価属性「味」と「味付け」を、「味」と「味付け」のどちらに集約するのか、という問題である。 Note that when different evaluation information is regarded as the same and is aggregated, there is a problem of selecting evaluation information at the aggregation destination. In the above-described example, the problem is whether the evaluation attributes “taste” and “seasoning” of each evaluation information are collected into “taste” or “seasoning”.
この問題については、要約対象テキスト中で出現頻度のより高い評価属性を選んでも良いし、単語の長さが短い(あるいは長い)方の評価属性を選んでも良いし、予め訓練テキスト、あるいはその他のテキストを用いて各評価属性の出現頻度を求めておき、その出現頻度に基づいて(多い方など)集約先の評価属性を選んでも良い。ここで挙げた例では、「味」の方が「味付け」より文字数が少ないので、「味」に集約することにした。 For this problem, you may choose an evaluation attribute with a higher appearance frequency in the text to be summarized, an evaluation attribute with a shorter (or longer) word length, a training text, or other The appearance frequency of each evaluation attribute may be obtained using text, and the evaluation attribute of the aggregation destination may be selected based on the appearance frequency (the more frequent one). In the example given here, since “taste” has fewer characters than “seasoning”, we decided to consolidate it into “taste”.
この例では、要約対象テキストから合わせて4つの評価情報が抽出され、うち2つが同一と判定され、結果として3つの評価情報に集約されることになるが、より規模の大きいテキストから多くの評価情報が抽出された場合は、多くの評価情報が集約されることになる。そのため、評価情報リストに含まれる評価情報のうち、集約されるものを1つずつ繰り返し集約し、最終的に集約すべき評価情報がなくなった時点で処理を停止する。 In this example, four pieces of evaluation information are extracted from the text to be summarized, and two of them are determined to be the same, and as a result, they are aggregated into three pieces of evaluation information. When information is extracted, a lot of evaluation information is collected. Therefore, the evaluation information included in the evaluation information list is repeatedly aggregated one by one, and the process is stopped when there is no evaluation information to be finally aggregated.
結果として、図6の評価情報リストに示すような、要約対象テキストから抽出された評価情報およびその出現頻度が与えられたとき、それらが集約されることによって図7の評価情報リストに示すような評価情報およびその出現頻度が得られる。 As a result, as shown in the evaluation information list of FIG. 6, when the evaluation information extracted from the summary target text and the appearance frequency thereof are given, they are aggregated to be shown in the evaluation information list of FIG. Evaluation information and its appearance frequency are obtained.
評価情報集約部4の処理についてまとめる。評価情報集約部4は、要約対象テキストから抽出された評価情報のリストと、評価属性類似度辞書3とを入力として、評価情報のリストに含まれる任意の2つの評価情報のうち、評価対象および評価表現(あるいは評価極性)が同一であり、評価属性が評価属性類似度辞書3に格納されており、かつそれらの評価属性間の類似度が予め設定した閾値より高いものは同一の評価情報とみなして1つの評価情報に集約する。集約後の評価情報の出現頻度は、集約前の2つの評価情報の出現頻度の和とする。集約後の評価情報の評価属性は、一例としては集約前の評価属性のうち短いものとする。これを、入力された評価情報のリストに対し、集約される評価情報がなくなるまで繰り返すことにより、評価情報を集約する。
The processing of the evaluation information aggregation unit 4 will be summarized. The evaluation information aggregating unit 4 receives the evaluation information list extracted from the summary target text and the evaluation
<重要文選択部>
重要文選択部5は、評価情報集約部4で集約された評価情報のリストと、テキスト入力部1で受け付けられ記憶された要約対象テキストとを入力として、当該要約対象テキストから要約としてふさわしい重要文を選択し、テキスト出力部6へ出力する。
<Important sentence selection part>
The important sentence selection unit 5 receives as input the list of evaluation information aggregated by the evaluation information aggregation unit 4 and the summary target text received and stored by the
一例として、重要文選択部5は、要約対象テキストに含まれる任意の文sの組み合わせSのうち、評価情報を用いたスコアが最大の組み合わせS*を求め、当該組み合わせS*に含まれる文を重要文とするものと定式化できる。但し、要約を構成する文sの長さ(バイト数)Length(s)の合計が要約のサイズの上限Kを超えてはならないものとする(要約のサイズはバイト数による定義ではなく、文字数や単語数、文の数によるものでも良い)。 As an example, key sentence selection unit 5, among the combinations S of any sentence s being included in the summary target text, score obtains the maximum combination S * using the evaluation information, the statements contained in the combination S * It can be formulated as an important sentence. However, the sum of the lengths (number of bytes) Length (s) of the sentence s constituting the summary must not exceed the upper limit K of the summary size (the summary size is not defined by the number of bytes, It may be based on the number of words or sentences).
式(2)の関数Scoreは、一例として、文の組み合わせSが網羅する評価情報aのスコアの和とすることができ、以下の式(3)のように定式化できる。 As an example, the function Score of the expression (2) can be the sum of the scores of the evaluation information a covered by the sentence combination S, and can be formulated as the following expression (3).
ここで、Aは要約対象テキストから抽出され、集約された評価情報のリストである。また、関数Includeは以下の式(4)のような関数である。 Here, A is a list of evaluation information extracted and summarized from the text to be summarized. The function Include is a function as shown in the following formula (4).
関数Includeは、文の組み合わせSが、ある評価情報aを含んでいれば1を返し、評価情報aを含んでいなければ0を返す関数である。つまり、仮にSが評価情報aを2個以上含んでいたとしても、関数Includeが返す値は1でしかないため、このような状況におけるスコアの高い文の組み合わせSは、スコアが高い評価情報を重複なく網羅するものとなる(既に含まれている評価情報を更に含んでもスコアの足しにはならないため)。 The function Include is a function that returns 1 if the sentence combination S includes some evaluation information a, and returns 0 if it does not include the evaluation information a. That is, even if S includes two or more pieces of evaluation information a, since the value returned by the function Include is only 1, the combination S of sentences having a high score in such a situation includes evaluation information having a high score. It will be covered without duplication (because additional evaluation information already included will not add to the score).
waは評価情報aの重みであり、一例として以下の式(5)に示す関数で重み付けすることもできる。 w a is a weight of the evaluation information a, and can be weighted by a function shown in the following formula (5) as an example.
ここでtf(a)は評価情報aが要約対象テキスト中で出現した回数、即ち図6、図7における出現頻度に該当し、df(a)は何らかのテキスト集合に含まれるテキストの中で評価情報aを含むテキストの数である。重要文選択部5が、評価情報集約部4で集約された評価情報リストを受け付けた際に、いくつかの評価情報が複数の評価情報が集約された結果になっている場合には、集約前の評価情報のdfの和が集約後の評価情報のdfの和となる。 Here, tf (a) corresponds to the number of times the evaluation information a appears in the text to be summarized, that is, the appearance frequency in FIGS. 6 and 7, and df (a) is the evaluation information in the text included in some text set. The number of texts including a. When the important sentence selection unit 5 receives the evaluation information list aggregated by the evaluation information aggregation unit 4, if some evaluation information is a result of aggregation of a plurality of evaluation information, The sum of df of evaluation information is the sum of df of evaluation information after aggregation.
この式に従えば、要約対象テキスト中で頻出し、かつ、何らかのテキスト集合中においても頻出する評価情報が優先的に要約に含まれることになる。例えば、発明が解決しようとする課題で示したような、飲食店の評判を要約するために評価情報を用いる際には、要約対象テキストとは別の大規模なテキスト集合、一例として大規模なブログのテキストから評価情報抽出部2で示した方法を用いて評価情報aを抽出することによって上述のdf(a)を得ることができる。即ち、これは要約対象テキスト中で主流となっている、評価対象に対する評価情報と、多くの書き手による評価対象に対する評価情報とを同時に考慮して要約に含めるべき評価情報を選んでいることに相当する。もちろん、他の重みづけの方法を用いることもできる。
According to this equation, evaluation information that frequently appears in the text to be summarized and frequently appears in any text set is preferentially included in the summary. For example, when using evaluation information to summarize a restaurant's reputation as shown in the problem to be solved by the invention, a large text set separate from the text to be summarized, for example, a large scale The above-described df (a) can be obtained by extracting the evaluation information a from the blog text using the method shown by the evaluation
図8に集約を行っていない場合の評価情報の重みの一例を示す。図6に示した評価情報リストの出現頻度が図8のtfに該当する。dfは事前に何らかのテキスト集合から計算したものとする。図8に示したtfとdfを用いて式(5)を計算すると重みが計算される。 FIG. 8 shows an example of the weight of evaluation information when aggregation is not performed. The appearance frequency of the evaluation information list shown in FIG. 6 corresponds to tf in FIG. Let df be calculated from some text set in advance. When equation (5) is calculated using tf and df shown in FIG. 8, the weight is calculated.
図9に集約を行った場合の評価情報の重みの一例を示す。図9は図7の集約された評価情報リストを元に評価情報の重みを計算したもので、図8の<レストランA,味,最高>と<レストランA,味付け,最高>が同じものとして扱われているため、<レストランA,味,最高>が要約の対象とするテキスト中で2回出現したものとみなされ、またdfも集約前の2つの評価情報のdfの和になっている。そのため、重みも集約前に比べて高くなっている。 FIG. 9 shows an example of the weight of evaluation information when aggregation is performed. FIG. 9 shows the weight of evaluation information calculated based on the aggregated evaluation information list of FIG. 7, and <restaurant A, taste, best> and <restaurant A, seasoning, best> in FIG. 8 are treated as the same. Therefore, <restaurant A, taste, best> is considered to appear twice in the text to be summarized, and df is the sum of the two evaluation information df before aggregation. Therefore, the weight is also higher than before aggregation.
式(2)で示したような、要約のサイズ制限を満たした上で、スコアを最大にする文の組み合わせを選ぶ問題は、最適解を求める際に多大な計算量を要する場合がある。そのため、ここでは一例として貪欲法を用いて文の組み合わせを選ぶ場合について述べる。貪欲法は、まだ選ばれていない文の中から、加えた際にスコアが最も上昇する文を選んでいく方法である。もちろん、貪欲法以外にも、例えば、Wen-tau Yih et al., "Multi-Document Summarization by Maximizing Informative Content-Words", In Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI), pp.1776-1782, 2007(参考文献3)で示されているような探索を行い、よりスコアが高い文の選び方を求めることもできる。 The problem of selecting a sentence combination that maximizes the score while satisfying the size limit of the summary as shown in Expression (2) may require a large amount of calculation when obtaining an optimal solution. Therefore, here, as an example, a case where a combination of sentences is selected using a greedy method will be described. The greedy method is a method of selecting a sentence having the highest score when added from sentences that have not been selected yet. Of course, in addition to the greedy method, for example, Wen-tau Yih et al., "Multi-Document Summarization by Maximizing Informative Content-Words", In Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI), pp.1776- A search as shown in 1782, 2007 (reference document 3) can be performed to determine how to select sentences with higher scores.
図10に重要文選択処理の一例を示す。要約対象テキストを構成するテキストAおよびBはそれぞれ2つの文から構成されているとし、ここではテキストAおよびBを合わせた4つの文から2つの重要文を選ぶことを考える。また、図10に示す4つの文それぞれから、即ち文A1からは<レストランA,アイスクリーム,おいしい>、文A2からは<レストランA,味,最高>、文B1からは<レストランA,味付け,最高>、文B2からは<レストランA,お刺身,おいしい>という評価情報が抽出されたとする。また抽出された評価情報が評価情報集約部4で集約され、重要文選択部5でそれぞれ重みづけされた結果が図10に示す評価情報リストと重みであるとする。 FIG. 10 shows an example of important sentence selection processing. Assume that the texts A and B constituting the text to be summarized are each composed of two sentences. Here, it is considered that two important sentences are selected from four sentences including the texts A and B. From each of the four sentences shown in FIG. 10, that is, from the sentence A1, <restaurant A, ice cream, delicious>, from the sentence A2, <restaurant A, taste, best>, and from the sentence B1, <restaurant A, seasoned, Assume that evaluation information <restaurant A, sashimi, delicious> has been extracted from sentence B2. Further, it is assumed that the extracted evaluation information is aggregated by the evaluation information aggregating unit 4 and the result weighted by the important sentence selecting unit 5 is the evaluation information list and weight shown in FIG.
図10に示す評価情報とその重みに従い、上述したように最も重みの高い評価情報を含む文を重要文として選択するとすれば、評価情報<レストランA,味,最高>を含む文A2がまず選択されることになる。ここでは選ぶ文の数を2つと仮定しているので、もう1つ選ぶ文は次に重みが高い評価情報<レストランA,お刺身,おいしい>を含む文B2となり、これら2つの文が重要文として選択される。 If the sentence including the evaluation information with the highest weight as described above is selected as the important sentence according to the evaluation information and its weight shown in FIG. 10, the sentence A2 including the evaluation information <restaurant A, taste, best> is selected first. Will be. Since it is assumed here that the number of sentences to be selected is two, the sentence to be selected is sentence B2 including the next highest evaluation information <restaurant A, sashimi, delicious>. These two sentences are important sentences. Selected as.
図11に評価情報を集約しなかった場合の重要文選択処理の一例を示す。評価情報を集約しなかった場合、図11に示す評価情報リストと重みから、まず文A2が重要文として選択される。もう1つ選ばれる文は、次に重みの大きい評価情報<レストランA,味付け,最高>を含む文B1である。結果として重要文として文A2と文B1が選択されるが、図11に示すように、これらはほぼ同一のことを述べており、評価情報を集約した際に生成される要約と比べ冗長なものとなっている。 FIG. 11 shows an example of important sentence selection processing when evaluation information is not collected. When the evaluation information is not collected, the sentence A2 is first selected as an important sentence from the evaluation information list and the weight shown in FIG. Another sentence selected is sentence B1 including evaluation information <restaurant A, seasoning, best> having the next highest weight. As a result, sentence A2 and sentence B1 are selected as important sentences. However, as shown in FIG. 11, they describe almost the same thing and are more verbose than the summary generated when the evaluation information is aggregated. It has become.
<テキスト出力部>
テキスト出力部6は、重要文選択部5で選択された重要文を所定の規則に従って並び替え、単一のテキストとして出力する。並べ替えは、例えば文番号に基づいても良いし、要約対象のテキストが書かれた、あるいは投稿された時間に基づいても良いし、あるいは公知の、一例としてMirella Lapata, "Probabilistic Text Structuring: Experiments with Sentence Ordering", In Proceedings of the 41st Meeting of the Association for Computational Linguistics, pp.545-552, 2003(参考文献4)に記載の文を並べ替える方法を用いても良い。なお、重要文選択部5で選択された重要文が1つのみである場合は、その1つの文をそのまま単一のテキストとして出力する。
<Text output part>
The
<本発明のテキスト要約方法>
図12に上述した本発明のテキスト要約装置における処理の流れを示す。
<Text Summarization Method of the Present Invention>
FIG. 12 shows the flow of processing in the text summarization apparatus of the present invention described above.
テキスト入力部1は要約対象テキストを受け付けて記憶し(s1)、評価情報抽出部2は要約対象テキストから評価情報を抽出する(s2)。評価情報集約部4は要約対象テキストから抽出された評価情報を、評価属性類似度辞書3を用いて集約し(s3)、重要文選択部5は集約された評価情報に基づき、要約対象テキストから重要文を選択する(s4)。テキスト出力部6は選択された重要文を所定の規則に従って並び替えて出力する(s5)。
The
<評価情報集約処理の詳細>
また、前述した評価情報集約の詳細な処理の流れの一例を図13に示す。
<Details of evaluation information aggregation processing>
FIG. 13 shows an example of the detailed processing flow of the evaluation information aggregation described above.
即ち、評価情報集約部4は、評価情報抽出部2で要約対象テキストから抽出された評価情報を記述したリストから2つの評価情報の組み合わせを取り出し(s11)、当該2つの評価情報の評価属性間の類似度を評価属性類似度辞書3より読み出す(s12)。この際、該当する評価属性間の類似度がなければ(s13:No)、s11に戻って別の2つの評価情報の組み合わせを取り出す。また、該当する評価属性間の類似度があれば(s13:Yes)、これが予め設定された閾値より高いかどうかを調べ、低い場合(s14:No)は前記同様にs11に戻って別の2つの評価情報の組み合わせを取り出す。 That is, the evaluation information aggregating unit 4 extracts a combination of two pieces of evaluation information from the list describing the evaluation information extracted from the summary target text by the evaluation information extraction unit 2 (s11), and evaluates between the evaluation attributes of the two pieces of evaluation information. Are read from the evaluation attribute similarity dictionary 3 (s12). At this time, if there is no similarity between the corresponding evaluation attributes (s13: No), the process returns to s11 to extract another combination of two pieces of evaluation information. If there is a similarity between the corresponding evaluation attributes (s13: Yes), it is checked whether it is higher than a preset threshold value. If it is lower (s14: No), the process returns to s11 as described above, and another 2 A combination of two pieces of evaluation information is extracted.
一方、該当する評価属性間の類似度が予め設定された閾値より高い場合(s14:Yes)は、さらに前記2つの評価情報の評価対象同士および評価表現同士を比較照合する(s15)。比較照合の結果、評価対象同士または評価表現同士のいずれか一方もしくは両方が不一致であれば(s16:No)、前記同様にs11に戻って別の2つの評価情報の組み合わせを取り出す。 On the other hand, when the degree of similarity between the corresponding evaluation attributes is higher than a preset threshold value (s14: Yes), the evaluation objects and the evaluation expressions of the two evaluation information are further compared and collated (s15). As a result of the comparison and collation, if one or both of the evaluation objects or the evaluation expressions do not match (s16: No), the process returns to s11 as described above, and another combination of two pieces of evaluation information is taken out.
また、比較照合の結果、評価対象同士または評価表現同士の両者とも同一であれば(s16:Yes)、前記2つの評価情報を等価とみなして1つの評価情報に集約し、さらにこの集約した評価情報で前記リストを更新する(s17)。 Further, if both the evaluation objects or the evaluation expressions are the same as a result of the comparison and collation (s16: Yes), the two evaluation information are regarded as equivalent and are aggregated into one evaluation information. The list is updated with information (s17).
以上の処理を集約後の評価情報を含めて前記リスト中の評価情報に対する全ての組み合わせについて繰り返し行う(s18)。 The above processing is repeated for all combinations of evaluation information in the list including evaluation information after aggregation (s18).
なお、s12〜s14の処理とs15〜s16の処理は、その順序を入れ替えても差し支えない。 Note that the order of the processes of s12 to s14 and the processes of s15 to s16 may be interchanged.
<補足事項>
なお、これまでの説明は、各テキストが少なくとも1つの文を含む複数のテキストから要約を生成する場合、つまり要約対象テキストが各テキストが少なくとも1つの文を含む複数のテキストよりなる場合について述べたが、少なくとも2つの文を含む1つのテキストから要約を生成する場合、つまり要約対象テキストが少なくとも2つの文を含む1つのテキストよりなる場合であっても、(この1つのテキストから等価の評価情報が重複して抽出される可能性が否定されない限り)本発明は適用可能である。
<Supplementary items>
The description so far has described the case where each text generates a summary from a plurality of texts including at least one sentence, that is, the case where the text to be summarized is composed of a plurality of texts each including at least one sentence. Even if the summary is generated from one text including at least two sentences, that is, even if the text to be summarized consists of one text including at least two sentences, The present invention is applicable (unless it is denied that there is a possibility that these are extracted in duplicate).
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図12のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。 The present invention also installs a program for realizing the functions shown in the configuration diagram of FIG. 1 or a program having the procedure shown in the flowchart of FIG. 12 via a medium or communication line in a known computer. Is also feasible.
1:テキスト入力部、2:評価情報抽出部、3:評価属性類似度辞書、4:評価情報集約部、5:重要文選択部、6:テキスト出力部。 1: text input unit, 2: evaluation information extraction unit, 3: evaluation attribute similarity dictionary, 4: evaluation information aggregation unit, 5: important sentence selection unit, 6: text output unit.
Claims (7)
要約対象テキストを受け付けるテキスト入力部と、
テキスト入力部で受け付けた要約対象テキストから評価対象、評価属性および評価表現の少なくとも3つの要素を含む評価情報を抽出する評価情報抽出部と、
評価情報における評価属性間の類似度を格納した評価属性類似度辞書と、
評価情報抽出部で要約対象テキストから抽出された評価情報を、評価属性類似度辞書を用いて集約する評価情報集約部と、
評価情報集約部で集約された評価情報に基づき、テキスト入力部で受け付けた要約対象テキストから重要文を選択する重要文選択部と、
重要文選択部で選択された重要文を所定の規則に従って並び替えて出力するテキスト出力部とを備えた
ことを特徴とするテキスト要約装置。 A text summarization apparatus that selects at least one important sentence that is a sentence suitable for a summary from a summary target text that is a text to be summarized and generates a summary corresponding to the summary target text,
A text input part that accepts the text to be summarized;
An evaluation information extraction unit that extracts evaluation information including at least three elements of an evaluation target, an evaluation attribute, and an evaluation expression from the summary target text received by the text input unit;
Evaluation attribute similarity dictionary storing similarity between evaluation attributes in evaluation information;
An evaluation information aggregating unit for aggregating evaluation information extracted from the summary target text by the evaluation information extraction unit using an evaluation attribute similarity dictionary;
Based on the evaluation information aggregated by the evaluation information aggregation unit, an important sentence selection unit that selects an important sentence from the summary target text received by the text input unit,
A text summarization apparatus comprising: a text output unit that outputs the important sentences selected by the important sentence selection unit according to a predetermined rule.
ことを特徴とする請求項1に記載のテキスト要約装置。 A combination of two pieces of evaluation information is taken out from the list describing the evaluation information, and the similarity between the two evaluation attributes of the two pieces of evaluation information is read from the evaluation attribute similarity dictionary, which is higher than a preset threshold value and the 2 If both evaluation objects of evaluation information and evaluation expressions are compared and collated, if both are the same, the two evaluation information are regarded as equivalent and aggregated into one evaluation information. The text summarization apparatus according to claim 1, further comprising an evaluation information aggregating unit that repeatedly performs all combinations of evaluation information in the list.
ことを特徴とする請求項1に記載のテキスト要約装置。 Among the combinations S of arbitrary sentences s included in the text to be summarized, a combination S * having the maximum score using the evaluation information is obtained, and an important sentence selection unit that uses the sentence included in the combination S * as an important sentence is provided. The text summarization apparatus according to claim 1, wherein the text summarization apparatus is a text summarization apparatus.
テキスト入力部が、要約対象テキストを受け付けるステップと、
評価情報抽出部が、前記受け付けた要約対象テキストから評価対象、評価属性および評価表現の少なくとも3つの要素を含む評価情報を抽出するステップと、
評価情報集約部が、前記要約対象テキストから抽出された評価情報を、評価情報における評価属性間の類似度を格納した評価属性類似度辞書を用いて集約するステップと、
重要文選択部が、前記集約された評価情報に基づき、前記要約対象テキストから重要文を選択するステップと、
テキスト出力部が、前記選択された重要文を所定の規則に従って並び替えて出力するステップとを含む
ことを特徴とするテキスト要約方法。 A text summarization method for selecting at least one important sentence which is a sentence suitable for summarization from text to be summarized, which is a text to be summarized, and generating a summary corresponding to the text to be summarized,
A step in which the text input unit accepts the text to be summarized;
An evaluation information extraction unit that extracts evaluation information including at least three elements of an evaluation object, an evaluation attribute, and an evaluation expression from the accepted summary object text;
An evaluation information aggregating unit that aggregates the evaluation information extracted from the summary target text using an evaluation attribute similarity dictionary storing similarity between evaluation attributes in the evaluation information;
An important sentence selecting unit selecting an important sentence from the summary target text based on the aggregated evaluation information;
A text summarizing method, comprising: a text output unit rearranging and outputting the selected important sentences according to a predetermined rule.
評価情報を記述したリストから2つの評価情報の組み合わせを取り出すステップと、
当該2つの評価情報の評価属性間の類似度を評価属性類似度辞書より読み出すステップと、
これが予め設定された閾値より高い場合は、さらに前記2つの評価情報の評価対象同士および評価表現同士を比較照合するステップと、
両者とも同一であれば、前記2つの評価情報を等価とみなして1つの評価情報に集約するステップと、
これを集約後の評価情報を含めて前記リスト中の評価情報に対する全ての組み合わせについて繰り返し行うステップとからなる
ことを特徴とする請求項4に記載のテキスト要約方法。 Evaluation information aggregation step
Extracting a combination of two pieces of evaluation information from a list describing the evaluation information;
Reading the similarity between the evaluation attributes of the two evaluation information from the evaluation attribute similarity dictionary;
If this is higher than a preset threshold value, the step of comparing and collating the evaluation objects and evaluation expressions of the two evaluation information,
If both are the same, the two pieces of evaluation information are regarded as equivalent and aggregated into one piece of evaluation information;
The text summarizing method according to claim 4, further comprising a step of repeatedly performing this for all combinations of the evaluation information in the list including the evaluation information after aggregation.
要約対象テキストに含まれる任意の文sの組み合わせSのうち、評価情報を用いたスコアが最大の組み合わせS*を求めるステップと、
当該組み合わせS*に含まれる文を重要文とするステップとからなる
ことを特徴とする請求項4に記載のテキスト要約方法。 The important sentence selection step is
Of the combinations S of arbitrary sentences s included in the text to be summarized, obtaining a combination S * having the maximum score using evaluation information;
The text summarizing method according to claim 4, further comprising a step of setting a sentence included in the combination S * as an important sentence.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009236274A JP5273735B2 (en) | 2009-10-13 | 2009-10-13 | Text summarization method, apparatus and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009236274A JP5273735B2 (en) | 2009-10-13 | 2009-10-13 | Text summarization method, apparatus and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011085986A true JP2011085986A (en) | 2011-04-28 |
| JP5273735B2 JP5273735B2 (en) | 2013-08-28 |
Family
ID=44078904
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009236274A Active JP5273735B2 (en) | 2009-10-13 | 2009-10-13 | Text summarization method, apparatus and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5273735B2 (en) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013161457A (en) * | 2012-02-08 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Document summarization device, and method and program for the same |
| WO2013161510A1 (en) * | 2012-04-25 | 2013-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Evaluation polarity-based text classification method, computer program, and computer |
| WO2014064777A1 (en) * | 2012-10-24 | 2014-05-01 | 株式会社 日立製作所 | Document evaluation assistance system and document evaluation assistance method |
| JP2014528620A (en) * | 2011-10-14 | 2014-10-27 | ヤフー! インコーポレイテッド | Method and apparatus for automatically summarizing the contents of an electronic document |
| WO2016067396A1 (en) * | 2014-10-29 | 2016-05-06 | 株式会社日立製作所 | Sentence sorting method and computer |
| CN109800390A (en) * | 2018-12-21 | 2019-05-24 | 北京石油化工学院 | A kind of calculation method and device of individualized emotion abstract |
| JP2020149119A (en) * | 2019-03-11 | 2020-09-17 | トヨタ自動車株式会社 | Recommendation sentence generator, recommendation sentence generation method, and recommendation sentence generation program |
| JP2021033651A (en) * | 2019-08-23 | 2021-03-01 | ヤフー株式会社 | Providing equipment, providing method and providing program |
| KR20220091035A (en) * | 2020-12-23 | 2022-06-30 | 주식회사 카카오 | Summary evaluation device, control method thereof and summary evaluation program |
| JP2022101276A (en) * | 2020-12-24 | 2022-07-06 | 富士通株式会社 | Data registration processing method, data registration processing program, and data registration processing apparatus |
| JP2022103155A (en) * | 2020-12-25 | 2022-07-07 | 三菱電機Itソリューションズ株式会社 | Evaluation device, evaluation method, and evaluation program |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05324728A (en) * | 1992-05-18 | 1993-12-07 | Hitachi Ltd | Information retrieving device |
| JPH06251076A (en) * | 1993-02-27 | 1994-09-09 | Omron Corp | Device and method for retrieving data base |
| JPH10134066A (en) * | 1996-10-29 | 1998-05-22 | Matsushita Electric Ind Co Ltd | Document aggregation device |
| JPH10320419A (en) * | 1997-05-22 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | Information associating apparatus and method |
| JP2000235584A (en) * | 1998-12-17 | 2000-08-29 | Fuji Xerox Co Ltd | Document abstraction apparatus, document abstraction method, and recording medium recording document abstraction program |
| JP2001101228A (en) * | 1999-10-01 | 2001-04-13 | Fuji Xerox Co Ltd | Document summarizing device, document summarizing method and recording medium |
| JP2008071136A (en) * | 2006-09-14 | 2008-03-27 | Nec Corp | Representative information selection method, representative information selection system and program |
| JP2008140359A (en) * | 2006-11-08 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Evaluation information extraction apparatus, evaluation information extraction method and program thereof |
| JP2008225566A (en) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Related information extraction apparatus and method |
-
2009
- 2009-10-13 JP JP2009236274A patent/JP5273735B2/en active Active
Patent Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05324728A (en) * | 1992-05-18 | 1993-12-07 | Hitachi Ltd | Information retrieving device |
| JPH06251076A (en) * | 1993-02-27 | 1994-09-09 | Omron Corp | Device and method for retrieving data base |
| JPH10134066A (en) * | 1996-10-29 | 1998-05-22 | Matsushita Electric Ind Co Ltd | Document aggregation device |
| JPH10320419A (en) * | 1997-05-22 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | Information associating apparatus and method |
| JP2000235584A (en) * | 1998-12-17 | 2000-08-29 | Fuji Xerox Co Ltd | Document abstraction apparatus, document abstraction method, and recording medium recording document abstraction program |
| JP2001101228A (en) * | 1999-10-01 | 2001-04-13 | Fuji Xerox Co Ltd | Document summarizing device, document summarizing method and recording medium |
| JP2008071136A (en) * | 2006-09-14 | 2008-03-27 | Nec Corp | Representative information selection method, representative information selection system and program |
| JP2008140359A (en) * | 2006-11-08 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Evaluation information extraction apparatus, evaluation information extraction method and program thereof |
| JP2008225566A (en) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Related information extraction apparatus and method |
Non-Patent Citations (2)
| Title |
|---|
| 立石 健二 他: "Webからの意見抽出システムにおける意見ようやく方法の評価", 情報処理学会第67回(平成17年)全国大会講演論文集, vol. Vol.3,No.4K-5, JPN6013021047, 2 March 2005 (2005-03-02), JP, pages 3 - 81, ISSN: 0002521714 * |
| 立石 健二 他: "Web文書集合からの意見情報抽出と着眼点に基づく要約生成", 情報処理学会研究報告, vol. Vol.2004,No.93(2004-FI-76(1)), JPN6013021050, 17 September 2004 (2004-09-17), JP, pages 1 - 8, ISSN: 0002521715 * |
Cited By (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014528620A (en) * | 2011-10-14 | 2014-10-27 | ヤフー! インコーポレイテッド | Method and apparatus for automatically summarizing the contents of an electronic document |
| JP2013161457A (en) * | 2012-02-08 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Document summarization device, and method and program for the same |
| US9740681B2 (en) | 2012-04-25 | 2017-08-22 | International Business Machines Corporation | Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer |
| WO2013161510A1 (en) * | 2012-04-25 | 2013-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Evaluation polarity-based text classification method, computer program, and computer |
| JP5607859B2 (en) * | 2012-04-25 | 2014-10-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Sentence classification method based on evaluation polarity, computer program, computer |
| WO2014064777A1 (en) * | 2012-10-24 | 2014-05-01 | 株式会社 日立製作所 | Document evaluation assistance system and document evaluation assistance method |
| JPWO2014064777A1 (en) * | 2012-10-24 | 2016-09-05 | 株式会社日立製作所 | Document evaluation support system and document evaluation support method |
| WO2016067396A1 (en) * | 2014-10-29 | 2016-05-06 | 株式会社日立製作所 | Sentence sorting method and computer |
| JPWO2016067396A1 (en) * | 2014-10-29 | 2017-05-25 | 株式会社日立製作所 | Sentence sorting method and calculator |
| CN109800390A (en) * | 2018-12-21 | 2019-05-24 | 北京石油化工学院 | A kind of calculation method and device of individualized emotion abstract |
| JP7176443B2 (en) | 2019-03-11 | 2022-11-22 | トヨタ自動車株式会社 | Recommendation statement generation device, recommendation statement generation method, and recommendation statement generation program |
| JP2020149119A (en) * | 2019-03-11 | 2020-09-17 | トヨタ自動車株式会社 | Recommendation sentence generator, recommendation sentence generation method, and recommendation sentence generation program |
| JP2021033651A (en) * | 2019-08-23 | 2021-03-01 | ヤフー株式会社 | Providing equipment, providing method and providing program |
| JP7106500B2 (en) | 2019-08-23 | 2022-07-26 | ヤフー株式会社 | Provision device, provision method and provision program |
| KR20220091035A (en) * | 2020-12-23 | 2022-06-30 | 주식회사 카카오 | Summary evaluation device, control method thereof and summary evaluation program |
| KR102495881B1 (en) | 2020-12-23 | 2023-02-06 | 주식회사 카카오 | Summary evaluation device, control method thereof and summary evaluation program |
| JP2022101276A (en) * | 2020-12-24 | 2022-07-06 | 富士通株式会社 | Data registration processing method, data registration processing program, and data registration processing apparatus |
| JP7610101B2 (en) | 2020-12-24 | 2025-01-08 | 富士通株式会社 | DATA REGISTRATION PROCESSING METHOD, DATA REGISTRATION PROCESSING PROGRAM AND DATA REGISTRATION PROCESSING APPARATUS |
| JP2022103155A (en) * | 2020-12-25 | 2022-07-07 | 三菱電機Itソリューションズ株式会社 | Evaluation device, evaluation method, and evaluation program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5273735B2 (en) | 2013-08-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5273735B2 (en) | Text summarization method, apparatus and program | |
| US8983963B2 (en) | Techniques for comparing and clustering documents | |
| JP6466952B2 (en) | Sentence generation system | |
| WO2010038540A1 (en) | System for extracting term from document containing text segment | |
| Sarkar | Sentence clustering-based summarization of multiple text documents | |
| JP2010176665A (en) | System and method for providing default hierarchical training for social indexing | |
| CN111104488B (en) | Method, device and storage medium for integrating retrieval and similarity analysis | |
| Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
| JP6409071B2 (en) | Sentence sorting method and calculator | |
| JP2008282366A (en) | Question answering apparatus, question answering method, question answering program, and recording medium recording the program | |
| JP2014106665A (en) | Document retrieval device and document retrieval method | |
| JP5718405B2 (en) | Utterance selection apparatus, method and program, dialogue apparatus and method | |
| Priyadharshan et al. | Text summarization for Tamil online sports news using NLP | |
| JP4931114B2 (en) | Data display device, data display method, and data display program | |
| JP4969209B2 (en) | Search system | |
| JP2006004399A (en) | Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method | |
| JP2009086903A (en) | Search service device | |
| Sariki et al. | A book recommendation system based on named entities | |
| CN114328895B (en) | News abstract generation method and device and computer equipment | |
| JP5085584B2 (en) | Article feature word extraction device, article feature word extraction method, and program | |
| JPH11259524A (en) | Information retrieval system, information processing method in information retrieval system and record medium | |
| JP2008282328A (en) | Text classification device, text classification method, text classification program, and recording medium recording the program | |
| JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
| CN113868431A (en) | Relation extraction method, device and storage medium for financial knowledge graph | |
| JP5942981B2 (en) | Summary creation device, summary creation method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120308 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130424 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130508 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130509 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5273735 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |