JP2004252775A - Word extraction device, word extraction method and program - Google Patents
Word extraction device, word extraction method and program Download PDFInfo
- Publication number
- JP2004252775A JP2004252775A JP2003043311A JP2003043311A JP2004252775A JP 2004252775 A JP2004252775 A JP 2004252775A JP 2003043311 A JP2003043311 A JP 2003043311A JP 2003043311 A JP2003043311 A JP 2003043311A JP 2004252775 A JP2004252775 A JP 2004252775A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- importance
- list
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】所定の文書から単語を抽出する場合、抽出された単語に、誤認識語が混入される割合を低減することができる単語抽出装置を提供することを目的とする。
【解決手段】文書から所定の単語を抽出する単語抽出装置において、所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リストに記憶する単語抽出部と、上記単語リスト中の各単語に、重要度を付与する重要度付与部と、上記単語リスト中の所定の単語と他の単語との結束度を、上記所定の単語に付与する結束度付与部と、上記重要度と上記結束度とが付加されている単語リストを出力する単語リスト出力部とを有することを特徴とする単語抽出装置。
【選択図】 図1An object of the present invention is to provide a word extraction device capable of reducing a rate of mixing an erroneously recognized word into an extracted word when extracting a word from a predetermined document.
In a word extraction device for extracting a predetermined word from a document, a word extraction unit that extracts a word in the document from a predetermined input document, and stores the extracted word in the document in a word list; An importance assigning unit that assigns importance to each word in the list; a unity assigning unit that assigns a unity between a predetermined word and another word in the word list to the predetermined word; A word extraction device comprising: a word list output unit that outputs a word list to which importance and the unity are added.
[Selection diagram] Fig. 1
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識や文字認識等を行った結果の語に重要度を付与し、重要語を抽出する単語抽出装置に関する。
【0002】
【従来の技術】
従来の単語抽出装置では、入力文書中の出現頻度や外部コーパスでの出現頻度に基づいて、重要度を計算する手法が一般的である。たとえば、tf・idf法では、入力文書中で、その語の出現頻度(tf)と、新聞記事等の外部コーパス中においてその語が出現する文書数の逆数(idf;一般にはさらに対数を取って利用する)との積をもって重要度とする(たとえば、特許文献1参照)。また、文書の重要度と単語間の関連性とを評価することが知られている(たとえば、特許文献2参照)。
【0003】
これらの手法において、入力文書が、完全に信頼がおけるものであるとして設計され、たとえば、音声認識や文字認識の結果のように、入力に誤りが含まれている場合にも、誤り語を無分別に採用するという問題がある。
【0004】
【特許文献1】
特開2001−067362号公報
【特許文献2】
特開2001−101194号公報
【0005】
【発明が解決しようとする課題】
従来の単語抽出装置では、認識誤りの可能性を考慮しないので、誤認識率に応じて、選ばれた重要語に誤認識語が混入する。
【0006】
重要語は、いわば文書の特徴を少数の語で代表させた語であるということができ、選択された重要語に誤認識語が混入していれば、その重要語を用いた処理(要約や関連文書検索等の処理)に、致命的な悪影響を及ぼす。
【0007】
したがって、選択された重要語に誤認識語が混入していれば、この重要語の誤認識語混入は、単に非重要語が選ばれた場合とは、質の異なる誤抽出であり、誤認識語の混入を避けることが望まれる。認識誤りかどうかを決定的に判別することは不可能であるので、ある程度、誤認識語が混入することを避けることはできないが、誤認識語混入の割合をできるだけ低くすることが望まれる。
【0008】
本発明は、所定の文書から単語を抽出する場合、抽出された単語に、誤認識語が混入される割合を低減することができる単語抽出装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明は、抽出単語と文書中の他の単語との結束度を表す尺度を、抽出単語に付与することによって、重要語への誤認識語の混入割合を低減することを可能とする。
【0010】
また、本発明は、文書から所定の単語を抽出する単語抽出方法において、所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リストに記憶する単語抽出段階と、上記単語リスト中の各単語に、重要度を付与する重要度付与段階と、上記単語リスト中の所定の単語と他の単語との結束度を、上記所定の単語に付与する結束度付与段階と、上記重要度と上記結束度とが付加されている単語リストを出力する単語リスト出力段階とを有することを特徴とする単語抽出方法である。
【0011】
さらに、本発明は、文書から所定の単語を抽出するプログラムにおいて、所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リスト記憶装置に格納されている単語リストに、単語抽出部が、記憶させる単語抽出手順と、上記単語リスト中の各単語に、重要度付与部が、重要度を付与する重要度付与手順と、上記単語リスト中の所定の単語と他の単語との結束度を、結束度付与部が、上記所定の単語に付与する結束度付与手順と、上記重要度と上記結束度とが付加されている単語リストを、出力部に出力させる単語リスト出力手順とをコンピュータに実行させるプログラムである。
【0012】
【発明の実施の形態および実施例】
図1は、本発明の一実施例である単語抽出装置100を示す構成図である。
【0013】
入力文書は、入力装置110から入力され、単語抽出部120によって文書内の単語が抽出され、単語リスト記憶装置130に保存される。
【0014】
単語抽出部120は、形態素解析によってテキストから単語に分割するものである。
【0015】
重要度付与部140は、単語リスト記憶装置130内の各単語について、重要度を付与する。付与される重要度は、自動要約装置や文書自動分類装置、関連文書検索装置等の自然言語処理システムで広く用いられる。
【0016】
重要度を計算する場合、たとえば、tf・idf等を利用するようにしていもよい。結束度付与部150は、単語リスト記憶装置130内の各単語について、結束度を付与する。結束度を計算する場合、たとえば、別コーパスから算出した単語共起ベクトルの距離や、別コーパスから算出した単語間の相互情報量等を利用することができる。
【0017】
単語wiとwjとの相互情報量I(wi,wj)を用いて、結束度(wi)を計算する場合、たとえば、次の式(1)によって、結束度(wi)を算出することができる。
【0018】
【数1】
相互情報量I(wi,wj)は、新聞記事等の別コーパスから予め算出し、別コーパス中における所定の単語の出現確立P(w)と、共起出現確立P(wi,wj)とを用い、次の式(2)によって、相互情報量I(wi,wj)を計算することができる。
【0019】
【数2】
なお、上記式(2)において、対数の底に、何にとるかは任意である。
【0020】
単語共起ベクトルの距離を用いる場合、たとえば、単語ベクトル
【0021】
【数3】
と、文書ベクトル
【0022】
【数4】
とのなす角度を用い、次の式(3)によって、単語共起ベクトルの距離を算出することができる。
【0023】
【数5】
ここで、新聞記事等の別コーパスから、各単語ベクトルwiを予め算出し、別コーパス内の各文書がベクトルの次元を持ち、所定の単語が、文書中に出現すれば、1であり、出現しなければ、0であると定義する。角度(上記単語ベクトルと上記文書ベクトルとのなす角度)の代わりに、内積やユークリッド距離等を用いても、上記と同様である。
【0024】
単語リスト出力部160は、重要度と結束度とが付加された単語を、記憶装置130から取り出して出力する。
【0025】
出力されたリストから重要語を抽出する場合、たとえば、重要度と結束度との積が大きい順にソートし、上位n単語を抽出すればよい。重要度と結束度とについて、上記のように積を求める代わりに、加算するようにしてもよく、上記と同様である。この場合、重み付けして加算してもよく、また、重み付けしないで加算するようにしてもよい。
【0026】
次に、上記実施例の動作について説明する。
【0027】
日本語音声を自動音声認識した文書を例にとって、単語抽出装置100の動作を説明する。
【0028】
図2は、日本語音声を自動音声認識した文書の例を示す図である。
【0029】
図2に示す例文書では、「アザラシ」、「タマ」、「帷子川」は正しく音声認識された単語であるが、「イチロー」は誤認識された語であるとして説明する。
【0030】
図2の入力文書は、入力装置110から入力され、上記入力された入力文書から、単語抽出部120が、単語「アザラシ」、「タマ」、「帷子川」、「イチロー」を抽出し、これら抽出された単語が、単語リスト記憶装置130に保存される。
【0031】
この例では、入力文書は、日本語プレインテキストであるので、単語抽出部120は、形態素解析装置を用い、容易に構成可能である。仮に入力文書が、音声認識装置からのマークアップつきの文書であれば、単語抽出部120の処理は、単語とマークされている箇所とを取り出すだけであり、さらに容易に構成可能である。
【0032】
重要度付与部140は、単語リスト記憶装置130に記憶されている各単語について、重要度を付与する。ここでは、tf・idf法を用い、
重要度(「アザラシ」)=1.0
重要度(「タマ」)=4.0
重要度(「帷子川」)=3.0
重要度(「イチロー」)=4.0
であると計算されたとする。
【0033】
tf・idfの計算については、たとえば「東京大学出版会:情報検索と言語処理」を参照。
【0034】
次に、結束度付与部150は、単語リスト記憶装置130に記憶されている各単語について、結束度を付与する。
【0035】
図3は、共起頻度の例を示す図である。
【0036】
上記実施例において、結束度を算出する場合、別コーパスから、図3に示す共起頻度が得られていたとし、この場合における相互情報量を用いる。図3に示す共起頻度から、相互情報量は、
I(「アザラシ,タマ」)=8.76
I(「アザラシ,帷子川」)=8.97
I(「アザラシ,イチロー」)=0
I(「タマ,帷子川」)=9.38
I(「タマ,イチロー」)=0
I(「帷子川,イチロー」)=0
と計算できる(ここでは、対数の底を2とした)。
【0037】
したがって、各単語の結束度f(w)は、
結束度(「アザラシ」)=17.73
結束度(「タマ」)=18.14
結束度(「帷子川」)=18.35
結束度(「イチロー」)=0
である。なお、重要度付与部140の処理順序と、結束度付与部150の処理順序とは任意である。
【0038】
次に、出力部160は、重要度と結束度とが付加ている単語リストを、記憶装置130から取り出し、出力する。
【0039】
図4は、上記実施例において、重要度と結束度とが付加されている単語リストを取り出した例を示す図である。
【0040】
この結果に基づいて、たとえば、重要度2語を取り出すことを考える。従来技術では、図4において、「重要度」のみによって判断しているので、取り出される単語は、「タマ」と「イチロー」であるが、上記実施例において、たとえば、重要度と結束度との積を尺度とすれば、「タマ」と「帷子川」が取り出される。上記積の代わりに、線形結合を用いても、上記と同様の結果になる。
【0041】
すなわち、出力部160が出力した単語リストから、上記重要度と上記結束度との積、または、線形結合に応じて、単語を取り出すようにしてもよい。
【0042】
つまり、上記実施例によれば、抽出単語と、文書中の他の単語との結束度を表す尺度を付与することによって、誤認識語が重要語に混入する割合を低減することができる。これによって、算出された重要度を用いた要約や文書分類、関連文書検索等の自然言語処理の精度を向上させることができる。
【0043】
また、上記実施例を、単語抽出方法として把握することができる。
【0044】
つまり、上記実施例は、文書から所定の単語を抽出する単語抽出方法において、所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リストに記憶する単語抽出段階と、上記単語リスト中の各単語に、重要度を付与する重要度付与段階と、上記単語リスト中の所定の単語と他の単語との結束度を、上記所定の単語に付与する結束度付与段階と、上記重要度と上記結束度とが付加されている単語リストを出力する出力段階とを有することを特徴とする単語抽出方法の例である。
【0045】
さらに、上記実施例をプログラムとして把握することができる。すなわち、上記実施例は、文書から所定の単語を抽出するプログラムにおいて、所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リスト記憶装置に格納されている単語リストに、単語抽出部が、記憶させる単語抽出手順と、上記単語リスト中の各単語に、重要度付与部が、重要度を付与する重要度付与手順と、上記単語リスト中の所定の単語と他の単語との結束度を、結束度付与部が、上記所定の単語に付与する結束度付与手順と、上記重要度と上記結束度とが付加されている単語リストを、出力部に出力させる単語リスト出力手順とをコンピュータに実行させるプログラムの例である。
【0046】
また、上記実施例を次のように把握することができる。すなわち、上記実施例は、文書から所定の単語を抽出する単語抽出装置において、所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リストに記憶する単語抽出部と、上記単語リスト中の各単語に、重要度を付与する重要度付与部と、上記単語リスト中の所定の単語と他の単語との結束度を、上記所定の単語に付与する結束度付与部と、上記単語抽出部が抽出した単語のうちで、上記重要度と上記結束度とに応じた単語を出力する単語出力部とを有することを特徴とする単語抽出装置の例である。
【0047】
【発明の効果】
本発明によれば、所定の文書から単語を抽出する場合、抽出された単語に、誤認識語が混入される割合を低減することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である単語抽出装置100を示す構成図である。
【図2】日本語音声を自動音声認識した文書の例を示す図である。
【図3】共起頻度の例を示す図である。
【図4】上記実施例において、重要度と結束度とが付加されている単語リストを取り出した例を示す図である。
【符号の説明】
100…単語抽出装置、
110…入力装置、
120…単語抽出装置、
130…単語リスト記憶装置、
140…重要度付与部、
150…結束度付与部、
160…出力部、
wi、wj…単語、
I(wi,wj)…単語wiとwjとの相互情報量、
wi…結束度、
P(w)…別コーパス中における所定の単語の出現確立、
P(wi,wj)…共起出現確立、
f(w)…単語の結束度。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a word extraction device that assigns importance to words resulting from speech recognition, character recognition, and the like, and extracts important words.
[0002]
[Prior art]
In a conventional word extraction device, a method of calculating importance based on an appearance frequency in an input document or an appearance frequency in an external corpus is generally used. For example, in the tf-idf method, the frequency of occurrence (tf) of the word in the input document and the reciprocal (idf; generally logarithm) of the number of documents in which the word appears in an external corpus such as a newspaper article are calculated. Is used as the importance (for example, see Patent Document 1). It is also known to evaluate the importance of a document and the relevance between words (for example, see Patent Document 2).
[0003]
In these methods, the input document is designed to be completely reliable, and even if the input contains errors, for example, as a result of speech recognition or character recognition, no erroneous words are detected. There is a problem of hiring separately.
[0004]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 2001-067362 [Patent Document 2]
JP-A-2001-101194 [0005]
[Problems to be solved by the invention]
In the conventional word extraction device, the possibility of recognition error is not taken into account, so that a misrecognized word is mixed with the selected important word according to the misrecognition rate.
[0006]
An important word can be said to be a word that represents the characteristics of a document with a small number of words. If the selected important word contains a misrecognized word, processing using that important word (summarization or summarization) is performed. (E.g., related document search).
[0007]
Therefore, if a misrecognized word is mixed in the selected important word, the misrecognized word mixture of the important word is an erroneous extraction of a different quality from the case where the non-significant word is simply selected. It is desirable to avoid mixing words. Since it is impossible to decisively determine whether or not a recognition error has occurred, it is unavoidable that mixing of erroneously recognized words cannot be avoided to some extent.
[0008]
SUMMARY OF THE INVENTION An object of the present invention is to provide a word extraction device that can reduce the rate at which erroneously recognized words are mixed into extracted words when words are extracted from a predetermined document.
[0009]
[Means for Solving the Problems]
The present invention makes it possible to reduce the mixing ratio of misrecognized words into important words by assigning a scale indicating the degree of cohesion between the extracted words and other words in the document to the extracted words.
[0010]
The present invention also provides a word extraction method for extracting a predetermined word from a document, wherein a word extraction step of extracting a word in the document from a predetermined input document, and storing the extracted word in the document in a word list, An importance level assigning step of assigning importance to each word in the word list; and a cohesion degree assigning step of assigning, to the predetermined word, a cohesion degree between a predetermined word and another word in the word list. A word list outputting step of outputting a word list to which the importance and the cohesion are added.
[0011]
Further, the present invention provides a program for extracting a predetermined word from a document, extracting a word in the document from a predetermined input document, and storing the extracted word in the document in a word list stored in a word list storage device. A word extraction procedure to be stored by the word extraction unit; an importance assignment procedure to assign an importance to each word in the word list; A cohesion level providing step in which a cohesion level providing unit provides a cohesion level to a predetermined word, and a word list to which an output unit outputs a word list to which the importance level and the cohesion level are added. This is a program that causes a computer to execute the output procedure.
[0012]
Embodiments and Examples of the Invention
FIG. 1 is a configuration diagram showing a word extraction device 100 according to one embodiment of the present invention.
[0013]
The input document is input from the
[0014]
The
[0015]
The importance assigning unit 140 assigns an importance to each word in the word list storage device 130. The assigned importance is widely used in natural language processing systems such as an automatic summarizing apparatus, an automatic document classifying apparatus, and a related document search apparatus.
[0016]
When calculating the importance, for example, tf / idf may be used. The cohesion
[0017]
If using a word w i and w j and mutual information I of (w i, w j), calculates cohesion degree (w i), for example, by the following equation (1), cohesion (w i) Can be calculated.
[0018]
(Equation 1)
Mutual information I (w i, w j) is calculated in advance from another corpus such as newspaper articles, the predetermined word appearing established P (w) in the different corpus co-occurrence establish P (w i, w j) and using, by the following equation (2), it is possible to calculate the mutual information I (w i, w j).
[0019]
(Equation 2)
In the above equation (2), what to take at the base of the logarithm is arbitrary.
[0020]
When the distance of the word co-occurrence vector is used, for example, the word vector
[Equation 3]
And the document vector
(Equation 4)
The distance between word co-occurrence vectors can be calculated by the following equation (3) using the angle formed by
[0023]
(Equation 5)
Here, from another corpus such as newspaper articles, previously calculated each word vector w i, each document in a different corpus have dimensional vector, predetermined words, if appearing in the document, is 1, If it does not appear, it is defined as 0. The same applies to the case where an inner product or a Euclidean distance is used instead of the angle (the angle between the word vector and the document vector).
[0024]
The word list output unit 160 extracts the word to which the importance and the cohesion degree are added from the storage device 130 and outputs the word.
[0025]
When extracting important words from the output list, for example, the top n words may be extracted by sorting in descending order of the product of importance and unity. The importance and the cohesion may be added instead of obtaining the product as described above, which is the same as above. In this case, the weighted addition may be performed, or the addition may be performed without weighting.
[0026]
Next, the operation of the above embodiment will be described.
[0027]
The operation of the word extraction device 100 will be described using a document in which Japanese speech is automatically recognized as an example.
[0028]
FIG. 2 is a diagram illustrating an example of a document in which Japanese speech is automatically recognized.
[0029]
In the example document shown in FIG. 2, it is assumed that “seal”, “tama”, and “bakugawa” are words that have been correctly speech-recognized, while “Ichiro” is a word that has been misrecognized.
[0030]
The input document of FIG. 2 is input from the
[0031]
In this example, since the input document is Japanese plain text, the
[0032]
The importance assigning unit 140 assigns an importance to each word stored in the word list storage device 130. Here, using the tf · idf method,
Importance (“seal”) = 1.0
Importance ("tama") = 4.0
Importance (“Kaibagawa”) = 3.0
Importance ("Ichiro") = 4.0
Suppose that is calculated.
[0033]
For the calculation of tf · idf, for example, see “The University of Tokyo Press: Information Search and Language Processing”.
[0034]
Next, the cohesion
[0035]
FIG. 3 is a diagram illustrating an example of the co-occurrence frequency.
[0036]
In the above embodiment, when calculating the cohesion degree, it is assumed that the co-occurrence frequency shown in FIG. 3 has been obtained from another corpus, and the mutual information amount in this case is used. From the co-occurrence frequency shown in FIG.
I (“seal, ball”) = 8.76
I ("seal, bamboo river") = 8.97
I (“Seal, Ichiro”) = 0
I ("Tama, Kabikogawa") = 9.38
I ("Tama, Ichiro") = 0
I ("Bakuragawa, Ichiro") = 0
(In this case, the base of the logarithm is 2).
[0037]
Therefore, the cohesion degree f (w) of each word is
Cohesion ("seal") = 17.73
Cohesion ("tama") = 18.14
Cohesion degree ("Valve River") = 18.35
Cohesion degree ("Ichiro") = 0
It is. Note that the processing order of the importance assigning unit 140 and the processing order of the
[0038]
Next, the output unit 160 extracts the word list to which the importance and the cohesion degree are added from the storage device 130 and outputs the word list.
[0039]
FIG. 4 is a diagram illustrating an example in which the word list to which the importance and the cohesion degree are added in the embodiment is extracted.
[0040]
On the basis of this result, for example, consider extracting two words of importance. In the prior art, in FIG. 4, since the determination is made only based on the “importance”, the words to be extracted are “tama” and “ichirou”. If the product is used as a scale, "Tama" and "Baikogawa" are taken out. The same result as above can be obtained by using a linear combination instead of the above product.
[0041]
That is, a word may be extracted from the word list output by the output unit 160 in accordance with the product of the degree of importance and the degree of cohesion or a linear combination.
[0042]
That is, according to the above-described embodiment, by assigning a scale indicating the degree of cohesion between the extracted word and another word in the document, it is possible to reduce the rate at which the erroneously recognized word mixes with the important word. As a result, it is possible to improve the accuracy of natural language processing such as summarization, document classification, and related document search using the calculated importance.
[0043]
Further, the above embodiment can be understood as a word extracting method.
[0044]
That is, the above-described embodiment is a word extraction method for extracting a predetermined word from a document, extracting a word in the document from a predetermined input document, and storing the extracted word in the document in a word list. An importance assigning step of assigning importance to each word in the word list; and a cohesion degree assigning step of assigning, to the predetermined word, a cohesion degree between a predetermined word and another word in the word list. And an output step of outputting a word list to which the importance and the cohesion are added.
[0045]
Further, the above embodiment can be grasped as a program. That is, in the above embodiment, in a program for extracting a predetermined word from a document, a word in the document is extracted from a predetermined input document, and the extracted word in the document is stored in a word list stored in a word list storage device. The word extracting unit stores a word extracting procedure, an importance assigning unit assigns an importance to each word in the word list, an importance assigning procedure to assign importance to each word in the word list, and a predetermined word in the word list. The unity degree giving unit gives the unity degree to the predetermined word, and the word list to which the importance and the unity degree are added is output to the output unit. It is an example of a program that causes a computer to execute a list output procedure.
[0046]
Further, the above embodiment can be understood as follows. That is, in the above-described embodiment, a word extraction unit that extracts a word in a document from a predetermined input document, and stores the extracted word in the document in a word list in a word extraction device that extracts a predetermined word from a document. An importance assigning unit that assigns importance to each word in the word list; and a unity assigning unit that assigns, to the predetermined word, a unity between a predetermined word in the word list and another word. And a word output unit that outputs a word corresponding to the degree of importance and the degree of unity among words extracted by the word extraction unit.
[0047]
【The invention's effect】
Advantageous Effects of Invention According to the present invention, when words are extracted from a predetermined document, it is possible to reduce the rate at which erroneously recognized words are mixed in the extracted words.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing a word extraction device 100 according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a document in which Japanese speech has been automatically recognized.
FIG. 3 is a diagram illustrating an example of a co-occurrence frequency.
FIG. 4 is a diagram showing an example of extracting a word list to which importance and cohesion are added in the above embodiment.
[Explanation of symbols]
100 ... word extraction device,
110 input device,
120 ... word extraction device,
130 ... word list storage device,
140 ... importance assigning unit,
150 ... unity imparting unit
160 output unit
w i , w j ... words,
I (w i, w j) ... mutual information of the word w i and w j,
w i ... cohesion degree,
P (w): establishment of occurrence of a predetermined word in another corpus,
P (w i, w j) ... co-occurrence established,
f (w): the degree of unity of the word.
Claims (3)
所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リストに記憶する単語抽出部と;
上記単語リスト中の各単語に、重要度を付与する重要度付与部と;
上記単語リスト中の所定の単語と他の単語との結束度を、上記所定の単語に付与する結束度付与部と;
上記重要度と上記結束度とが付加されている単語リストを出力する単語リスト出力部と;
を有することを特徴とする単語抽出装置。In a word extraction device for extracting a predetermined word from a document,
A word extracting unit that extracts words in the document from a predetermined input document and stores the extracted words in the document in a word list;
An importance assigning unit that assigns importance to each word in the word list;
A unit for assigning a degree of cohesion between the predetermined word in the word list and another word to the predetermined word;
A word list output unit that outputs a word list to which the importance and the cohesion are added;
A word extraction device comprising:
所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リストに記憶する単語抽出段階と;
上記単語リスト中の各単語に、重要度を付与する重要度付与段階と;
上記単語リスト中の所定の単語と他の単語との結束度を、上記所定の単語に付与する結束度付与段階と;
上記重要度と上記結束度とが付加されている単語リストを出力する単語リスト出力段階と;
を有することを特徴とする単語抽出方法。In a word extraction method for extracting a predetermined word from a document,
Extracting a word in a document from a predetermined input document and storing the extracted word in the document in a word list;
Assigning importance to each word in the word list;
A cohesion degree giving step of giving a cohesion degree between the predetermined word in the word list and another word to the predetermined word;
A word list outputting step of outputting a word list to which the importance and the unity are added;
A word extraction method characterized by having:
所定の入力文書から文書内単語を抽出し、この抽出された文書内単語を、単語リスト記憶装置に格納されている単語リストに、単語抽出部が、記憶させる単語抽出手順と;
上記単語リスト中の各単語に、重要度付与部が、重要度を付与する重要度付与手順と;
上記単語リスト中の所定の単語と他の単語との結束度を、結束度付与部が、上記所定の単語に付与する結束度付与手順と;
上記重要度と上記結束度とが付加されている単語リストを、単語リスト出力部に出力させる単語リスト出力手順と;
をコンピュータに実行させるプログラム。In a program for extracting a predetermined word from a document,
A word extraction procedure for extracting words in the document from a predetermined input document, and causing the word extraction unit to store the extracted words in the document in a word list stored in the word list storage device;
An importance assigning step in which the importance assigning unit assigns an importance to each word in the word list;
A cohesion degree giving procedure in which a cohesion degree giving unit gives the cohesion degree between the predetermined word in the word list and another word to the predetermined word;
A word list output procedure for outputting a word list to which the importance and the unity are added to a word list output unit;
A program that causes a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003043311A JP2004252775A (en) | 2003-02-20 | 2003-02-20 | Word extraction device, word extraction method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003043311A JP2004252775A (en) | 2003-02-20 | 2003-02-20 | Word extraction device, word extraction method and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004252775A true JP2004252775A (en) | 2004-09-09 |
Family
ID=33026345
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003043311A Pending JP2004252775A (en) | 2003-02-20 | 2003-02-20 | Word extraction device, word extraction method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2004252775A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009516233A (en) * | 2005-11-18 | 2009-04-16 | マイクロソフト コーポレーション | Word clustering for input data |
| JP2010041414A (en) * | 2008-08-05 | 2010-02-18 | Kddi Corp | Answering machine |
| WO2012004955A1 (en) * | 2010-07-06 | 2012-01-12 | 株式会社日立製作所 | Text correction method and recognition method |
-
2003
- 2003-02-20 JP JP2003043311A patent/JP2004252775A/en active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009516233A (en) * | 2005-11-18 | 2009-04-16 | マイクロソフト コーポレーション | Word clustering for input data |
| US8249871B2 (en) | 2005-11-18 | 2012-08-21 | Microsoft Corporation | Word clustering for input data |
| JP2010041414A (en) * | 2008-08-05 | 2010-02-18 | Kddi Corp | Answering machine |
| WO2012004955A1 (en) * | 2010-07-06 | 2012-01-12 | 株式会社日立製作所 | Text correction method and recognition method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11449767B2 (en) | Method of building a sorting model, and application method and apparatus based on the model | |
| US7599926B2 (en) | Reputation information processing program, method, and apparatus | |
| US10496745B2 (en) | Dictionary updating apparatus, dictionary updating method and computer program product | |
| US20100153094A1 (en) | Topic map based indexing and searching apparatus | |
| CN108052500B (en) | Text key information extraction method and device based on semantic analysis | |
| CN112527958A (en) | User behavior tendency identification method, device, equipment and storage medium | |
| CN108920633B (en) | Paper similarity detection method | |
| US20160140389A1 (en) | Information extraction supporting apparatus and method | |
| US9658989B2 (en) | Apparatus and method for extracting and manipulating the reading order of text to prepare a display document for analysis | |
| CN109800303A (en) | A kind of document information extracting method, storage medium and terminal | |
| JP5846959B2 (en) | Basic vocabulary extraction device and program | |
| WO2008041364A1 (en) | Document searching device, document searching method, and document searching program | |
| Litvak et al. | Museec: A multilingual text summarization tool | |
| CN108717459A (en) | A kind of mobile application defect positioning method of user oriented comment information | |
| JP3765801B2 (en) | Parallel translation expression extraction apparatus, parallel translation extraction method, and parallel translation extraction program | |
| JP2010205060A (en) | Method for retrieving image in document, and system for retrieving image in document | |
| KR101841615B1 (en) | Apparatus and method for computing noun similarities using semantic contexts | |
| Gyu | Efficient keyword extraction from social big data based on cohesion scoring | |
| JP2008040553A (en) | Time-series pattern detection apparatus and method | |
| Naous et al. | On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena | |
| KR102540665B1 (en) | Apparatus and method extracting core sentence based on korean language model | |
| JP2004252775A (en) | Word extraction device, word extraction method and program | |
| CN111552783B (en) | Content analysis query method, device, equipment and computer storage medium | |
| Defour | The pragmaticalization and intensification of verily, truly and really: A corpus-based study on the developments of three truth-identifying adverbs | |
| Rainarli et al. | Relevance vector machine for summarization |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050117 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071115 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071130 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080404 |