[go: up one dir, main page]

JP2003067412A - Method for extracting feature item from data - Google Patents

Method for extracting feature item from data

Info

Publication number
JP2003067412A
JP2003067412A JP2001254905A JP2001254905A JP2003067412A JP 2003067412 A JP2003067412 A JP 2003067412A JP 2001254905 A JP2001254905 A JP 2001254905A JP 2001254905 A JP2001254905 A JP 2001254905A JP 2003067412 A JP2003067412 A JP 2003067412A
Authority
JP
Japan
Prior art keywords
item
frequent
occurrence
characteristic
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001254905A
Other languages
Japanese (ja)
Other versions
JP2003067412A5 (en
JP4679003B2 (en
Inventor
Yutaka Matsuo
豊 松尾
Mitsuru Ishizuka
満 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2001254905A priority Critical patent/JP4679003B2/en
Publication of JP2003067412A publication Critical patent/JP2003067412A/en
Publication of JP2003067412A5 publication Critical patent/JP2003067412A5/ja
Application granted granted Critical
Publication of JP4679003B2 publication Critical patent/JP4679003B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a keyword extracting method which can extract keywords even from a short sentence with comparatively high precision. SOLUTION: Words which appear frequently are extracted from words in sentences in step S2-2, and keywords are selected from among the words based on the deviation of the co-occurrence probability distribution between each word and the words which appear frequently are provided in step S2-3. The χ<2> test is used for verifying the significance in the deviation.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、データからの特徴
アイテム抽出方法に関するものである。特に、本発明
は、文章からキーワードを抽出する方法に関するもので
ある。
TECHNICAL FIELD The present invention relates to a method for extracting characteristic items from data. In particular, the present invention relates to a method for extracting keywords from text.

【0002】[0002]

【発明の背景】文書からのキーワード抽出法としては、
TFIDFが良く知られている。この方法は、同一カテゴリ
に含まれる文書における単語の出現傾向をdfとして取り
出しておき、それと当データ自身のtf値とを比較するこ
とにより、特徴的な語を取り出すものである。この方法
は、対象となるデータの大きさがある程度以上あれば、
単独で適用することができる。しかしながら、データ量
が少ない場合には、適用が難しいという問題がある。
BACKGROUND OF THE INVENTION As a keyword extraction method from a document,
TFIDF is well known. In this method, the appearance tendency of words in documents included in the same category is extracted as df, and the characteristic word is extracted by comparing it with the tf value of the data itself. This method can be used if the size of the target data is above a certain level.
It can be applied alone. However, when the amount of data is small, there is a problem that it is difficult to apply.

【0003】その他、χ2検定により一般語と重要語と
を区別しようという研究も行われている。しかしなが
ら、この研究においても、少ないデータ量で精度良くキ
ーワードを得る方法は実現されていない。
In addition, studies have also been conducted to discriminate general words from important words by the χ 2 test. However, even in this research, a method of accurately obtaining a keyword with a small amount of data has not been realized.

【0004】[0004]

【発明が解決しようとする課題】本発明は、前記の事情
を背景としてなされたもので、少ないデータ量であって
も、比較的に精度良く特徴アイテムを抽出することがで
きる、特徴アイテム抽出方法の提供を目的としている。
SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and a characteristic item extracting method capable of extracting a characteristic item with relatively high accuracy even with a small amount of data. The purpose is to provide.

【0005】[0005]

【課題を解決するための手段】請求項1は、以下のステ
ップを有する特徴アイテム抽出方法とされている。 (1)データ中のアイテムから頻出アイテムを抽出する
ステップ、(2)前記各アイテムと頻出アイテムとの共
起確率分布の偏りに基づいて、前記アイテムから特徴ア
イテムを抽出するステップ。
According to a first aspect of the present invention, there is provided a characteristic item extraction method including the following steps. (1) A step of extracting a frequent item from the items in the data, (2) A step of extracting a characteristic item from the item based on the bias of the co-occurrence probability distribution of each item and the frequent item.

【0006】請求項2は、請求項1記載の特徴アイテム
抽出方法において、前記データを文章またはその一部と
し、前記アイテムを単数または複数の語としたものであ
る。
According to a second aspect of the present invention, in the feature item extraction method according to the first aspect, the data is a sentence or a part thereof, and the item is a single word or a plurality of words.

【0007】請求項3は、請求項2記載の特徴アイテム
抽出方法において、前記共起確率を、同じ文中での共起
に基づいて算出するものである。
A third aspect of the present invention is the feature item extraction method according to the second aspect, wherein the co-occurrence probability is calculated based on co-occurrence in the same sentence.

【0008】請求項4は、請求項2記載の特徴アイテム
抽出方法において、前記共起確率を、前記頻出アイテム
の前後における規定された語数の範囲での共起に基づい
て算出するものである。
According to a fourth aspect of the present invention, in the feature item extraction method according to the second aspect, the co-occurrence probability is calculated based on the co-occurrence within a prescribed number of words before and after the frequent item.

【0009】請求項5は、請求項2〜4のいずれか1項
記載の特徴アイテム抽出方法において、前記頻出アイテ
ムを、同じ文中に現れる確率の比較的高いものどうしが
まとめられてクラスタ化されたものとし、前記共起確率
分布の偏りの算出を、前記各アイテムと、前記クラスタ
化された頻出アイテムとの間で行うものである。
According to a fifth aspect of the present invention, in the characteristic item extracting method according to any one of the second to fourth aspects, the frequent items are clustered by grouping together those items having a relatively high probability of appearing in the same sentence. However, the bias of the co-occurrence probability distribution is calculated between each item and the clustered frequent item.

【0010】請求項6は、請求項1〜5のいずれか1項
記載の特徴アイテム抽出方法において、前記「各アイテ
ムと頻出アイテムとの共起確率分布の偏りに基づいて、
前記アイテムから特徴アイテムを抽出するステップ」
に、次のステップを含むものとなっている。 (a)前記データ中における各頻出アイテムの頻度分布
を示す情報を取得するステップ、(b)前記頻出アイテ
ムと各アイテムとの共起度の頻度分布を示す情報を取得
するステップ、(c)各頻出アイテムの頻度分布を示す
情報と、前記共起度の頻度分布を示す情報とに基づい
て、前記共起確率分布の偏りを取得するステップ。
According to a sixth aspect of the present invention, in the characteristic item extraction method according to any one of the first to fifth aspects, the "based on the bias of the co-occurrence probability distribution of each item and the frequent item,
Extracting a characteristic item from the item "
It includes the following steps. (A) Obtaining information indicating a frequency distribution of each frequent item in the data, (b) Obtaining information indicating a frequency distribution of co-occurrence degrees between the frequent item and each item, (c) Each Obtaining a bias of the co-occurrence probability distribution based on information indicating the frequency distribution of the frequent items and information indicating the frequency distribution of the co-occurrence degree.

【0011】請求項7は、請求項6記載の抽出方法にお
いて、前記「各頻出アイテムの頻度分布を示す情報」
が、各頻出アイテムの出現確率を示す情報であるもので
ある。
According to a seventh aspect of the extraction method of the sixth aspect, the "information indicating the frequency distribution of each frequent item" is added.
Is information indicating the appearance probability of each frequent item.

【0012】請求項8は、請求項1〜7のいずれか1項
記載の特徴アイテム抽出方法において、前記共起確率分
布の偏りを、下記式におけるχ値の大きさとして算出
するものである。 ただし、この式において、 w:アイテム、 g:頻出アイテム、 G:全頻出アイテムの集合 p:頻出アイテム(g)の出現確率、 n:アイテム(w)と全頻出アイテムの集合(G)中の頻
出アイテムとの共起頻度の総数、 cooc(w,g):アイテム(w)と頻出アイテム(g)との共起度
数、 である。
An eighth aspect of the present invention is the feature item extraction method according to any one of the first to seventh aspects, wherein the bias of the co-occurrence probability distribution is calculated as the magnitude of the χ 2 value in the following equation. . However, in this expression, w: item, g: frequent item, G: set of all frequent items p g : appearance probability of frequent item (g), n w : set of item (w) and all frequent item (G) The total number of co-occurrence frequencies with frequent items inside, cooc (w, g): co-occurrence frequency of item (w) and frequent items (g).

【0013】請求項9は、請求項8において、p=(頻
出アイテム(g)の出現頻度)/(集合(G)に属する頻出
アイテム(g)全体の出現頻度の合計)であり、nは、
アイテム(w)と集合(G)中の頻出アイテム(g)との共起
頻度の総数である特徴アイテム抽出方法となっている。
A ninth aspect of the present invention is p g = (frequency of appearance of frequent items (g)) / (total frequency of appearance of all frequent items (g) belonging to set (G)) in claim 8, and n w is
The feature item extraction method is the total number of co-occurrence frequencies of the item (w) and the frequent item (g) in the set (G).

【0014】請求項10は、請求項8において、p
(頻出アイテム(g)が出現する文の語数の合計)/(文
書全体の語数の合計)であり、nは、前記アイテム
(w)が出現する文の語数の合計である特徴アイテム抽出
方法となっている。
A tenth aspect is the same as the eighth aspect, wherein p g =
(Total number of words in sentence where frequent item (g) appears) / (total number of words in entire document), and n w is the item
(w) is a characteristic item extraction method that is the total number of words of the appearing sentence.

【0015】請求項11は、CPUと、このCPUによ
って利用可能な記憶部とを備え、前記記憶部は、頻出ア
イテム抽出モジュールと、特徴アイテム決定モジュール
とを備え、前記頻出アイテム抽出モジュールは、データ
中のアイテムから頻出アイテムを抽出する動作を前記C
PUに行わせるソフトウエアであり、前記特徴アイテム
決定モジュールは、各アイテムと頻出アイテムとの共起
確率分布の偏りに基づいて、前記アイテムから特徴アイ
テムを抽出する動作を前記CPUに行わせるソフトウエ
アである特徴アイテム抽出システムとなっている。
[0015] The eleventh aspect of the present invention includes a CPU and a storage unit that can be used by the CPU, the storage unit includes a frequent item extraction module and a characteristic item determination module, and the frequent item extraction module is a data item. The operation of extracting frequent items from the items in
Software for causing a PU to perform, wherein the characteristic item determination module causes the CPU to perform an operation of extracting a characteristic item from the item based on a bias of a co-occurrence probability distribution of each item and a frequent item. It is a feature item extraction system.

【0016】請求項12は、コンピュータにより、請求
項1〜10記載の特徴アイテム抽出方法における前記ス
テップの機能を実行させる、コンピュータで実行または
読み取り可能なプログラムとなっている。
A twelfth aspect of the present invention is a computer-readable or computer-readable program that causes a computer to execute the functions of the steps in the characteristic item extraction methods according to the first to tenth aspects.

【0017】請求項13は、請求項11記載の特徴アイ
テム抽出システムにおける前記頻出アイテム抽出モジュ
ールとなっている。
A thirteenth aspect is the frequent item extraction module in the characteristic item extraction system according to the eleventh aspect.

【0018】請求項14は、請求項11記載の特徴アイ
テム抽出システムにおける前記特徴アイテム決定モジュ
ールとなっている。
A fourteenth aspect is the characteristic item determination module in the characteristic item extraction system according to the eleventh aspect.

【0019】[0019]

【発明の実施の形態】本発明の一実施形態に係る特徴ア
イテム抽出方法について、添付の図面を参照しながら以
下に説明する。以下の例においては、データの例として
文章を用いている。この場合、特徴アイテムとしては、
キーワードとなる。
BEST MODE FOR CARRYING OUT THE INVENTION A characteristic item extraction method according to an embodiment of the present invention will be described below with reference to the accompanying drawings. In the examples below, text is used as an example of data. In this case, as the characteristic item,
It becomes a keyword.

【0020】まず、この方法の実施のために用いる、特
徴アイテム抽出システムの構成について説明する。この
システムは、CPU1と、インタフェース部2と、CP
U1によって利用可能な記憶部3と、通信部4とを備え
ている。このようなシステムは、例えばパーソナルコン
ピュータやワークステーションにより構成することがで
きる。
First, the configuration of the characteristic item extraction system used for implementing this method will be described. This system includes a CPU 1, an interface unit 2 and a CP.
The storage unit 3 usable by U1 and the communication unit 4 are provided. Such a system can be composed of, for example, a personal computer or a workstation.

【0021】インタフェース部2は、操作者とコンピュ
ータとのインタフェースを行う機能を有しており、例え
ば、キーボード、マウスなどの入力機器や、ディスプレ
イなどの出力機器を含んでいる。
The interface unit 2 has a function of interfacing between an operator and a computer, and includes, for example, an input device such as a keyboard and a mouse and an output device such as a display.

【0022】記憶部3は、文書データ31と、頻出語
(頻出アイテムに相当)抽出モジュール32と、キーワ
ード(特徴アイテムに相当)決定モジュール33とを備
えている。文書データ31は、抽出対象となる文章のデ
ータである。頻出語抽出モジュール32は、「文章(デ
ータに相当)の中の語(アイテムに相当)から頻出語を
抽出する動作」をCPU1に行わせるソフトウエアであ
る。キーワード決定モジュール33は、「各アイテムと
頻出アイテムとの共起確率分布の偏りに基づいて、アイ
テムから特徴アイテムを抽出する動作」をCPU1に行
わせるソフトウエアである。各モジュールの動作の詳細
は、後述する抽出方法の説明において説明する。記憶部
3は、任意のハードウエア、例えばハードディスクによ
って構成できる。前記モジュール32および33を含
め、本実施形態の実施のために用いられるソフトウエア
は、任意の、コンピュータで利用または読み取り可能な
記録媒体に記録しておくことができる。
The storage unit 3 includes document data 31, a frequently-used word (corresponding to frequently-used item) extraction module 32, and a keyword (corresponding to characteristic item) determination module 33. The document data 31 is the data of the text to be extracted. The frequent word extraction module 32 is software that causes the CPU 1 to perform “an operation of extracting a frequent word from a word (corresponding to an item) in a sentence (corresponding to data)”. The keyword determination module 33 is software that causes the CPU 1 to perform “an operation of extracting a characteristic item from an item based on the bias of the co-occurrence probability distribution of each item and the frequent item”. Details of the operation of each module will be described in the description of the extraction method described later. The storage unit 3 can be configured by any hardware, for example, a hard disk. The software used for implementing the present embodiment, including the modules 32 and 33, can be recorded in any computer-usable or readable recording medium.

【0023】通信部4は、外部コンピュータとの通信の
ために用いられるものであり、例えば、ネットワークカ
ードやモデムである。
The communication unit 4 is used for communication with an external computer, and is, for example, a network card or a modem.

【0024】つぎに、本実施形態に係るキーワード(特
徴アイテム)抽出方法について説明する。まず、全体的
な手順について図2を用いて説明する。
Next, a keyword (feature item) extraction method according to this embodiment will be described. First, the overall procedure will be described with reference to FIG.

【0025】(ステップS2−1)このステップでは、
文章中の単語情報を取得する。まず、文章(その一部で
もよい)を文単位および語(単語)単位に分解して、分
解結果を文書データ31に記録する。ここで、言語の種
類は問わない。例えば言語が日本語であれば、語単位へ
の分解は、通常の形態素解析を用いて行うことができ
る。また、文章中に2回以上出現する熟語(語の並び)
も一語として把握する。つまり、この実施形態において
は、語とは熟語を含む意味である。例えば、「最適化
問題」という語が文章中に2回以上出現するのであれ
ば、「最適化」「問題」として把握するほか、「最適化
問題」という熟語としても把握する。また、文章中に3
回以上出現する熟語(語の並び)を一語として把握して
もよい。さらに、熟語を構成する語の数の上限を定めて
もよい。さらに、「最適化 問題」という語の並びを
「最適化問題」という熟語として把握した際には「最適
化」「問題」というばらばらの語としては把握しないと
いう処理も可能である。
(Step S2-1) In this step,
Get word information in a sentence. First, a sentence (or a part thereof) is decomposed into sentence units and word (word) units, and the decomposition result is recorded in the document data 31. Here, the type of language does not matter. For example, when the language is Japanese, the decomposition into word units can be performed using a normal morphological analysis. Also, idioms (word sequences) that appear more than once in a sentence
Is also understood as a word. That is, in this embodiment, the word is meant to include an idiom. For example, "optimization
If the word "problem" appears more than once in a sentence, it is understood as "optimization" and "problem", and also as the idiom "optimization problem". Also, in the sentence 3
You may grasp a compound word (sequence of words) that appears more than once as one word. Furthermore, an upper limit of the number of words that make up a phrase may be set. Further, it is possible to perform processing such that when the sequence of words "optimization problem" is grasped as a compound word "optimization problem", it is not grasped as separate words "optimization""problem".

【0026】言語が日本語であれば、語として取り出す
ものは、名詞、動詞、形容詞、形容動詞、未知語のみと
する。さらに、「こと」「もの」「する」「なる」など
の一般的な語は不要語として削除する。言語が英語であ
れば、例えば、サルトン(Salton)のストップワード
(stop word)として知られる不要語を削除する。この
ように、言語に拘わらず、不要語を処理することが望ま
しい。また、言語が日本語であれば、動詞や形容詞、形
容動詞は語の原形または語幹の形式とする。言語が英語
であれば動詞の活用語尾であるingやed、複数形のsなど
を除去するステミング(stemming)という処理を行う。
言語に拘わらず、語の活用語尾の処理を行っておくこと
が望ましい。なお、本実施形態では、同じ文中でn回出
現した語は、そのまま、n回の出現頻度と把握する。し
かし、同文中でn回出現した場合には、1回の出現頻度
と把握することも可能である。例えば、「日本語の場合
は、形態素解析を行い、名詞、動詞、形容詞だけを原形
の形で分かち書きします。」という文章を仮定すると、
まず、文を、「日本語場合 形態素 行う 名詞 動詞
形容詞 原形 形 分かつ 書く。」とする。この文
の各語が取得される。このステップの機能は、例えば、
頻出語抽出モジュール32によって実行される。
If the language is Japanese, only nouns, verbs, adjectives, adjectives and unknown words are extracted as words. Further, general words such as “koto”, “things”, “do”, “naru” are deleted as unnecessary words. If the language is English, for example, delete unnecessary words known as Salton stop words. Thus, it is desirable to process unnecessary words regardless of language. If the language is Japanese, verbs, adjectives, and adjectives are in the original form of the word or the stem form. If the language is English, a processing called stemming is performed to remove ing and ed, which are inflection endings of verbs, and plural s.
Regardless of the language, it is desirable to process the inflection of words. In the present embodiment, a word that appears n times in the same sentence is directly understood as the appearance frequency of n times. However, if it appears n times in the same sentence, it can be grasped as one appearance frequency. For example, suppose the sentence "In Japanese, morphological analysis is performed and only nouns, verbs, and adjectives are written in the original form."
First, the sentence is written as "In Japanese, morpheme, noun, verb, adjective, protomorph, and write." Each word in this sentence is taken. The function of this step is
It is executed by the frequent word extraction module 32.

【0027】(ステップS2−2):請求項1のステッ
プ(1)に対応 ついで、前記語から、頻出語を抽出する。頻出語の抽出
は、次のように行う。すなわち、対象となる文章中の各
語について、出現頻度を計算し、頻度の多い語(例えば
文章全体で1000語のうちの上位10語)を頻出語と
する。ここで、本実施形態では、頻出語の把握において
は、同じ一文中で共に現れる確率の高いものどうしをま
とめてクラスタ化しておく。本実施形態における一つの
頻出語とは、このようにクラスタ化された一つの群を示
す。
(Step S2-2): Corresponding to step (1) of claim 1, a frequently-used word is extracted from the word. The extraction of frequent words is performed as follows. That is, the appearance frequency is calculated for each word in the target sentence, and the word with the high frequency (for example, the top 10 words of 1000 words in the entire sentence) is set as the frequent word. Here, in the present embodiment, when grasping frequently-used words, those having a high probability of appearing together in the same sentence are clustered together. One frequent word in this embodiment indicates one group thus clustered.

【0028】頻出語のクラスタ化の一例を以下に示す。
語aと語bとが出現する文の数のJaccard係数が閾値(0.5)
を越えれば、語aと語bとは同一のクラスタ(つまり同一
の頻出語)とする。Jaccard係数J(a, b)は、以下の式で
与えられ、語aと語bの集合の重なり具合を示している。
An example of clustering of frequently-used words is shown below.
The Jaccard coefficient for the number of sentences in which word a and word b appear is the threshold value (0.5)
If it exceeds, the words a and b are in the same cluster (that is, the same frequent word). The Jaccard coefficient J (a, b) is given by the following formula, and indicates the degree of overlap between the sets of the word a and the word b.

【0029】ただし、S(a∩b)は語aと語bの両方が出現
する文の数、S(a∪b)は語aまたは語bが出現する文の数
とする。クラスタ化の方法としては、Jaccard係数を用
いる方法の他にも、両語の共起頻度を用いる方法、相互
情報量を用いる方法、および、他の語との共起の分布の
類似度を用いる方法などがある。他の語との共起の分布
の類似度を用いる方法は、例えば、語aと他の語c,d,
e,...,x,y,z、語bと他の語c,d,e,...,x,y,zの共起分布
が似ていれば語aと語bを同じクラスタとするものであ
る。つまり、共起行列において分布の類似している2つ
の列をまとめる操作となる。なお、クラスタ化は、後述
する、語と頻出語との共起度の頻度を取得した後に行わ
れ、同一クラスタに属する語についての共起度の頻度を
足し合わせて一つにまとめることになる。ただし、クラ
スタ化の時期はこれに限らず、それより前に行われても
良い。この場合は、まずクラスタ単位で共起度を取得す
ることになる。このようなクラスタ化を行うことで、共
起度を求める際に、同様の語をまとめてカウントするこ
とができ、共起行列(すなわち共起度の頻度分布)がよ
り適切な値になる。
However, S (a∩b) is the number of sentences in which both word a and word b appear, and S (a∪b) is the number of sentences in which word a or word b appears. As a clustering method, in addition to the method using Jaccard coefficient, the method using co-occurrence frequency of both words, the method using mutual information, and the similarity of distribution of co-occurrence with other words are used. There are ways. The method using the similarity of the distribution of co-occurrence with other words is, for example, word a and other words c, d,
If e, ..., x, y, z, word b and other words c, d, e, ..., x, y, z have similar co-occurrence distributions, word a and word b are in the same cluster It is what In other words, it is an operation of putting together two columns having similar distributions in the co-occurrence matrix. Note that clustering is performed after acquiring the frequency of co-occurrence degrees between words and frequently-used words, which will be described later, and the frequency of co-occurrence degrees of words belonging to the same cluster is added together to be one. . However, the timing of clustering is not limited to this, and may be performed before that. In this case, first, the co-occurrence degree is acquired in cluster units. By performing such clustering, similar words can be collectively counted when the co-occurrence degree is obtained, and the co-occurrence matrix (that is, the frequency distribution of the co-occurrence degree) has a more appropriate value.

【0030】以下、例を挙げて説明する。表1に、ある
文書における上位10個の頻出語(a〜j)と、その出
現度数(頻度)と、出現確率(その頻出語が出現する度
数を全頻出語の出現度数で割ったもの)の分布とを示
す。
An example will be described below. In Table 1, the top 10 most frequent words (a to j) in a document, their frequency of occurrence (frequency), and the probability of their occurrence (the frequency at which that frequent word is divided by the frequency of occurrence of all frequent words) And the distribution of.

【0031】[0031]

【表1】 [Table 1]

【0032】このステップS2−2は、頻出語抽出モジ
ュール32により実行される。
This step S2-2 is executed by the frequent word extraction module 32.

【0033】(ステップS2−3):請求項1のステッ
プ(2)に対応 このステップにおいては、各語と頻出語との共起確率分
布の偏りに基づいて、語のうちから特徴アイテムを抽出
する。この操作を、図3に基づいてさらに詳しく説明す
る。なお、このステップS2−3は、キーワード決定モ
ジュール33によって実行される。
(Step S2-3): Corresponding to step (2) of claim 1 In this step, a characteristic item is extracted from the words based on the bias of the co-occurrence probability distribution of each word and the frequent word. To do. This operation will be described in more detail with reference to FIG. Note that this step S2-3 is executed by the keyword determination module 33.

【0034】(ステップS3−1)まず、各頻出語の頻
度分布を示す情報を取得する。この情報とは、例えば、
各頻出語の頻度分布、および、各頻出語の(理論)出現
確率である。この情報は、前記ステップS2−2におい
て取得できる。このように、各ステップは、独立で存在
しなくても良く、実質的にそのステップの機能が実行さ
れればよい。
(Step S3-1) First, information indicating the frequency distribution of each frequent word is acquired. This information is, for example,
It is the frequency distribution of each frequent word and the (theoretical) occurrence probability of each frequent word. This information can be acquired in step S2-2. As described above, each step does not have to exist independently, and the function of the step may be substantially executed.

【0035】(ステップS3−2)次に、各語と頻出語
との共起度(すなわち共起回数)の頻度分布を取得す
る。このステップを具体的に説明する。同じ文の中で、
各頻出語と共起する各語の頻度を集計することにより、
表2のような共起行列を作ることができる。これが共起
度の頻度分布の一例である。
(Step S3-2) Next, the frequency distribution of the co-occurrence degree (that is, the number of times of co-occurrence) between each word and the frequent word is acquired. This step will be specifically described. In the same sentence,
By counting the frequency of each word that co-occurs with each frequent word,
A co-occurrence matrix as shown in Table 2 can be created. This is an example of the frequency distribution of co-occurrence.

【表2】 [Table 2]

【0036】この表は、頻出語上位10語(表中a〜j;
頻出語の集合をGとする)についての行列を求めたもので
ある。上部における10×10の行列は対称行列である。こ
の対称行列における対角要素は、各頻出語の文書中での
出現回数を表す。さらに、この行列は、下方向には、頻
出語以外の語(〜x)も扱っている。つまり、この表
は、頻出語とは限らないある語wと頻出語g∈Gの共起度
数を示している。共起度計算の例を以下に説明する。例
えば、「今日は暑い。昨日も関東地方は暑かった。」と
いう文を仮定する。ここにおいては、(今日、暑い)
は、最初の文において1回共起している。2番目の文に
おいては、(昨日、関東)、(昨日、地方)、(昨日、
暑い)、(関東、地方)、(関東、暑い)、(地方、暑
い)もそれぞれ1回共起していることになる。
This table shows the top 10 most frequently used words (a to j in the table).
(G is the set of frequent words). The 10x10 matrix at the top is a symmetric matrix. The diagonal elements in this symmetric matrix represent the number of times each frequent word appears in the document. Further, this matrix handles words (to x) other than the frequently-used word in the downward direction. That is, this table shows the co-occurrence frequency of a certain word w which is not always a frequent word and a frequent word g ∈ G. An example of co-occurrence degree calculation will be described below. For example, assume the sentence "It was hot today. The Kanto region was hot yesterday." Here (it's hot today)
Co-occurs once in the first sentence. In the second sentence, (Yesterday, Kanto), (Yesterday, region), (Yesterday,
This means that (hot), (Kanto, local), (Kanto, hot), (local, hot) co-occur once.

【0037】共起行列中で、語wに対応する行の各要素
をその行の要素の合計値(表2における計の列の値に相
当する)で割ることにより、語wと頻出語gとの共起確率
分布が得られる。ここで、仮に、語wが頻出語g∈Gと全
く独立に生起するなら、語wと語g∈Gが共起する確率分
布は、表1の確率分布(つまり頻出語の確率分布)と同
様になるはずである。一方、語wと頻出語g∈Gの間に何
らかの意味的なつながりがあれば、確率分布は偏ること
になる。なお、ここで、確率分布とは、実質的に確率を
表すものであればよく、共起頻度をそのまま数値として
用いて以下の計算を行うことも可能である。
In the co-occurrence matrix, each element of the row corresponding to word w is divided by the sum of the elements of that row (corresponding to the value of the total column in Table 2) to give word w and the frequent word g. A co-occurrence probability distribution with is obtained. Here, if the word w occurs independently of the frequent word g ∈ G, the probability distribution of the co-occurrence of the word w and the word g ∈ G is the probability distribution of Table 1 (that is, the probability distribution of the frequent word). It should be similar. On the other hand, if there is any semantic connection between the word w and the frequent word g ∈ G, the probability distribution will be biased. Here, the probability distribution only needs to represent the probability substantially, and the following calculation can be performed using the co-occurrence frequency as it is as a numerical value.

【0038】図4および図5に、ある語と頻出語との共
起確率の分布と、頻出語単独での出現確率(図中手前)
の分布の比較の一例を示す。いずれの語も、10回前後し
か文書中に出現していないが、discussionやcaseなどの
一般的な語は、どの頻出語g∈Gとも同じような割合で用
いられるのに対し、transformation Lやhypothesesなど
の語は大きく偏った分布をしている。これらの語は、特
定の語とは選択的に多く共起しているが、その他の語と
はほとんど共起していない。こういった、分布に偏りの
ある語は、文書中で何らかの意味を持っていると考えら
れる。実際、もとになった文書は「仮説推論におけるホ
ーン節から制約式への変換方法のひとつである変換 L」
について述べた論文なので、transformation Lやhypoth
esesなどの語は、論文中で出現頻度は少ないが重要な語
である。
FIGS. 4 and 5 show the distribution of co-occurrence probabilities of a word and a frequent word, and the appearance probability of the frequent word alone (front in the figure).
An example of comparison of the distributions of is shown. Although all the words appear in the document only about 10 times, common words such as discussion and case are used at the same rate as any frequent word g ∈ G, while transformation L and Words such as hypotheses have a highly skewed distribution. These words preferentially co-occur with certain words, but rarely with other words. These biased words are considered to have some meaning in the document. In fact, the original document is "Conversion L, which is one of the conversion methods from Horn clauses to constraint expressions in hypothesis reasoning".
Since it is a paper that describes about transformation L and hypoth
Words such as eses are important words that occur less frequently in the paper.

【0039】(ステップS3−3)ついで、χ値を全
ての語wについて計算する。前記したように、ある語の
共起確率の分布が、基準となる出現確率から大きくずれ
ていれば、その語は特徴的な語であり、文章において重
要な語である可能性が高いと考えることができる。しか
しながら、語の出現頻度自体が少なければ確率分布のず
れは信頼できなくなる。例えば、表1から、語aの出現
確率は0.177である。このとき、出現回数1回の語w1
語aと1回(つまり確率1で)共起していることよりも、
出現回数10回の語w2が語aと10回(つまり確率1で)共起
している方が、基準からのずれは大きいはずである。し
たがって、統計的に有意なずれを評価するために、χ2
検定を用いる。
(Step S3-3) Then, the χ 2 value is calculated for all the words w. As mentioned above, if the distribution of the co-occurrence probabilities of a word deviates significantly from the reference appearance probability, it is considered that the word is a characteristic word and is likely to be an important word in the sentence. be able to. However, if the frequency of appearance of words is small, the deviation of the probability distribution becomes unreliable. For example, from Table 1, the appearance probability of the word a is 0.177. At this time, rather than that the word w 1 with one appearance frequency co-occurs with the word a once (that is, with probability 1),
If the word w 2 with 10 occurrences co-occurs with the word a 10 times (that is, with a probability of 1), the deviation from the standard should be large. Therefore, in order to evaluate the statistically significant deviation, χ 2
Use a test.

【0040】このステップでは、頻出語単独での出現確
率(表1)を出現確率pg (g ∈ G)とし、語wと頻出語gと
の共起頻度の総数をnw(表2における語wに対応する行
の「計」の列の値に相当する)、(実際に観測された)共
起度数をcooc(w,g)(表2における語w(表中のa〜x)
に対応する行の値、または、頻出語g(表中のa〜j)
に対応する列の値に相当する)として、各語wについ
て、統計量χ2を以下の(1)式で求める。
In this step, the occurrence probability of a frequent word alone (Table 1) is defined as the occurrence probability p g (g ∈ G), and the total number of co-occurrence frequencies of the word w and the frequent word g is n w (in Table 2). The co-occurrence frequency (corresponding to the value in the “total” column of the row corresponding to the word w), cooc (w, g) (the word w in Table 2 (a to x in the table))
The value of the row corresponding to or the frequent word g (a to j in the table)
(Corresponding to the value of the column corresponding to), the statistic amount χ 2 is obtained for each word w by the following equation (1).

【0041】つまり、各頻出語gについての共起度数co
oc(w,g)が、表1における共起度の頻度分布に相当す
る。よって、共起度数cooc(w,g)は、本実施形態におけ
る「頻度分布を示す情報」に相当する。また、(1)式
において、nwpgは、頻出語gについての理論共起度数を
示している。
That is, the co-occurrence frequency co for each frequent word g
oc (w, g) corresponds to the frequency distribution of co-occurrence degrees in Table 1. Therefore, the co-occurrence frequency cooc (w, g) corresponds to “information indicating frequency distribution” in the present embodiment. Further, in the equation (1), n w p g represents the theoretical co-occurrence frequency for the frequent word g.

【0042】χ2(w)>χα であれば、「語wの頻出語g
∈Gとの共起回数(観測度数)は(理論)出現確率pg (g∈
G)に適合している」という仮説H0が有意水準αで棄却さ
れる。(χα は通常χ2分布表より得る)。したがっ
て、χ2(w)の大きな語wは、出現確率からのずれが大き
な語と判断することができる。このような語をキーワー
ドとする(ステップS3−4)。
If χ 2 (w)> χ α 2 , then "the frequent word g of word w
The number of co-occurrences with ∈ G (observation frequency) is (theory) probability of occurrence p g ( g
The hypothesis H 0 that "matches G)" is rejected at the significance level α. (Χ α 2 is usually obtained from the χ 2 distribution table). Therefore, a word w with a large χ 2 (w) can be judged as a word with a large deviation from the appearance probability. Such words are used as keywords (step S3-4).

【0043】例として、表3、表4に、χ2の値が高い
語上位10個、低い語上位10個をそれぞれ示した。なお、
これらは、25個の頻出語(表5)を基準としており、その
分布のずれを測っている。表から分かる通り、χ2値の
高い語は、特徴的な(すなわち論旨と直接関係する可能
性の高い)語であり、χ2値の低い語は一般的な語であ
る傾向が強い。
As an example, Tables 3 and 4 show the top 10 words with high χ 2 values and the top 10 words with low χ 2 values, respectively. In addition,
These are based on 25 frequent words (Table 5) and measure the deviation of their distribution. As can be seen from the table, a word with a high χ 2 value is a characteristic word (that is, it is likely to be directly related to the argument), and a word with a low χ 2 value tends to be a general word.

【表3】 [Table 3]

【表4】 [Table 4]

【表5】 [Table 5]

【0044】本実施形態の方法は、最初にデータ自身の
全体的な傾向を求め、それと大きく異なる特徴を持つア
イテムを取り出すものと言える。
It can be said that the method of the present embodiment first obtains the overall tendency of the data itself, and then takes out items having characteristics that are significantly different from them.

【0045】[0045]

【実施例】(実施例1)前記実施形態の方法を用いて、
下記論文からキーワードを抽出した。比較のため、頻出
語のみからキーワードを抽出した例も示す。 論文:「SL法:線形計画法と非線形計画法の併用による
コストに基づく仮説推論の準最適解計算」(松尾 豊、
二田 丈之、石塚 満:人工知能学会誌Vol.13, No.6, p
p.953-961,1998)
EXAMPLES Example 1 Using the method of the above embodiment,
Keywords were extracted from the following papers. For comparison, an example in which keywords are extracted from only frequently-used words is also shown. Paper: "SL Method: Suboptimal Solution Calculation of Cost-Based Hypothetical Reasoning by Combined Linear Programming and Nonlinear Programming" (Yutaka Matsuo,
Takeyuki Futa, Mitsuru Ishizuka: Journal of Japan Society for Artificial Intelligence Vol.13, No.6, p
p.953-961,1998)

【表6】 [Table 6]

【表7】 [Table 7]

【0046】前記の論文を要約すると、「コストに基づ
く仮説推論の準最適解を得るSL法という手法を提案す
る。SL法は、まず仮説推論問題を線形計画問題に置き換
え、単体法で初期探索点を決定した後、その周りを非線
形関数を最小化することにより探索を行う。局所最適解
に陥った場合には固定化を行う。」という内容である。
従って、本実施形態では、「準最適解」や「非線形関数
最小化」など、論文中の主旨である語が、論文中の文章
のみを解析することでうまく取り出すことができた。
To summarize the above paper, "We propose a method called the SL method for obtaining a suboptimal solution of cost-based hypothetical reasoning. The SL method first replaces the hypothetical reasoning problem with a linear programming problem and then performs an initial search with a simplex method. After deciding the point, the search is performed by minimizing the non-linear function around it. If the point falls into the local optimal solution, it is fixed. ”
Therefore, in the present embodiment, words such as “suboptimal solution” and “minimization of non-linear function” that are the main points in the paper can be successfully extracted by analyzing only the sentences in the paper.

【0047】(実施例2)下記のURLから取得した小泉
首相所信表明演説に対して、本実施形態の方法を適用し
た。結果は下記の通りである。http://www.kantei.go.j
p/jp/koizumispeech/2001/0507syosin.html
(Example 2) The method of this embodiment was applied to Koizumi's public opinion speech obtained from the following URL. The results are as follows. http: //www.kantei.go.j
p / jp / koizumispeech / 2001 / 0507syosin.html

【表8】 [Table 8]

【表9】 [Table 9]

【0048】前記演説の内容は、構造改革、経済につい
て、外交についてなど多岐に渡っており、この演説のメ
インのテーマである「新世紀維新」という語は2回しか
言及されていない。しかしながら、本実施形態の方法で
は、この語をキーワードとして取り出すことができた。
The content of the speech is wide-ranging, including structural reform, economics, and diplomacy, and the main theme of this speech, "Neon Genesis Restoration," is mentioned only twice. However, with the method of this embodiment, this word could be extracted as a keyword.

【0049】(実施例3)朝日新聞2001年7月1日社説
「PL野球部――暴力の温床を断とう」に本実施形態の
方法を適用した。結果は下記の通りである。
(Example 3) Asahi Shimbun July 1, 2001 The method of this embodiment was applied to the editorial "PL Baseball Club: Break the Hotbed of Violence". The results are as follows.

【表10】 [Table 10]

【表11】 [Table 11]

【0050】前記社説は、野球部での暴力問題と、日本
の高校・大学スポーツでのしごきについてのものであ
る。主旨は、指導者が事態を改善する努力をすべきであ
るというものである。したがって、本実施形態により、
適切なキーワードを抽出できていることが判る。
The above editorial is about the problem of violence in the baseball club and ironing in Japanese high school and college sports. The idea is that leaders should make efforts to improve the situation. Therefore, according to this embodiment,
It can be seen that appropriate keywords can be extracted.

【0051】なお、前記実施形態の記載は単なる一例に
過ぎず、本発明に必須の構成を示したものではない。各
部の構成は、本発明の趣旨を達成できるものであれば、
上記に限らない。例えば、特徴アイテム抽出システム
は、複数のコンピュータの協働によって実現されても良
い。また、前記した各モジュールが分割されたり集約さ
れたプログラムとなっていてもよい。「各アイテムと頻
出アイテムとの共起確率分布の偏りを判断する手法」と
しては、χ2検定以外に、カルバック・ライブラー情報
量を使うものや、尤度比検定、フィッシャーの正確検
定、コルモゴロフ・スミルノフ検定がある。
It should be noted that the above description of the embodiment is merely an example, and does not show an essential structure of the present invention. As long as the configuration of each part can achieve the gist of the present invention,
Not limited to the above. For example, the characteristic item extraction system may be realized by cooperation of a plurality of computers. Further, the above-mentioned modules may be divided or integrated programs. As a method for determining the bias of the co-occurrence probability distribution between each item and the frequent item, other than the χ 2 test, the method using Kalbach-Leibler information, the likelihood ratio test, Fisher's exact test, Kolmogorov・ There is a Smirnov test.

【0052】さらに、前記実施形態では、共起度を、同
じ文中であることを基準として測定したが、頻出語の前
後における単語数の範囲(例えば前後5語づつの範囲)
を規定し、その範囲での共起度を測定してもよい。ま
た、共起度を、同文中でかつ、頻出語の前後における規
定の単語数の範囲内で測定するもの、としてもよい。さ
らに、頻出語の出現する理論出現確率pg (g ∈ G)を、
(gが出現する文の語数の合計)/(文書全体の語数の合
計)とし、前記(1)式中のnwを語wが出現する文の語
数の合計とすることができる。このようにすると、χ
値について、文の長さを考慮した(つまり短い文で共起
する2つの語はより関係が強いと考える)正確な計算結
果が得られる。
Further, in the above-mentioned embodiment, the co-occurrence degree is measured based on the fact that it is in the same sentence, but the range of the number of words before and after the frequent word (for example, the range of 5 words before and after) is used.
May be defined and the co-occurrence degree in that range may be measured. Further, the co-occurrence degree may be measured within the same sentence and within a prescribed number of words before and after the frequent word. Furthermore, the theoretical probability of occurrence of frequent words p g (g ∈ G) is
(N is the total number of words in the sentence in which g appears) / (total number of words in the entire document), and n w in the expression (1) can be the total number of words in the sentence in which the word w appears. In this way, χ 2
For the value, an accurate calculation result is obtained in consideration of the sentence length (that is, two words that co-occur in a short sentence are more closely related).

【0053】[0053]

【発明の効果】本発明によれば、少ないデータ量であっ
ても、比較的に精度良く特徴アイテムを抽出できる特徴
アイテム抽出方法を提供することができる。
As described above, according to the present invention, it is possible to provide a characteristic item extraction method capable of extracting a characteristic item with relatively high accuracy even with a small amount of data.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施形態におけるキーワード抽出シ
ステムの概略的な構成を示すブロック図である。
FIG. 1 is a block diagram showing a schematic configuration of a keyword extraction system according to an embodiment of the present invention.

【図2】本発明の一実施形態におけるキーワード抽出方
法の概略的な手順を示すフローチャートである。
FIG. 2 is a flowchart showing a schematic procedure of a keyword extraction method according to an embodiment of the present invention.

【図3】本発明の一実施形態におけるキーワード抽出方
法において、キーワード決定についての手順を示すフロ
ーチャートである。
FIG. 3 is a flowchart showing a procedure for keyword determination in the keyword extraction method according to the embodiment of the present invention.

【図4】本実施形態における確率分布の偏りの一例を示
すグラフである。
FIG. 4 is a graph showing an example of bias of probability distribution in the present embodiment.

【図5】本実施形態における確率分布の偏りの他の例を
示すグラフである。
FIG. 5 is a graph showing another example of bias of probability distribution in the present embodiment.

【符号の説明】[Explanation of symbols]

1 CPU 2 インタフェース部 3 記憶部 31 文書データ 32 頻出語(頻出アイテム)抽出モジュール 33 キーワード(特徴アイテム)決定モジュール 4 通信部 1 CPU 2 Interface section 3 storage 31 Document data 32 Frequent word (frequent item) extraction module 33 Keywords (feature item) decision module 4 Communication unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 石塚 満 神奈川県横浜市青葉区もえぎ野3−28 Fターム(参考) 5B056 BB64 HH00 5B075 ND03 NR12 PR04 UU06    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Mitsuru Ishizuka             3-28 Moegino, Aoba-ku, Yokohama-shi, Kanagawa F-term (reference) 5B056 BB64 HH00                 5B075 ND03 NR12 PR04 UU06

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 以下のステップを有することを特徴とす
る特徴アイテム抽出方法; (1)データ中のアイテムから頻出アイテムを抽出する
ステップ、(2)前記各アイテムと頻出アイテムとの共
起確率分布の偏りに基づいて、前記アイテムから特徴ア
イテムを抽出するステップ。
1. A characteristic item extraction method comprising the following steps; (1) a step of extracting frequent items from items in data, (2) a co-occurrence probability distribution of each item and the frequent items. A feature item from the item based on the bias of the item.
【請求項2】 前記データは、文章またはその一部であ
り、前記アイテムは、単数または複数の語であることを
特徴とする、請求項1記載の特徴アイテム抽出方法。
2. The characteristic item extracting method according to claim 1, wherein the data is a sentence or a part thereof, and the item is a single word or a plurality of words.
【請求項3】 前記共起確率は、同じ文中での共起に基
づいて算出されることを特徴とする請求項2記載の特徴
アイテム抽出方法。
3. The characteristic item extraction method according to claim 2, wherein the co-occurrence probability is calculated based on co-occurrence in the same sentence.
【請求項4】 前記共起確率は、前記頻出アイテムの前
後における規定された語数の範囲での共起に基づいて算
出されることを特徴とする請求項2記載の特徴アイテム
抽出方法。
4. The characteristic item extraction method according to claim 2, wherein the co-occurrence probability is calculated based on co-occurrence within a prescribed number of words before and after the frequent item.
【請求項5】 前記頻出アイテムは、同じ文中に現れる
確率の比較的高いものどうしがまとめられてクラスタ化
されており、前記共起確率分布の偏りの算出は、前記各
アイテムと、前記クラスタ化された頻出アイテムとの間
で行われることを特徴とする、請求項2〜4のいずれか
1項記載の特徴アイテム抽出方法。
5. The frequent items are clustered by grouping together items having a relatively high probability of appearing in the same sentence, and the bias of the co-occurrence probability distribution is calculated by using each of the items and the clustering. 5. The characteristic item extraction method according to claim 2, wherein the characteristic item extraction method is performed between the extracted frequent items.
【請求項6】 前記「各アイテムと頻出アイテムとの共
起確率分布の偏りに基づいて、前記アイテムから特徴ア
イテムを抽出するステップ」は、次のステップを含むこ
とを特徴とする請求項1〜5のいずれか1項記載の特徴
アイテム抽出方法; (a)前記データ中における各頻出アイテムの頻度分布
を示す情報を取得するステップ、(b)前記頻出アイテ
ムと各アイテムとの共起度の頻度分布を示す情報を取得
するステップ、(c)各頻出アイテムの頻度分布を示す
情報と、前記共起度の頻度分布を示す情報とに基づい
て、前記共起確率分布の偏りを取得するステップ。
6. The "step of extracting a characteristic item from the item based on the bias of the co-occurrence probability distribution of each item and the frequent item" includes the following steps. 5. The characteristic item extraction method according to any one of 5; (a) a step of acquiring information indicating a frequency distribution of each frequent item in the data, (b) a frequency of co-occurrence degree between the frequent item and each item Acquiring information indicating distribution, (c) acquiring bias of the co-occurrence probability distribution based on information indicating frequency distribution of each frequent item and information indicating frequency distribution of the co-occurrence degree.
【請求項7】 請求項6記載の抽出方法において、前記
「各頻出アイテムの頻度分布を示す情報」とは、各頻出
アイテムの出現確率を示す情報であることを特徴とする
特徴アイテム抽出方法。
7. The feature item extraction method according to claim 6, wherein the “information indicating the frequency distribution of each frequent item” is information indicating the appearance probability of each frequent item.
【請求項8】 前記共起確率分布の偏りは、下記式にお
けるχ値の大きさとして算出されることを特徴とする
請求項1〜7のいずれか1項記載の特徴アイテム抽出方
法。 ただし、この式において、 w:アイテム、 g:頻出アイテム、 G:全頻出アイテムの集合 p:頻出アイテム(g)の出現確率、 n:アイテム(w)と全頻出アイテムの集合(G)中の頻
出アイテムとの共起頻度の総数、 cooc(w,g):アイテム(w)と頻出アイテム(g)との共起度
数、 である。
8. The feature item extraction method according to claim 1, wherein the bias of the co-occurrence probability distribution is calculated as the magnitude of the χ 2 value in the following equation. However, in this expression, w: item, g: frequent item, G: set of all frequent items p g : appearance probability of frequent item (g), n w : set of item (w) and all frequent item (G) The total number of co-occurrence frequencies with frequent items inside, cooc (w, g): co-occurrence frequency of item (w) and frequent items (g).
【請求項9】 請求項8において、p=(頻出アイテム
(g)の出現頻度)/(集合(G)に属する頻出アイテム
(g)全体の出現頻度の合計)であり、nは、アイテム
(w)と集合(G)中の頻出アイテム(g)との共起頻度の総
数であることを特徴とする特徴アイテム抽出方法。
9. The method of claim 8, wherein p g = (frequent items
(G) appearance frequency) / (Frequent items belonging to set (G))
(g) total appearance frequency), and n w is an item
A characteristic item extraction method, which is the total number of co-occurrence frequencies of (w) and frequent items (g) in the set (G).
【請求項10】 請求項8において、p=(頻出アイ
テム(g)が出現する文の語数の合計)/(文書全体の語
数の合計)であり、nは、前記アイテム(w)が出現す
る文の語数の合計であることを特徴とする特徴アイテム
抽出方法。
10. The method according to claim 8, wherein p g = (total number of words of sentence in which frequent item (g) appears) / (total number of words of entire document), and n w is that item (w) is A characteristic item extraction method characterized by being the total number of words of an appearing sentence.
【請求項11】 CPUと、このCPUによって利用可
能な記憶部とを備え、前記記憶部は、頻出アイテム抽出
モジュールと、特徴アイテム決定モジュールとを備え、
前記頻出アイテム抽出モジュールは、データ中のアイテ
ムから頻出アイテムを抽出する動作を前記CPUに行わ
せるソフトウエアであり、前記特徴アイテム決定モジュ
ールは、各アイテムと頻出アイテムとの共起確率分布の
偏りに基づいて、前記アイテムから特徴アイテムを抽出
する動作を前記CPUに行わせるソフトウエアであるこ
とを特徴とする特徴アイテム抽出システム。
11. A CPU and a storage unit usable by the CPU, the storage unit including a frequent item extraction module and a characteristic item determination module,
The frequent item extraction module is software that causes the CPU to perform an operation of extracting a frequent item from an item in data, and the characteristic item determination module is for biasing the co-occurrence probability distribution of each item and the frequent item. A characteristic item extraction system, which is software that causes the CPU to perform an operation of extracting a characteristic item from the item based on the above.
【請求項12】 コンピュータにより、請求項1〜10
記載の特徴アイテム抽出方法における前記ステップの機
能を実行させることを特徴とする、コンピュータで実行
または読み取り可能なプログラム。
12. The computer according to any one of claims 1 to 10.
A computer-executable or readable program, characterized by causing the function of the step in the characteristic item extraction method described above to be executed.
【請求項13】 請求項11記載の特徴アイテム抽出シ
ステムにおける前記頻出アイテム抽出モジュール。
13. The frequent item extraction module in the characteristic item extraction system according to claim 11.
【請求項14】 請求項11記載の特徴アイテム抽出シ
ステムにおける前記特徴アイテム決定モジュール。
14. The characteristic item determination module in the characteristic item extraction system according to claim 11.
JP2001254905A 2001-08-24 2001-08-24 Feature item extraction method from data Expired - Lifetime JP4679003B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001254905A JP4679003B2 (en) 2001-08-24 2001-08-24 Feature item extraction method from data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001254905A JP4679003B2 (en) 2001-08-24 2001-08-24 Feature item extraction method from data

Publications (3)

Publication Number Publication Date
JP2003067412A true JP2003067412A (en) 2003-03-07
JP2003067412A5 JP2003067412A5 (en) 2008-05-15
JP4679003B2 JP4679003B2 (en) 2011-04-27

Family

ID=19082986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001254905A Expired - Lifetime JP4679003B2 (en) 2001-08-24 2001-08-24 Feature item extraction method from data

Country Status (1)

Country Link
JP (1) JP4679003B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508878A (en) * 2009-10-27 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Co-occurrence serendipity recommender
JP2015506515A (en) * 2012-01-05 2015-03-02 テンセント テクノロジー (シェンジェン) カンパニー リミテッド Method, apparatus and computer storage medium for automatically adding tags to a document
JP2019053458A (en) * 2017-09-14 2019-04-04 日本電信電話株式会社 Accurate test calculation device, accurate test calculation method, and program
JP2021018504A (en) * 2019-07-18 2021-02-15 富士フイルム株式会社 Image analysis device, image analysis method, computer program, and recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02285419A (en) * 1989-04-27 1990-11-22 Ricoh Co Ltd Semanic classification system
JPH08202737A (en) * 1995-01-26 1996-08-09 N T T Data Tsushin Kk Device and method for automatically extracting keyword
JP2001067362A (en) * 1999-08-25 2001-03-16 Hitachi Ltd Word importance calculation method, document search interface, word dictionary creation method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02285419A (en) * 1989-04-27 1990-11-22 Ricoh Co Ltd Semanic classification system
JPH08202737A (en) * 1995-01-26 1996-08-09 N T T Data Tsushin Kk Device and method for automatically extracting keyword
JP2001067362A (en) * 1999-08-25 2001-03-16 Hitachi Ltd Word importance calculation method, document search interface, word dictionary creation method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508878A (en) * 2009-10-27 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Co-occurrence serendipity recommender
JP2015506515A (en) * 2012-01-05 2015-03-02 テンセント テクノロジー (シェンジェン) カンパニー リミテッド Method, apparatus and computer storage medium for automatically adding tags to a document
US9146915B2 (en) 2012-01-05 2015-09-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and computer storage medium for automatically adding tags to document
JP2019053458A (en) * 2017-09-14 2019-04-04 日本電信電話株式会社 Accurate test calculation device, accurate test calculation method, and program
JP2021018504A (en) * 2019-07-18 2021-02-15 富士フイルム株式会社 Image analysis device, image analysis method, computer program, and recording medium
JP7111662B2 (en) 2019-07-18 2022-08-02 富士フイルム株式会社 Image analysis device, image analysis method, computer program, and recording medium
JP2022170739A (en) * 2019-07-18 2022-11-10 富士フイルム株式会社 Image analysis device, image analysis method, computer program, and recording medium
JP7382461B2 (en) 2019-07-18 2023-11-16 富士フイルム株式会社 Image analysis device, image analysis method, computer program, and recording medium

Also Published As

Publication number Publication date
JP4679003B2 (en) 2011-04-27

Similar Documents

Publication Publication Date Title
Ma et al. A bottom-up merging algorithm for Chinese unknown word extraction
CN103778243B (en) Domain term extraction method
Otair Comparative analysis of Arabic stemming algorithms
Gupta et al. A survey of common stemming techniques and existing stemmers for indian languages
EP2354967A1 (en) Semantic textual analysis
Harmanani et al. A rule-based extensible stemmer for information retrieval with application to Arabic
Ismailov et al. A comparative study of stemming algorithms for use with the Uzbek language
CN102681983A (en) Alignment method and device for text data
Awajan Keyword extraction from arabic documents using term equivalence classes
Litvak et al. Degext: a language-independent keyphrase extractor
Al-Lahham et al. Conditional arabic light stemmer: condlight.
Awajan Semantic similarity based approach for reducing Arabic texts dimensionality
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
Gleim et al. A practitioner’s view: a survey and comparison of lemmatization and morphological tagging in German and Latin
Tomar et al. Probabilistic latent semantic analysis for unsupervised word sense disambiguation
Ando et al. Mostly-unsupervised statistical segmentation of Japanese kanji sequences
Singh et al. An efficient corpus-based stemmer
Selvaretnam et al. A linguistically driven framework for query expansion via grammatical constituent highlighting and role-based concept weighting
Salavati et al. Stemming for Kurdish information retrieval
Agarwal et al. Automatic Extraction of Multiword Expressions in Bengali: An Approach for Miserly Resource Scenario
Husain et al. A language Independent Approach to develop Urdu stemmer
ALshalabi et al. The effectiveness of Arabic Stemmers using Arabized word removal
Awajan Unsupervised approach for automatic keyword extraction from Arabic documents
Ahmed et al. Gold dataset for the evaluation of Bangla stemmer
JP2003067412A (en) Method for extracting feature item from data

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4679003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term