[go: up one dir, main page]

JP2005004393A - Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof - Google Patents

Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof Download PDF

Info

Publication number
JP2005004393A
JP2005004393A JP2003165844A JP2003165844A JP2005004393A JP 2005004393 A JP2005004393 A JP 2005004393A JP 2003165844 A JP2003165844 A JP 2003165844A JP 2003165844 A JP2003165844 A JP 2003165844A JP 2005004393 A JP2005004393 A JP 2005004393A
Authority
JP
Japan
Prior art keywords
pattern
frequency
evaluated
super
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003165844A
Other languages
Japanese (ja)
Other versions
JP4263949B2 (en
Inventor
Yukiko Yoshida
由起子 吉田
Nobuhiro Yugami
伸弘 湯上
Tadako Oota
唯子 太田
Kenichi Kobayashi
健一 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003165844A priority Critical patent/JP4263949B2/en
Publication of JP2005004393A publication Critical patent/JP2005004393A/en
Application granted granted Critical
Publication of JP4263949B2 publication Critical patent/JP4263949B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価装置に関し,要素の組で構成されるパターン群について,要素間の関係を表わすのに必要十分なパターンのみを選択することを目的とする。
【解決手段】パターン頻度計算部12が種々のパターンについて状態列データベース20内の頻度を計算してパターン頻度情報データベース21に格納し,サブパターン/ スーパーパターン生成部13が評価対象のパターンSからサブパターン群とスーパーパターン群を生成し,パターン推定頻度計算部14がサブパターン, スーパーパターンの頻度に基づくSの推定頻度を計算し,パターン有意義度計算部15が算出された各推定頻度からのSの実際の頻度の乖離度を計算し, 算出された各乖離度に関する所定の統計値をSの有意義度として算出し,算出された有意義度に基づいてパターン評価部16がパターンを評価する。
【選択図】 図1
The present invention relates to a pattern evaluation apparatus based on significance using sub-pattern and super-pattern frequencies, and selects only patterns necessary and sufficient for expressing the relationship between elements in a pattern group composed of element sets. For the purpose.
A pattern frequency calculation unit calculates a frequency in a state sequence database for various patterns and stores it in a pattern frequency information database, and a sub-pattern / super pattern generation unit generates a sub-pattern from a pattern to be evaluated. A pattern group and a super pattern group are generated, the pattern estimation frequency calculation unit 14 calculates the estimation frequency of S based on the sub-pattern and super pattern frequencies, and the pattern significance calculation unit 15 calculates the S from each estimation frequency. The actual frequency deviation degree is calculated, a predetermined statistical value relating to each calculated deviation degree is calculated as the significance level of S, and the pattern evaluation unit 16 evaluates the pattern based on the calculated significance level.
[Selection] Figure 1

Description

【0001】
【発明の属する技術分野】
本発明は, 要素の組で構成される複数のパターンの評価を行うパターン評価装置,パターン評価処理方法,パターン評価処理プログラムおよびそのプログラム記録媒体に関し,特に,例えば,顧客の購買履歴,Webアクセス・ログ, 株価や気温の時系列データといった状態列データの分析に関わる方式に関する。
【0002】
【従来の技術】
POSデータやWebアクセス・ログ等から, 多くのデータに共通して現れる要素の組, すなわちパターンを見つけ出すことは, データベース・マーケティングや顧客情報管理(CRM)等多くの分野で重要な課題であり, これを解決するためにApriori 等の手法が提案されている(例えば,非特許文献1参照)。
【0003】
しかし,これらの手法では, 非常に多くのパターンが発見され, その中から利用価値の高いパターンを選び出すことはきわめて困難である。そのため, 発見されたパターンの良さを評価し, それをもとに統計的に意味のないパターンや冗長なパターンを除去し, データベース内の多様な特徴を表わす比較的少数のパターンを選択することが必要となる。
【0004】
データベース内で, パターンを構成する個々の要素の頻度(例えば, 個々の商品の購買頻度)から推定されるよりも非常に多く出現するパターンは,特に利用価値が高いという観点にもとづき, パターンの一部であるサブパターンからの推定頻度と, パターンの実際の頻度との比較によってパターンの有用性を評価する方式が従来より用いられてきた(例えば,非特許文献2,3,4,5,6参照)。
【0005】
また,例えば, 関連する特許出願(出願番号: 特願2002−347241,「意外性に基づく状態列パターンの評価装置」)では, 分析対象となるパターンについて, 部分パターンの頻度を用いてパターンの想定頻度を計算し, その想定頻度とデータベース内の実際の頻度との関数でパターンの有用性を定義している。
【0006】
【非特許文献1】
Rakesh Agrawal and Ramakrishnan Srikant:‘Fast algorithms for mining association rules’. In Proceedings of the International Conference on Very Large Data Bases, pp.487−499,1994.
【非特許文献2】
Guozhu Dong and Jinyan Li:‘Interestingness of Discovered Association Rules in Terms of Neighborhood−Based Unexpectedness ’. Proc. of the Second Pacific−Asia Conference on Knowledge Discovery and Data Mining (PAKDD),1998.
【非特許文献3】
Robert J. Hilderman and Howard J. Hamilton: ‘Knowledge discovery and interestingness measures: a survey’. Department of Computer Science, University of Regina, CS 99−04,1999.
【非特許文献4】
Farhad Hussain, Huan Liu and Hongjun Lu:‘Relative measure for mining interesting rules ’. Proc. of PKDD−2000 Workshop on Knowledge Management Theory and Applications,2000.
【非特許文献5】
Szymon Jaroszewicz and Dan A. Simovici: ‘A General Measure of Rule Interestingness ’. Proc. of the Fifth European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD),2001.
【非特許文献6】
Pang−Ning Tan, Vipin Kumar and Jaideep Srivastava:‘Selecting the Right Interestingness Measure for Association Patterns’. Proc. of the Eighth ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining (KDD),2002.
【0007】
【発明が解決しようとする課題】
しかし, 上記従来技術の,サブパターンと比較する方式では, 冗長なパターン群に高い評価値が与えられる場合があり, パターン発見の効率を下げる要因となる。例えば, 商品A,B,Cが常に併買されている場合, パターン{A,B,C }のみを有用と評価すべきであるが, 従来技術では, パターン{A,B },{A,C },{B,C }の評価値も高くなり, 有用であると評価されてしまうという問題がある。
【0008】
本発明は,上記従来技術の問題点を解決し,要素の組で構成されるパターン群について,互いに相関を持つ要素を全て含み,それらと相関のない要素を含まない,要素間の関係を表わすのに必要十分なパターンのみを選択することが可能なパターンの評価方式を提供することを目的とする。
【0009】
【課題を解決するための手段】
この問題点を解決するために, 本発明では, 評価対象のパターンSの頻度の推定値を, パターンSから一部の要素を取り除いたサブパターンの頻度と, 反対にパターンSに要素を追加したスーパーパターンの頻度から計算し, パターンSの実際の頻度がそれらの推定値よりどれだけ大きいかによってパターンの良さ, つまり有意義度を評価する。
【0010】
評価対象のパターンが互いに相関のないサブパターンの組み合わせである場合には, それらのサブパターンから計算される頻度の推定値と実際の頻度とがほぼ等しくなるので, そのパターンの評価値は小さくなる。逆に, 互いに強い相関を持つ要素の集合の一部だけを取り出したパターンについても, 残りの要素を追加したスーパーパターンから計算される頻度の推定値よりも実際の頻度が小さくなるので, 評価値は小さくなる。その結果, 互いに相関を持つ要素を全て含み, それらと相関のない要素を含まない, 要素間の関係を表わすのに必要十分なパターンのみを選択することが可能となる。
【0011】
すなわち,本発明は,要素の組で構成される複数のパターンについて, パターンから一部の要素を取り除いたサブパターンの頻度と, パターンに要素を追加したスーパーパターンの頻度と, 要素の頻度を用いて, パターンから種々の要素を取り除いて形成されるサブパターン群, およびパターンに種々の要素を追加して形成されるスーパーパターン群についてそれぞれパターンの推定頻度を計算し, 各推定頻度からのパターンの実際の頻度の乖離度を計算し, サブパターン群およびスーパーパターン群における推定頻度からのパターンの実際の頻度の乖離度に関する任意の統計値をパターンの有意義度として, パターンを評価することを特徴とする。
【0012】
また,上記方式において, サブパターンについてのパターンの推定頻度は,サブパターンの頻度と取り除かれた要素の頻度の積を全状態列数で割った値とし, スーパーパターンについてのパターンの推定頻度は,スーパーパターンの頻度と全状態列数の積を追加した要素の頻度で割った値とすることを特徴とする。
【0013】
上記方式において, 各推定頻度からのパターンの実際の頻度の乖離度として, パターンの実際の頻度と推定頻度との比の逆正接を用いることができる。
【0014】
上記方式において, サブパターン群およびスーパーパターン群における推定頻度からのパターンの実際の頻度の乖離度に関する統計値として, サブパターン群における推定頻度からのパターンの実際の頻度の乖離度の最小値と, スーパーパターン群における推定頻度からのパターンの実際の頻度の乖離度の最小値との和を用いることができる。
【0015】
また,上記方式において, スーパーパターンの頻度が所与の閾値よりも低い場合には, そのスーパーパターンについての推定頻度からのパターンの実際の頻度の乖離度は所与の値, あるいは所与の値の関数値とすることができる。
【0016】
また,上記方式において, パターンを構成する要素の並び順も考慮する場合には, 上記方式で計算される推定頻度をパターンの並び順の場合の数で割ったものを推定頻度とすることができる。
【0017】
本発明を用いることにより,要素の組で構成されるパターン群について,互いに相関を持つ要素を全て含み,それらと相関のない要素を含まない,要素間の関係を表わすのに必要十分なパターンのみを選択することが可能となる。
【0018】
以上のサブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターン評価の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。
【0019】
【発明の実施の形態】
以下に,図を用いて,本発明の実施の形態を説明する。図1は本発明のパターン評価装置の構成例を示す図である。図1において,1はCPUおよびメモリ等のコンピュータとパターン評価のためのソフトウェアプログラムとから構成されるパターン評価装置である。11はパターン評価装置1全体を制御する処理制御部,12は状態列データベース内のパターンの頻度を計算するパターン頻度計算部,13はサブパターン群とスーパーパターン群を生成するサブパターン/スーパーパターン生成部,14は評価対象のパターンの推定頻度を計算するパターン推定頻度計算部,15は評価対象のパターンの有意義度を計算するパターン有意義度計算部である。
【0020】
16は各パターンについて計算された有意義度に基づいてパターンを評価するパターン評価部,17はパターンの評価結果を出力する評価結果出力処理部,18は入力装置,19は出力装置,20は分析対象の状態列データが格納された状態列データベース,21は算出された状態列データベース20内のパターンの頻度が格納されるパターン頻度情報データベースである。
【0021】
図2は,本発明のパターン評価処理フローの一例を示す図である。まず,POSデータやWebアクセス・ログ等の分析対象の状態列データが格納された状態列データベース20から状態列データを読み込む(ステップS1)。次に,パターン頻度計算部12によって, 状態列の要素で構成される種々のパターンについて, 状態列データベース20内の頻度を計算する(ステップS2)。その頻度情報をパターン頻度情報データベース21に格納する。
【0022】
次に,サブパターン/スーパーパターン生成部13によって, 評価対象のパターンSから一部の要素を取り除いたサブパターン群と, パターンSに要素を追加したスーパーパターン群を生成する(ステップS3)。パターン推定頻度計算部14によって, 各サブパターン, スーパーパターンの頻度からそれぞれ, パターンSの推定頻度を計算する(ステップS4)。
【0023】
パターン有意義度計算部15によって, 各推定頻度からのパターンSの実際の頻度の乖離度を計算し, サブパターン群およびスーパーパターン群における推定頻度からのパターンSの実際の頻度の乖離度に関する所定の統計値を, パターンSの有意義度として計算する(ステップS5)。
【0024】
そして,各パターンについて計算された有意義度に基づいて, パターン評価部16によって, パターンを評価し(ステップS6), 評価結果出力処理部17によってその結果を出力する(ステップS7)。
【0025】
本発明の実施の形態においては,状態列データベース20内の要素あるいはパターンの頻度は, 状況に応じて適宜定義するものとする。例えば, 状態列データベース20内でその要素あるいはパターンを含む状態列の数として定義したり, 状態列上で要素あるいはパターンが複数回出現しうる場合には, 要素あるいはパターン自体の出現頻度として定義することなどが可能である。
【0026】
評価対象のパターンからサブパターン群やスーパーパターン群を生成する方法は, 状況に応じて適当な方法を適用するものとする。例えば, パターンから要素を1つ取り除いてサブパターンを生成し, パターンに要素を1つ追加してスーパーパターンを生成する方法, あるいは, パターンから要素を最大2つまで取り除いてサブパターンを生成し, パターンに要素を最大2つまで追加してスーパーパターンを生成する方法などが可能である。
【0027】
要素の全種類(要素集合)が{A,B,C,D,E,F }で, 評価対象のパターンが{A,B,C,D }であるとき, 前者の方法では, 生成されるサブパターン群は, {A,B,C,D }から要素A , B , C , D を取り除いた
{B,C,D }, {A,C,D }, {A,B,D }, {A,B,C }
であり, 生成されるスーパーパターン群は, {A,B,C,D }に要素E , F を追加した
{A,B,C,D,E }, {A,B,C,D,F }
である。
【0028】
また,後者の最大2つまで取り除いたり追加したりする方法では, パターン{A,B,C,D }から生成されるサブパターン群は,
{B,C,D }, {A,C,D }, {A,B,D }, {A,B,C }, {C,D }, {B,D }, {B,C }, {A,D }, {A,C }, {A,B }
であり, 生成されるスーパーパターン群は,
{A,B,C,D,E }, {A,B,C,D,F }, {A,B,C,D,E,F }
である。
【0029】
各サブパターン, スーパーパターンの頻度からの評価対象のパターンの推定頻度は, 適当な関数で定義するものとする。例えば, 評価対象のパターンSのサブパターンSに対するパターンSの推定頻度( ^f (S|S) で表わす) を, サブパターンSの頻度f( S) と取り除かれた要素( S\Sで表わす) の頻度f( S\S) と状態列データベース20内の全状態列数Nを用いて,
^f(S|S)=f(S)・f(S\S)/N
で定義し, スーパーパターンSに対するパターンSの推定頻度( ^f (S|S) で表わす) を, スーパーパターンSの頻度f(S)と追加した要素(S\Sで表わす)の頻度f(S\S)と状態列データベース20内の全状態列数Nを用いて,
^f (S|S)=f(S)・N/f(S\S)
で定義するなどの方法が可能である。
【0030】
あるいは, 要素の頻度が所与の閾値( 例えば, 全状態列数の1%)よりも低い場合には, パターンの推定頻度の計算では,その要素の頻度として所与の値(例えば, 全状態列数の0.8%の値)を用いるなどの方法も可能である。
【0031】
各推定頻度からのパターンの実際の頻度の乖離度d(f(S),^f(S|・))は, f(S)の値が^f(S|・)から離れれば離れるほど大きい値を取るような適当な関数で定義するものとする。例えば, パターンの実際の頻度f(S)と推定頻度^f(S|・)との比を取って,
d(f(S),^f(S|・))=f(S)/^f(S|・)
で定義したり, あるいは, 両者の差を取って,
d(f(S),^f(S|・))=(f(S)−^f(S|・))/^f(S|・)
で定義するなどの方法が可能である。
【0032】
パターンSの有意義度も, サブパターン群およびスーパーパターン群における推定頻度からのパターンSの実際の頻度の乖離度に関する適当な統計値で定義するものとする。例えば, サブパターン群およびスーパーパターン群における乖離度d(f(S),^f(S|・))の平均値で定義したり, d(f(S),^f(S|・))の最小値で定義したり, d(f(S),^f(S|・))の最大値で定義したり, サブパターン群におけるd(f(S),^f(S|・))の最小値とスーパーパターン群におけるd(f(S),^f(S|・))の最小値との和で定義するなどの方法が可能である。
【0033】
各パターンについて計算された有意義度に基づいて, パターンを評価し, 評価結果を出力する方法は, 状況に応じて適当な方法を適用するものとする。例えば, パターンを有意義度の高い順にソートし, 上位100パターンを出力したり, 上位1%のパターンを出力したり, 有意義度の所定の閾値を上回ったパターンを出力するなどの方法が可能である。
【0034】
【実施例】
〔第1の実施例〕
以下に,本発明の第1の実施例に係るパターン評価装置の動作を,状態列データベース20として図3に示す商品購買履歴データベースを例にとって説明する。
【0035】
図3に示す商品購買履歴データベースには, 顧客6人分の商品購買履歴が含まれている。 A , ..., E は商品名であり, 各顧客T, ..., Tが購入した商品の組を商品名の集合で表わす。例えば, 顧客Tは商品A , B , C , D , E を購入し, 顧客Tは商品D , E を購入している。
【0036】
この商品購買履歴データベースに基づいて, 商品A を購入した顧客は3人, 商品A とB を購入した顧客は3人, 商品A とB とC を購入した顧客は3人,商品A とB とC とD を購入した顧客は2人,... のように各商品の組み合わせを購入した顧客数を数え上げることにより, 購入された商品の組の部分集合である商品購買パターンについて, 図4に示すパターン頻度情報データベース21が生成される。
【0037】
次に, パターン{A,B,C }を例にして, パターンの有意義度の計算手順を説明する。
【0038】
(1)サブパターンの生成
評価対象のパターンから要素を1つ取り除いてサブパターン群を生成する。例えば, パターン{A,B,C }から要素A , B , C をそれぞれ取り除き, サブパターン{B,C }, {A,C }, {A,B }を生成する。なお, 第1の実施例では, パターンから要素を1つ取り除いてサブパターンを生成するが, 要素を2つ以上取り除いて, サブパターンを生成してもよい。
【0039】
(2)スーパーパターンの生成
評価対象のパターンに要素を1つ追加してスーパーパターン群を生成する。例えば, パターン{A,B,C }に要素D , E をそれぞれ追加し, スーパーパターン{A,B,C,D }, {A,B,C,E }を生成する。なお, 第1の実施例では, パターンに要素を1つ追加してスーパーパターンを生成するが, 要素を2つ以上追加して, スーパーパターンを生成してもよい。
【0040】
(3)各サブパターンに対するパターンの推定頻度の計算
第1の実施例では, サブパターンSに対するパターンSの推定頻度^f(S|S)を, サブパターンSの頻度f(S)と取り除かれた要素S\Sの頻度f(S\S)と商品購買履歴データベース内の全状態列数Nを用いて,
^f(S|S)=f(S)・f(S\S)/N
で定義するものとする。
【0041】
したがって, サブパターン{B,C }, {A,C }, {A,B }に対するパターン{A,B,C }の推定頻度はそれぞれ,

Figure 2005004393
となる。
【0042】
(4)各スーパーパターンに対するパターンの推定頻度の計算
第1の実施例では, スーパーパターンSに対するパターンSの推定頻度^f(S|S)を, スーパーパターンSの頻度f(S)と追加した要素(S\S)の頻度f(S\S)と商品購買履歴データベース内の全状態列数Nを用いて,
^f(S|S)=f(S)・N/f(S\S)
で定義するものとする。
【0043】
したがって, スーパーパターン{A,B,C,D }, {A,B,C,E }に対するパターン{A,B,C }の推定頻度はそれぞれ,
Figure 2005004393
となる。
【0044】
(5)各推定頻度からのパターンの実際の頻度の乖離度の計算
第1の実施例では, 各推定頻度^f(S|・)からのパターンの実際の頻度f(S)の乖離度d(f(S),^f(S|・))を,
d(f(S),^f(S|・))= arctan (f(S)/^f(S|・))
で定義するものとする。
【0045】
ここでarctan(r)は, 実数rの逆正接(アークタンジェント)を表わす。arctan(r)は,rの単調増加関数であり, r≧0のとき,0≦arctan(r)≦π/2である。
【0046】
arctan(f(S)/^f(S|・))は, 図5に示すように,底辺が^f(S|・),高さがf(S)の直角三角形の傾斜角度に相当する。パターンの推定頻度^f(S|・)に比べて実際の頻度f(S)が大きいほど, 傾斜角度arctan(f(S)/^f(S|・))が大きくなる。
【0047】
サブパターン{B,C }, {A,C }, {A,B }, およびスーパーパターン{A,B,C,D }, {A,B,C,E }に対するパターン{A,B,C }の推定頻度からの実際の頻度f({A,B,C }) の乖離度はそれぞれ,
Figure 2005004393
となる。
【0048】
(6)パターンの有意義度の計算
第1の実施例では, パターンSの有意義度I(S)を,サブパターン群における乖離度の最小値とスーパーパターン群における乖離度の最小値との和,つまり,
I(S)=min{d(f(S),^f(S|S));SはSの所与のサブパターン}+min{d(f(S),^f(S|S));SはSの所与のスーパーパターン}
で定義するものとする。
【0049】
このとき, パターン{A,B,C }の有意義度は,
I({A,B,C })=1.107 +0.785 =1.892
となる。
【0050】
なお, パターン頻度情報データベース21内にスーパーパターンが存在しないパターンSについては, 例えば, ^f(S|S)≡0,およびarctan(x/0)=π/2(=1.570 ),x>0を仮定して,
I(S)=min{d(f(S),^f(S|S));SはSの所与のサブパターン}+π/2
と定義するものとする。
【0051】
(7)パターンの評価
第1の実施例では, パターン頻度情報データベース21における, 所定の範囲の要素数で構成されたパターンについて有意義度を計算し, パターン群を有意義度が高い順にソートして, 有意義度の上位から所定の数(あるいは, 所定の割合)のパターンを出力するものとする。
【0052】
図4におけるパターン頻度情報データベース21の中で, 要素数2から4までのパターン群について有意義度を計算し, 有意義度の高い順にパターン群をソートした上位6パターンを図6に示す。
【0053】
従来方式のように, サブパターンだけで比較する場合,つまり,min{d(f(S),^f(S|S))}の値でパターンを評価する場合,{B,C }, {A,C }, {A,B }には, {A,B,C }と等しい評価値が与えられる。これは, {D,E }や{A,B,C,D }よりも評価値が高い。
【0054】
しかし, 図3に示すもとの商品購買履歴データベースを見れば分かるように, 商品A , B , C はつねに併買されているので, 本来, パターン{A,B,C }を{B,C }, {A,C }, {A,B }よりも高く評価すべきであって, この従来方式のように, {A,B,C }, {B,C }, {A,C }, {A,B }に等しい評価値を与えるのは適切ではない。しかも, 従来方式では, 別種のパターン{D,E }, {A,B,C,D }の評価が相対的に低くなっていて, 比較的少ないパターンでデータベースの多様な特徴を表現することにも適していない。
【0055】
それに対して, 第1の実施例に係るパターン評価方式は, サブパターンとの比較とスーパーパターンとの比較を組み合わせた有意義度I(S),
I(S)=min{d(f(S),^f(S|S))}+min{d(f(S),^f(S|S))}
によって, 冗長なパターン{B,C }, {A,C }, {A,B }の評価値を低く抑えることができる。
【0056】
〔第2の実施例〕
次に,本発明の第2の実施例について説明する。一般に, 状態列データベース20内のパターンは膨大な数になるので, すべてのパターンの頻度を数え上げて, パターン頻度情報データベース21に登録することは現実的ではない。そのため通常は,Apriori 法などのように, 頻度が所定の最小サポート値以上のパターンのみを数え上げてパターン頻度情報データベース21に登録する。
【0057】
状態列データベース20として図3に示す商品購買履歴データベースを例にとり,この商品購買履歴データベースについて最小サポート値「2」で商品購買パターンを数え上げた場合のパターン頻度情報データベース21を,図7に示す。図7において,中線が引かれたパターンは,頻度が最小サポート値未満の,パターン頻度情報データベース21に登録されないパターンを表わす。
【0058】
この場合, 要素数2から4のパターン群を有意義度の評価対象とすると, 頻度が最小サポート値以上の(中線の引かれていない)12パターンが評価対象となる。このとき, {A,B,C,D }のように, 状態列データベース(商品購買履歴データベース)20には最小サポート値未満でスーパーパターンが存在するにもかかわらず, パターン頻度情報データベース21ではスーパーパターンがいっさい存在しないというパターンが生じることがある。
【0059】
上述した第1の実施例では, そのようなパターンSに対して一律に^f(S|S)≡0を仮定し,
min{d(f(S),^f(S|S));SはSの所与のスーパーパターン}=arctan(x/0)=π/2
と定義していた。
【0060】
第2の実施例では, パターン頻度情報データベース21内にスーパーパターンが存在しない場合でも, 状態列データベース(商品購買履歴データベース)20内に最小サポート値未満でスーパーパターンが存在する可能性を考慮して, 下記のように, スーパーパターンについての推定頻度からのパターンの実際の頻度の乖離度を計算する方法を導入する。
・Nを状態列データベース(商品購買履歴データベース)20内の全状態列数とする。
・Mを要素の全種類( 要素集合) とする。例えば, M={A,B,C,D,E }。
・fをパターン頻度情報データベース21内にスーパーパターンが存在しない場合の所与の仮想的なスーパーパターンの頻度とする。例えば, 最小サポート値が2のとき,f=(最小サポート値)/2=1。
【0061】
パターン頻度情報データベース21内にスーパーパターンが存在しない場合のスーパーパターンについてのパターンSの推定頻度を, 仮想的なスーパーパターンの頻度fと, パターン頻度情報データベース21内で最大頻度の要素の頻度を用いて下記のように定義する。
【0062】
【数1】
Figure 2005004393
【0063】
このとき, パターンSの実際の頻度との乖離度は,
【0064】
【数2】
Figure 2005004393
【0065】
パターン頻度情報データベース21内にスーパーパターンが存在しない場合の, パターンの有意義度を下記のように定義する。
【0066】
I(S)=min{d(f(S),^f(S|S))}+d(f(S),^f(S|
ここで, 最小サポート値「2」の場合の図7に示すパターン頻度情報データベース21における評価対象の12パターンの中でスーパーパターンの存在しない{D,E }と{A,B,C,D }について, ^f(S|)およびI(S)の計算例を示す。全状態列数はN=6,要素集合はM={A,B,C,D,E }である。また, 仮想的なスーパーパターンの頻度をf=(最小サポート値)/2=1とする。
(1)パターン{D,E }:
【0067】
【数3】
Figure 2005004393
【0068】
第1の実施例より,
min{d(f({D,E }),^f({D,E }|{D,E }))}=0.844
ゆえに,I({D,E })=0.844 +0.982 =1.826
(2)パターン{A,B,C,D }:
【0069】
【数4】
Figure 2005004393
【0070】
第1の実施例より,
min{d(f({A,B,C,D }),^f({A,B,C,D }|{A,B,C,D }))}=0.785
ゆえに, I({A,B,C,D })=0.785 +0.927 =1.712
図7における評価対象の12パターンについて, 第2の実施例の方法に従って有意義度を計算し, 有意義度の高い順にパターン群をソートした上位6パターンを図8に示す。
【0071】
図8中のmin{d(f(S),^f(S|S))}欄は, スーパーパターン群におけるパターンの推定頻度からの実際の乖離度の最小値を第1の実施例の方法に従って計算した値(つまり, スーパーパターンが存在しないパターンについてはπ/2=1.570 )を, d(f(S),^f(S|))欄は第2の実施例の方法に従って計算した値を表わす。
【0072】
また, I(S)欄は有意義度を仮想的なスーパーパターンの頻度を利用しない第1の実施例の方法に従って計算した値を, I(S)欄は仮想的なスーパーパターンの頻度を利用する第2の実施例の方法に従って計算した値を表わす。
【0073】
(S)=min{d(f(S),^f(S|S))}+min{d(f(S),^f(S|S))}
(S)=min{d(f(S),^f(S|S))}+d(f(S),^f(S|))
パターン頻度情報データベース21内にスーパーパターンが存在しないことを重要視したい場合には, 第1の実施例の方法に基づく有意義度I(S)が適している。逆に, スーパーパターンが存在しないことを特に重要視する必要がない場合には, 第2の実施例の方法に基づく有意義度I(S)が適している。
【0074】
〔第3の実施例〕
次に,本発明の第3の実施例について説明する。上記第1の実施例,第2の実施例では, 評価対象のパターンは状態列を構成する要素の組(例えば, 購入した商品の組み合わせ, アクセスしたことのあるWebのURLの組み合わせなど)であるが, 状態列上の要素の並び順(例えば, 商品の購入順序,URLのアクセス順序など)のパターンを評価したい場合がある。
【0075】
そこで, 第3の実施例として, 状態列上の要素の並び順を考慮したパターンの有意義度の計算方法を示す。図9は, ユーザT,T,...,T10によるWebのURLのアクセス順序を表わす状態列データベース20の例である。1つのURLは英数3文字で表記されている。例えば, ユーザTは, XMK, XQK, XQK, XQK, XMK, ...の順にURLにアクセスしている。
【0076】
第3の実施例では, 1つの状態列上で要素を跳び跳びにつなげてパターンを生成する。ただし, パターンの最大長はL,パターンは,図10に示すように,1つの状態列上の長さW(ウインドウ・サイズ) の部分列に含まれるように生成することとする。
【0077】
このようにして生成されるパターンを含む, 状態列データベース20内での状態列の数をパターンの頻度とする。なお,図10では,最大パターン長=5,ウインドウ・サイズ=12の場合のパターンの生成例を示している。
【0078】
図9に示す状態列データベース20について, 最大パターン長=5,ウインドウ・サイズ=25で生成されるパターン頻度情報データベース21を,図11に示す。
【0079】
パターンの並び順を考慮した場合のパターンの推定頻度f(S|・)を, 上記第1の実施例または第2の実施例で示した方式において要素の組にのみ注目して計算される推定頻度^f(S|・)から, パターンの並び順の場合の数で割って, 下記のように定義するものとする。
【0080】
f(S|S)=(n(S)!・n(S\S)!/n(S)!)・^f(S|S
f(S|S)=(n(S)!/n(S)!・n(S\S)!)・^f(S|S
ここで, n(S)はパターンSの要素数を表わす。
【0081】
特に, サブパターンを生成する際にパターンから取り除く要素数が1で, スーパーパターンを生成する際にパターンに追加する要素数が1の場合には,
n(S)!・n(S\S)!/n(S)!=(n(S)−1)!/n(S)!=1/n(S)
n(S)!/n(S)!・n(S\S)!=n(S)!/n(S)!=n(S
となるので, パターンの並び順を考慮した場合のパターンの推定頻度は次式で表わされることになる。
【0082】
f(S|S)=(1/n(S))・^f(S|S
f(S|S)=n(S)・^f(S|S
例えば, 長さ3のパターンS={YEK,XNK,X3K }について, サブパターンS={YEK,XNK }からもとのパターンSを作るために追加すべき要素X3K は, サブパターンSに対して,
・YEK の前に追加される,
・YEK とXNK の間に追加される,
・XNK の後ろに追加される,
という3通りの場合が考えられる。
【0083】
その中でパターンSに等しくなるのは最後の1つである。したがって, 要素の並び順を考慮する場合の推定頻度は, 要素の組み合わせだけを考慮する場合の推定頻度^f(S|S)から, 要素が追加される場合の数(つまりパターンSの長さn(S))だけ割った値とすることが妥当である。
【0084】
同様に, パターンSからスーパーパターンS={YnK,YEK,XNK,X3K }を作るために追加すべき要素YnK は, パターンSに対して,
・YEK の前に追加される,
・YEK とXNK の間に追加される,
・XNK とX3K の間に追加される,
・X3K の後ろに追加される,
という4通りの場合が考えられる。
【0085】
その中でスーパーパターンSに等しくなるのは最初の1つである。したがって, 要素の並び順を考慮する場合の推定頻度は, 要素の組み合わせだけを考慮する場合の推定頻度^f(S|S)に,パターンSに要素が追加される場合の数(つまりスーパーパターンSの長さn(S))を掛けた値とすることが妥当である。
【0086】
以上から把握できるように,本発明の実施形態の特徴を述べると,以下のようである。
【0087】
(付記1) サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価装置であって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算手段と,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成手段と,
前記パターン頻度計算手段により算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算手段により算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算手段と,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算手段と,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価手段とを備える
ことを特徴とするパターン評価装置。
【0088】
(付記2) 付記1記載のパターン評価装置において,
前記パターン推定頻度計算手段は,
前記サブパターンの頻度と前記評価対象のパターンから取り除かれた要素の頻度の積を全状態列数で割った値を前記サブパターンについての前記評価対象のパターンの推定頻度として算出し,
前記スーパーパターンの頻度と全状態列数の積を前記評価対象のパターンに追加した要素の頻度で割った値を前記スーパーパターンについての前記評価対象のパターンの推定頻度として算出する
ことを特徴とするパターン評価装置。
【0089】
(付記3) 付記1または付記2に記載のパターン評価装置において,
前記サブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度は,前記評価対象のパターンの実際の頻度と前記サブパターンについての前記評価対象のパターンの推定頻度との比の逆正接であり,
前記スーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度は,前記評価対象のパターンの実際の頻度と前記スーパーパターンについての前記評価対象のパターンの推定頻度との比の逆正接である
ことを特徴とするパターン評価装置。
【0090】
(付記4) 付記1から付記3までのいずれかに記載のパターン評価装置において,
前記サブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記スーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する統計値は,前記サブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度の最小値と, 前記スーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度の最小値との和である
ことを特徴とするパターン評価装置。
【0091】
(付記5) 付記1から付記4までのいずれかに記載のパターン評価装置において,
前記パターン頻度計算手段により算出されたスーパーパターンの頻度が所与の閾値よりも低い場合には, そのスーパーパターンについての推定頻度からの前記評価対象のパターンの実際の頻度の乖離度は,所与の値または所与の値の関数値とする
ことを特徴とするパターン評価装置。
【0092】
(付記6) 付記1から付記5までのいずれかに記載のパターン評価装置において,
前記パターン推定頻度計算手段は,パターンを構成する要素の並び順を考慮する場合には,前記算出したサブパターンについての前記評価対象のパターンの推定頻度または前記算出したスーパーパターンについての前記評価対象のパターンの推定頻度をそれぞれパターンの並び順の場合の数で割った値をサブパターンについての前記評価対象のパターンの推定頻度またはスーパーパターンについての前記評価対象のパターンの推定頻度として算出する
ことを特徴とするパターン評価装置。
【0093】
(付記7) サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価をコンピュータによって行うパターン評価処理方法であって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算ステップと,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成ステップと,
前記パターン頻度計算ステップにより算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算ステップにより算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算ステップと,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算ステップと,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価ステップとを有する
ことを特徴とするパターン評価処理方法。
【0094】
(付記8) サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価処理を,コンピュータに実行させるためのパターン評価処理プログラムであって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算処理と,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成処理と,
前記パターン頻度計算処理により算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算処理により算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算処理と,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算処理と,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価処理とを,
コンピュータに実行させるためのパターン評価処理プログラム。
【0095】
(付記9) サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価処理を,コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算処理と,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成処理と,
前記パターン頻度計算処理により算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算処理により算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算処理と,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算処理と,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価処理とを,
コンピュータに実行させるためのプログラムを記録したことを特徴とするパターン評価処理プログラム記録媒体。
【0096】
【発明の効果】
本発明のパターン評価装置によって, 要素の組で構成されるパターン群について, データベース内の頻度に関して相関の低いパターン, および互いに強い相関を持つ要素の集合の一部だけを取り出した冗長なパターンを除去することができる。したがって,本発明によれば,要素の組で構成されるパターン群について,互いに相関を持つ要素を全て含み,それらと相関のない要素を含まない,要素間の関係を表わすのに必要十分なパターンのみを選択することが可能となる。
【図面の簡単な説明】
【図1】本発明のパターン評価装置の構成例を示す図である。
【図2】本発明のパターン評価処理フローの一例を示す図である。
【図3】商品購買履歴データベースを示す図である。
【図4】パターン頻度情報データベースを示す図である。
【図5】各推定頻度からのパターンの実際の頻度の乖離度の計算を示す図である。
【図6】有意義度上位のパターン群を示す図である。
【図7】パターン頻度情報データベースを示す図である。
【図8】最小サポート値が2の場合の有意義度上位のパターン群を示す図である。
【図9】要素の並び順を考慮した状態列データベースの一例を示す図である。
【図10】状態列上で要素を跳び跳びにつなげて生成されるパターンの一例を示す図である。
【図11】要素の並び順を考慮したパターン頻度情報データベースを示す図である。
【符号の説明】
1 パターン評価装置
11 処理制御部
12 パターン頻度計算部
13 サブパターン/スーパーパターン生成部
14 パターン推定頻度計算部
15 パターン有意義度計算部
16 パターン評価部
17 評価結果出力処理部
18 入力装置
19 出力装置
20 状態列データベース
21 パターン頻度情報データベース[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a pattern evaluation apparatus, a pattern evaluation processing method, a pattern evaluation processing program, and a program recording medium for evaluating a plurality of patterns composed of a set of elements. It relates to methods related to the analysis of status column data such as logs, stock prices and time series data of temperature.
[0002]
[Prior art]
Finding a set of elements that appear in a lot of data from POS data and Web access logs, that is, patterns, is an important issue in many fields such as database marketing and customer information management (CRM). In order to solve this, a method such as Priori has been proposed (see, for example, Non-Patent Document 1).
[0003]
However, with these methods, a very large number of patterns are discovered, and it is extremely difficult to select patterns with high utility value from them. Therefore, it is possible to evaluate the goodness of the found patterns, remove statistically meaningless patterns and redundant patterns based on them, and select a relatively small number of patterns representing various features in the database. Necessary.
[0004]
Patterns that appear much more frequently than estimated from the frequency of the individual elements that make up the pattern (for example, the purchase frequency of individual products) in the database are based on the point of view that they are particularly valuable. Conventionally, a method for evaluating the usefulness of a pattern by comparing the estimated frequency from the sub-pattern that is a part and the actual frequency of the pattern has been used (for example, Non-Patent Documents 2, 3, 4, 5, 6). reference).
[0005]
Also, for example, in a related patent application (Application No .: Japanese Patent Application No. 2002-347241, “Evaluation device for state sequence pattern based on unexpectedness”), a pattern is assumed by using the frequency of partial patterns for a pattern to be analyzed. The frequency is calculated, and the usefulness of the pattern is defined by a function of the assumed frequency and the actual frequency in the database.
[0006]
[Non-Patent Document 1]
Rakesh Agrawal and Ramakrishnan Srikant: 'Fast algorithms for mining association rules'. In Proceedings of the International Conference on Very Large Data Bases, pp. 487-499, 1994.
[Non-Patent Document 2]
Guozhu Dong and Jinyan Li: 'Interesting of Discovered Association Rules in Terms of Neighborhood-Based Unexpectedness'. Proc. of the Second Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 1998.
[Non-Patent Document 3]
Robert J. et al. Hilderman and Howard J. et al. Hamilton: 'Knowledge discovery and interestingness measures: a survey'. Department of Computer Science, University of Regina, CS 99-04, 1999.
[Non-Patent Document 4]
Farhad Hussain, Huan Liu and Hongjun Lu: 'Relativistic measure for mining interesting rules'. Proc. of PKDD-2000 Workshop on Knowledge Management Theory and Applications, 2000.
[Non-Patent Document 5]
Szymon Jaroszewicz and Dan A.M. Simonici: 'A General Measurement of Rule Interferenceness'. Proc. of the Fifth European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), 2001.
[Non-Patent Document 6]
Pang-Ning Tan, Vipin Kumar and Jaideep Srivastava: 'Selecting the Right Interstitial for Measurement Patterns'. Proc. of the Eight ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining (KDD), 2002.
[0007]
[Problems to be solved by the invention]
However, the above-mentioned conventional method of comparing with sub-patterns may give a high evaluation value to redundant pattern groups, which is a factor in reducing the efficiency of pattern discovery. For example, when products A, B, and C are always bought together, only the pattern {A, B, C} should be evaluated as useful, but in the prior art, the patterns {A, B}, {A, C }, {B, C} also have high evaluation values, and there is a problem that they are evaluated as useful.
[0008]
The present invention solves the above-mentioned problems of the prior art and expresses a relationship between elements that includes all elements that are correlated with each other and does not include elements that are not correlated with each other in the pattern group composed of element sets. It is an object of the present invention to provide a pattern evaluation method capable of selecting only necessary and sufficient patterns.
[0009]
[Means for Solving the Problems]
In order to solve this problem, in the present invention, the estimated frequency of the pattern S to be evaluated is added to the frequency of the sub-pattern obtained by removing some elements from the pattern S, and the elements are added to the pattern S. It is calculated from the frequency of the super pattern, and the goodness of the pattern, that is, the significance level, is evaluated according to how much the actual frequency of the pattern S is larger than the estimated value.
[0010]
If the pattern to be evaluated is a combination of sub-patterns that are not correlated with each other, the estimated frequency calculated from those sub-patterns is almost equal to the actual frequency, so the evaluation value for that pattern is small . On the other hand, the actual frequency is smaller than the estimated frequency calculated from the super pattern with the remaining elements added to the pattern that extracts only a part of the set of elements that are strongly correlated with each other. Becomes smaller. As a result, it is possible to select only the patterns that are necessary and sufficient to represent the relationship between elements, including all elements that are correlated with each other and not including elements that are not correlated with them.
[0011]
That is, the present invention uses a sub-pattern frequency obtained by removing some elements from a pattern, a super-pattern frequency obtained by adding elements to the pattern, and an element frequency for a plurality of patterns composed of element sets. The pattern estimation frequency is calculated for each sub-pattern group formed by removing various elements from the pattern, and for the super-pattern group formed by adding various elements to the pattern. The actual frequency divergence is calculated, and the pattern is evaluated using any statistical value related to the actual frequency divergence from the estimated frequency in the sub-pattern group and super-pattern group as the significance of the pattern. To do.
[0012]
In the above method, the pattern estimation frequency for the sub-pattern is the product of the frequency of the sub-pattern and the frequency of the removed element divided by the total number of state columns, and the pattern estimation frequency for the super-pattern is The product is a value obtained by dividing the product of the super pattern frequency and the total number of state columns by the frequency of the added element.
[0013]
In the above method, the arc tangent of the ratio between the actual frequency of the pattern and the estimated frequency can be used as the degree of deviation of the actual frequency of the pattern from each estimated frequency.
[0014]
In the above method, as a statistical value regarding the deviation of the actual frequency of the pattern from the estimated frequency in the sub-pattern group and the super-pattern group, the minimum value of the deviation of the actual frequency of the pattern from the estimated frequency in the sub-pattern group, The sum of the deviation of the actual frequency of the pattern from the estimated frequency in the super pattern group can be used.
[0015]
In the above method, when the frequency of the super pattern is lower than a given threshold, the deviation of the actual frequency of the pattern from the estimated frequency for the super pattern is the given value, or the given value. Function value.
[0016]
In addition, in the above method, when the arrangement order of the elements constituting the pattern is also taken into consideration, the estimated frequency calculated by dividing the estimated frequency calculated by the above method by the number of pattern arrangement orders can be used as the estimated frequency. .
[0017]
By using the present invention, a pattern group composed of a set of elements includes all the elements that are correlated with each other, and does not include elements that are not correlated with them. Can be selected.
[0018]
Pattern evaluation processing based on significance using the sub-pattern and super-pattern frequencies can be realized by a computer and a software program, and the program is recorded on a computer-readable recording medium and provided. Can also be provided through a network.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration example of a pattern evaluation apparatus according to the present invention. In FIG. 1, reference numeral 1 denotes a pattern evaluation apparatus including a computer such as a CPU and a memory, and a software program for pattern evaluation. 11 is a processing control unit that controls the entire pattern evaluation apparatus 1, 12 is a pattern frequency calculation unit that calculates the frequency of patterns in the state sequence database, and 13 is a sub-pattern / super-pattern generation that generates a sub-pattern group and a super-pattern group. And 14 are a pattern estimation frequency calculation unit that calculates the estimation frequency of the pattern to be evaluated, and 15 is a pattern significance calculation unit that calculates the significance of the pattern to be evaluated.
[0020]
16 is a pattern evaluation unit that evaluates a pattern based on significance calculated for each pattern, 17 is an evaluation result output processing unit that outputs a pattern evaluation result, 18 is an input device, 19 is an output device, and 20 is an analysis target. The state column database 21 stores the state column data, and 21 is a pattern frequency information database in which the calculated frequency of the pattern in the state column database 20 is stored.
[0021]
FIG. 2 is a diagram showing an example of the pattern evaluation processing flow of the present invention. First, state column data is read from the state column database 20 in which state column data to be analyzed such as POS data and Web access logs is stored (step S1). Next, the frequency in the state string database 20 is calculated by the pattern frequency calculation unit 12 for various patterns composed of elements of the state string (step S2). The frequency information is stored in the pattern frequency information database 21.
[0022]
Next, the sub pattern / super pattern generation unit 13 generates a sub pattern group obtained by removing some elements from the pattern S to be evaluated, and a super pattern group in which elements are added to the pattern S (step S3). The pattern estimation frequency calculation unit 14 calculates the estimation frequency of the pattern S from the frequency of each sub-pattern and super pattern (step S4).
[0023]
The pattern significance level calculation unit 15 calculates the divergence degree of the actual frequency of the pattern S from each estimated frequency, and determines a predetermined divergence degree of the actual frequency of the pattern S from the estimated frequency in the sub-pattern group and the super pattern group. The statistical value is calculated as the significance level of the pattern S (step S5).
[0024]
Based on the significance calculated for each pattern, the pattern evaluation unit 16 evaluates the pattern (step S6), and the evaluation result output processing unit 17 outputs the result (step S7).
[0025]
In the embodiment of the present invention, the frequency of elements or patterns in the state string database 20 is appropriately defined according to the situation. For example, it is defined as the number of state strings including the element or pattern in the state string database 20, or when the element or pattern can appear multiple times on the state string, it is defined as the appearance frequency of the element or pattern itself. It is possible.
[0026]
Appropriate methods shall be applied to generate sub-patterns and super-patterns from the pattern to be evaluated, depending on the situation. For example, you can create a sub-pattern by removing one element from the pattern, and generate a super pattern by adding one element to the pattern, or create a sub-pattern by removing up to two elements from the pattern, A method of generating a super pattern by adding up to two elements to a pattern is possible.
[0027]
When all types of elements (element set) are {A, B, C, D, E, F} and the pattern to be evaluated is {A, B, C, D}, the former method generates Sub-pattern group is obtained by removing elements A, B, C, D from {A, B, C, D}
{B, C, D}, {A, C, D}, {A, B, D}, {A, B, C}
The generated super pattern group is obtained by adding elements E and F to {A, B, C, D}.
{A, B, C, D, E}, {A, B, C, D, F}
It is.
[0028]
In the latter method of removing or adding up to two, the sub-pattern group generated from the pattern {A, B, C, D} is
{B, C, D}, {A, C, D}, {A, B, D}, {A, B, C}, {C, D}, {B, D}, {B, C}, {A, D}, {A, C}, {A, B}
And the generated super pattern group is
{A, B, C, D, E}, {A, B, C, D, F}, {A, B, C, D, E, F}
It is.
[0029]
The estimated frequency of the pattern to be evaluated from the frequency of each sub-pattern and super-pattern shall be defined by an appropriate function. For example, the sub-pattern S of the pattern S to be evaluated Frequency of pattern S (^ f (S | S ) Represents the sub-pattern S Frequency f (S ) And removed elements (S \ S Frequency f (S \ S) ) And the total number of state columns N in the state column database 20,
^ F (S | S ) = F (S ) ・ F (S \ S ) / N
Super pattern S + Frequency of pattern S (^ f (S | S + ) Represents the super pattern S + Frequency f (S + ) And added elements (S + Frequency f (S + \ S) and the total number N of state columns in the state column database 20,
^ F (S | S + ) = F (S + ) ・ N / f (S + \ S)
It is possible to define in
[0030]
Alternatively, if the frequency of an element is lower than a given threshold (eg, 1% of the total number of state columns), the calculation of the estimated frequency of the pattern will give the given element frequency (eg, all states) A method using a value of 0.8% of the number of columns) is also possible.
[0031]
The actual frequency divergence d (f (S), ^ f (S | •)) from each estimated frequency increases as the value of f (S) increases from ^ f (S | •). It shall be defined by an appropriate function that takes a value. For example, taking the ratio of the actual frequency f (S) of the pattern to the estimated frequency ^ f (S |
d (f (S), ^ f (S |.)) = f (S) / ^ f (S |.)
Or define the difference between the two,
d (f (S), ^ f (S |.)) = (f (S)-^ f (S |.)) / ^ f (S |.)
It is possible to define in
[0032]
The significance level of the pattern S is also defined by an appropriate statistical value regarding the degree of deviation of the actual frequency of the pattern S from the estimated frequency in the sub pattern group and the super pattern group. For example, it is defined by the average value of the divergence degree d (f (S), ^ f (S |)) in the sub pattern group and the super pattern group, or d (f (S), ^ f (S |))) Defined by the minimum value of d, defined by the maximum value of d (f (S), ^ f (S |)), or d (f (S), ^ f (S | And the sum of the minimum value of d and the minimum value of d (f (S), ^ f (S |.)) In the super pattern group.
[0033]
Based on the significance calculated for each pattern, the method for evaluating the pattern and outputting the evaluation result shall apply the appropriate method according to the situation. For example, it is possible to sort patterns in descending order of significance and output the top 100 patterns, output the top 1% pattern, or output patterns that exceed a predetermined threshold of significance. .
[0034]
【Example】
[First embodiment]
Hereinafter, the operation of the pattern evaluation apparatus according to the first embodiment of the present invention will be described by taking the commodity purchase history database shown in FIG.
[0035]
The product purchase history database shown in FIG. 3 includes product purchase histories for six customers. A,. . . , E are product names and each customer T 1 ,. . . , T 6 Represents a set of products purchased by a set of product names. For example, customer T 1 Purchases goods A, B, C, D, E and customer T 2 Has purchased goods D and E.
[0036]
Based on this product purchase history database, three customers have purchased product A, three customers have purchased products A and B, three customers have purchased products A, B and C, and products A and B and Two customers have purchased C and D. . . Thus, by counting the number of customers who have purchased each combination of products, the pattern frequency information database 21 shown in FIG. 4 is generated for the product purchase pattern that is a subset of the set of purchased products.
[0037]
Next, the pattern significance level calculation procedure will be described using the pattern {A, B, C} as an example.
[0038]
(1) Sub-pattern generation
A sub-pattern group is generated by removing one element from the pattern to be evaluated. For example, the elements A 1, B 2, and C are removed from the pattern {A, B, C}, respectively, and sub-patterns {B, C}, {A, C}, {A, B} are generated. In the first embodiment, a sub-pattern is generated by removing one element from a pattern, but a sub-pattern may be generated by removing two or more elements.
[0039]
(2) Super pattern generation
A super pattern group is generated by adding one element to the pattern to be evaluated. For example, elements D 1 and E are respectively added to the pattern {A, B, C}, and super patterns {A, B, C, D}, {A, B, C, E} are generated. In the first embodiment, a super pattern is generated by adding one element to a pattern, but a super pattern may be generated by adding two or more elements.
[0040]
(3) Calculation of pattern estimation frequency for each sub-pattern
In the first embodiment, the sub-pattern S The estimated frequency ^ f (S | S ), Sub-pattern S Frequency f (S ) And removed element S \ S Frequency f (S \ S ) And the total number of state columns N in the product purchase history database,
^ F (S | S ) = F (S ) ・ F (S \ S ) / N
It shall be defined in
[0041]
Therefore, the estimated frequencies of the patterns {A, B, C} for the sub-patterns {B, C}, {A, C}, {A, B} are
Figure 2005004393
It becomes.
[0042]
(4) Calculation of pattern estimation frequency for each super pattern
In the first embodiment, the super pattern S + The estimated frequency ^ f (S | S + ), Super Pattern S + Frequency f (S + ) And added elements (S + \ S) frequency f (S + \ S) and the total number of state columns N in the product purchase history database,
^ F (S | S + ) = F (S + ) ・ N / f (S + \ S)
It shall be defined in
[0043]
Therefore, the estimated frequencies of the patterns {A, B, C} with respect to the super patterns {A, B, C, D}, {A, B, C, E} are respectively
Figure 2005004393
It becomes.
[0044]
(5) Calculation of the deviation of the actual frequency of the pattern from each estimated frequency
In the first embodiment, the deviation d (f (S), ^ f (S |)) of the actual frequency f (S) of the pattern from each estimated frequency ^ f (S |
d (f (S), ^ f (S |.)) = arctan (f (S) / ^ f (S |.))
It shall be defined in
[0045]
Here, arctan (r) represents the arc tangent of the real number r. arctan (r) is a monotonically increasing function of r, and when r ≧ 0, 0 ≦ arctan (r) ≦ π / 2.
[0046]
arctan (f (S) / ^ f (S |.)) corresponds to the inclination angle of a right triangle whose base is ^ f (S |.) and height is f (S), as shown in FIG. . The inclination angle arctan (f (S) / ^ f (S |.)) Becomes larger as the actual frequency f (S) is larger than the estimated frequency ^ f (S |.) Of the pattern.
[0047]
Patterns {A, B, C for subpatterns {B, C}, {A, C}, {A, B}, and super patterns {A, B, C, D}, {A, B, C, E} } Of the actual frequency f ({A, B, C}) from the estimated frequency of
Figure 2005004393
It becomes.
[0048]
(6) Calculation of pattern significance
In the first embodiment, the significance level I (S) of the pattern S is the sum of the minimum value of the divergence degree in the sub-pattern group and the minimum value of the divergence degree in the super pattern group, that is,
I (S) = min {d (f (S), ^ f (S | S )); S Is a given subpattern of S} + min {d (f (S), ^ f (S | S + )); S + Is a given super pattern of S}
It shall be defined in
[0049]
At this time, the significance of the pattern {A, B, C} is
I ({A, B, C}) = 1.107 +0.785 = 1.892
It becomes.
[0050]
For the pattern S for which no super pattern exists in the pattern frequency information database 21, for example, ^ f (S | S + ) ≡0, and arctan (x / 0) = π / 2 (= 1.570), x> 0,
I (S) = min {d (f (S), ^ f (S | S )); S Is a given subpattern of S} + π / 2
It shall be defined as
[0051]
(7) Pattern evaluation
In the first embodiment, the significance level is calculated for patterns configured with the number of elements in a predetermined range in the pattern frequency information database 21, the pattern groups are sorted in descending order of significance level, The number of patterns (or a predetermined ratio) shall be output.
[0052]
In the pattern frequency information database 21 in FIG. 4, the significance levels are calculated for pattern groups with 2 to 4 elements, and the top six patterns are shown in FIG. 6 in which the pattern groups are sorted in descending order of significance.
[0053]
When comparing only sub-patterns as in the conventional method, that is, min {d (f (S), ^ f (S | S ))} When evaluating a pattern, {B, C}, {A, C}, {A, B} are given an evaluation value equal to {A, B, C}. This has a higher evaluation value than {D, E} or {A, B, C, D}.
[0054]
However, as can be seen from the original merchandise purchase history database shown in FIG. 3, since the merchandise A, B, and C are always bought together, the pattern {A, B, C} is essentially replaced with {B, C}. , {A, C}, {A, B}, and {A, B, C}, {B, C}, {A, C}, { It is not appropriate to give an evaluation value equal to A, B}. Moreover, in the conventional method, the evaluation of different types of patterns {D, E}, {A, B, C, D} is relatively low, and various features of the database can be expressed with relatively few patterns. Is also not suitable.
[0055]
On the other hand, the pattern evaluation method according to the first embodiment has a significance level I (S) that combines the comparison with the sub-pattern and the comparison with the super-pattern,
I (S) = min {d (f (S), ^ f (S | S ))} + Min {d (f (S), ^ f (S | S + ))}
Thus, the evaluation value of the redundant pattern {B, C}, {A, C}, {A, B} can be kept low.
[0056]
[Second Embodiment]
Next, a second embodiment of the present invention will be described. In general, since the number of patterns in the state sequence database 20 is enormous, it is not realistic to count the frequencies of all patterns and register them in the pattern frequency information database 21. Therefore, normally, only the patterns whose frequency is equal to or higher than a predetermined minimum support value are counted and registered in the pattern frequency information database 21 as in the priori method.
[0057]
FIG. 7 shows a pattern frequency information database 21 when the product purchase history database shown in FIG. 3 is taken as an example of the state column database 20 and the product purchase patterns are counted with the minimum support value “2” for this product purchase history database. In FIG. 7, a pattern with a middle line represents a pattern whose frequency is less than the minimum support value and is not registered in the pattern frequency information database 21.
[0058]
In this case, if a pattern group with 2 to 4 elements is to be evaluated for significance, 12 patterns with a frequency equal to or greater than the minimum support value (no underline) are evaluated. At this time, as shown in {A, B, C, D}, although the superstring exists in the state sequence database (product purchase history database) 20 with less than the minimum support value, the pattern frequency information database 21 has a super pattern. There may be a pattern where no pattern exists.
[0059]
In the above-described first embodiment, ^ f (S | S + ) ≡≡0,
min {d (f (S), ^ f (S | S + )); S + Is a given super pattern of S} = arctan (x / 0) = π / 2
It was defined as
[0060]
In the second embodiment, even if there is no super pattern in the pattern frequency information database 21, considering the possibility that a super pattern exists in the status column database (product purchase history database) 20 below the minimum support value. The following introduces a method for calculating the deviation of the actual frequency of the pattern from the estimated frequency for the super pattern.
N is the number of all state columns in the state column database (product purchase history database) 20.
-Let M be all kinds of elements (element set). For example, M = {A, B, C, D, E}.
・ F * Is the frequency of a given virtual super pattern when no super pattern exists in the pattern frequency information database 21. For example, when the minimum support value is 2, f * = (Minimum support value) / 2 = 1.
[0061]
The estimated frequency of the pattern S for the super pattern when there is no super pattern in the pattern frequency information database 21 is expressed as the virtual super pattern frequency f. * And the frequency of the maximum frequency element in the pattern frequency information database 21 is defined as follows.
[0062]
[Expression 1]
Figure 2005004393
[0063]
At this time, the degree of deviation from the actual frequency of the pattern S is
[0064]
[Expression 2]
Figure 2005004393
[0065]
The significance level of the pattern when the super pattern does not exist in the pattern frequency information database 21 is defined as follows.
[0066]
I (S) = min {d (f (S), ^ f (S | S ))} + D (f (S), ^ f (S | + )
Here, {D, E} and {A, B, C, D} having no super pattern among 12 patterns to be evaluated in the pattern frequency information database 21 shown in FIG. 7 in the case of the minimum support value “2”. , ^ F (S | + ) And I (S) are shown below. The total number of state columns is N = 6, and the element set is M = {A, B, C, D, E}. The frequency of the virtual super pattern is f * = (Minimum support value) / 2 = 1.
(1) Pattern {D, E}:
[0067]
[Equation 3]
Figure 2005004393
[0068]
From the first example,
min {d (f ({D, E})), ^ f ({D, E} | {D, E} ))} = 0.844
Therefore, I ({D, E}) = 0.844 + 0.982 = 1.826
(2) Pattern {A, B, C, D}:
[0069]
[Expression 4]
Figure 2005004393
[0070]
From the first example,
min {d (f ({A, B, C, D}), ^ f ({A, B, C, D} | {A, B, C, D}) ))} = 0.785
Therefore, I ({A, B, C, D}) = 0.785 + 0.927 = 1.712
FIG. 8 shows the top six patterns obtained by calculating the significance for the 12 patterns to be evaluated in FIG. 7 according to the method of the second embodiment and sorting the pattern group in descending order of significance.
[0071]
In FIG. 8, min {d (f (S), ^ f (S | S + ))} Column is a value obtained by calculating the minimum value of the actual divergence from the pattern estimation frequency in the super pattern group according to the method of the first embodiment (that is, π / 2 = 1.570), d (f (S), ^ f (S | + )) Column represents values calculated according to the method of the second embodiment.
[0072]
I 1 In the (S) column, the significance calculated according to the method of the first embodiment that does not use the frequency of the virtual super pattern is I 2 The column (S) represents a value calculated according to the method of the second embodiment using the frequency of the virtual super pattern.
[0073]
I 1 (S) = min {d (f (S), ^ f (S | S ))} + Min {d (f (S), ^ f (S | S + ))}
I 2 (S) = min {d (f (S), ^ f (S | S ))} + D (f (S), ^ f (S | + ))
When it is important to emphasize that there is no super pattern in the pattern frequency information database 21, the significance level I based on the method of the first embodiment is used. 1 (S) is suitable. On the other hand, when it is not particularly important that the super pattern does not exist, the significance level I based on the method of the second embodiment is determined. 2 (S) is suitable.
[0074]
[Third embodiment]
Next, a third embodiment of the present invention will be described. In the first and second embodiments described above, the pattern to be evaluated is a set of elements constituting the status string (for example, a combination of purchased products, a combination of URLs that have been accessed, etc.) However, there are cases where it is desired to evaluate the pattern of the order of elements on the status column (for example, purchase order of products, access order of URLs, etc.).
[0075]
Therefore, as a third example, a method for calculating the significance level of a pattern considering the order of elements on the state sequence is shown. FIG. 9 shows user T 1 , T 2 ,. . . , T 10 It is an example of the state column database 20 showing the access order of Web URL by. One URL is represented by three alphanumeric characters. For example, user T 1 Are XMK, XQK, XQK, XQK, XMK,. . . URLs are accessed in this order.
[0076]
In the third embodiment, a pattern is generated by jumping elements on one state sequence. However, the maximum length of the pattern is L, and the pattern is generated so as to be included in a partial sequence of length W (window size) on one state sequence as shown in FIG.
[0077]
The number of state strings in the state string database 20 including the patterns generated in this way is defined as the pattern frequency. FIG. 10 shows a pattern generation example when the maximum pattern length = 5 and the window size = 12.
[0078]
FIG. 11 shows a pattern frequency information database 21 generated with the maximum pattern length = 5 and the window size = 25 for the state sequence database 20 shown in FIG.
[0079]
Estimated frequency of patterns when considering the order of patterns e f (S | •) is obtained from the estimated frequency ^ f (S | •) calculated by paying attention only to the set of elements in the method shown in the first or second embodiment. Divided by the number of cases in order, it shall be defined as follows:
[0080]
e f (S | S ) = (N (S )!・ N (S \ S )! / N (S)! ) ・ ^ F (S | S )
e f (S | S + ) = (N (S + )! / N (S)!・ N (S + \ S)! ) ・ ^ F (S | S + )
Here, n (S) represents the number of elements of the pattern S.
[0081]
In particular, if the number of elements to be removed from the pattern when generating a subpattern is 1 and the number of elements to be added to the pattern when generating a superpattern is 1,
n (S )!・ N (S \ S )! / N (S)! = (N (S) -1)! / N (S)! = 1 / n (S)
n (S + )! / N (S)!・ N (S + \ S)! = N (S + )! / N (S)! = N (S + )
Therefore, the pattern estimation frequency when considering the pattern order is expressed by the following equation.
[0082]
e f (S | S ) = (1 / n (S)) · ^ f (S | S )
e f (S | S + ) = N (S + ) ・ ^ F (S | S + )
For example, for a pattern 3 of length S = {YEK, XNK, X3K}, sub-pattern S = The element X3K to be added to create the original pattern S from {YEK, XNK} Against
・ Added before YEK,
Added between YEK and XNK,
・ Added after XNK,
There are three possible cases.
[0083]
Among them, the last one is equal to the pattern S. Therefore, the estimated frequency when considering the order of elements is the estimated frequency ^ f (S | S ) Is divided by the number of elements to be added (that is, the length n (S) of the pattern S).
[0084]
Similarly, from pattern S to super pattern S + = YnK, YEK, XNK, X3K} The element YnK to be added to create the pattern S
・ Added before YEK,
Added between YEK and XNK,
・ Added between XNK and X3K,
・ Added after X3K,
There are four possible cases.
[0085]
Super pattern S in it + Is the first one to be equal to Therefore, the estimated frequency when considering the order of elements is the estimated frequency ^ f (S | S + ) Is the number of elements added to the pattern S (ie, the super pattern S + Length n (S + It is reasonable to multiply the value by)).
[0086]
As can be understood from the above, the features of the embodiment of the present invention are described as follows.
[0087]
(Supplementary note 1) A pattern evaluation device based on significance using sub-pattern and super-pattern frequencies,
A pattern frequency calculation means for calculating the frequency for a plurality of patterns composed of element sets;
A sub-pattern / super-pattern generating means for generating a sub-pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculation means, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculation means Pattern estimation frequency calculating means for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern Pattern significance calculation means for calculating an arbitrary statistical value related to the actual frequency divergence of the pattern to be evaluated as the significance of the pattern to be evaluated;
Pattern evaluation means for evaluating the pattern to be evaluated based on the calculated significance level.
A pattern evaluation apparatus characterized by that.
[0088]
(Appendix 2) In the pattern evaluation apparatus described in Appendix 1,
The pattern estimation frequency calculation means includes:
A value obtained by dividing the product of the frequency of the sub-pattern and the frequency of the element removed from the pattern to be evaluated by the total number of state columns is calculated as the estimated frequency of the pattern to be evaluated for the sub-pattern,
A value obtained by dividing the product of the frequency of the super pattern and the total number of state columns by the frequency of the element added to the pattern to be evaluated is calculated as the estimated frequency of the pattern to be evaluated for the super pattern.
A pattern evaluation apparatus characterized by that.
[0089]
(Supplementary note 3) In the pattern evaluation apparatus according to Supplementary note 1 or Supplementary note 2,
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the sub-pattern is the actual frequency of the pattern to be evaluated and the pattern of the evaluation target for the sub-pattern. Is the arc tangent of the ratio to the estimated frequency,
The degree of deviation of the actual frequency of the evaluation target pattern from the estimated frequency of the evaluation target pattern for the super pattern is the actual frequency of the evaluation target pattern and the evaluation target pattern for the super pattern. The arc tangent of the ratio to the estimated frequency
A pattern evaluation apparatus characterized by that.
[0090]
(Supplementary note 4) In the pattern evaluation apparatus according to any one of Supplementary note 1 to Supplementary note 3,
The actual frequency of the evaluation target pattern from the estimation frequency of the evaluation target pattern for the super pattern and the degree of deviation of the actual frequency of the evaluation target pattern from the estimation frequency of the evaluation target pattern for the subpattern The statistical value related to the frequency divergence degree is the minimum value of the actual frequency divergence degree of the evaluation target pattern from the estimation frequency of the evaluation target pattern for the sub-pattern, and the evaluation target for the super pattern. This is the sum of the deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern and the minimum value
A pattern evaluation apparatus characterized by that.
[0091]
(Supplementary note 5) In the pattern evaluation apparatus according to any one of Supplementary note 1 to Supplementary note 4,
When the frequency of the super pattern calculated by the pattern frequency calculation means is lower than a given threshold value, the degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency for the super pattern is given by The value of or a function value of the given value
A pattern evaluation apparatus characterized by that.
[0092]
(Appendix 6) In the pattern evaluation apparatus according to any one of Appendix 1 to Appendix 5,
The pattern estimation frequency calculation means, when considering the arrangement order of elements constituting the pattern, the estimated frequency of the evaluation target pattern for the calculated sub-pattern or the evaluation target of the calculated super pattern A value obtained by dividing the estimated frequency of the pattern by the number in the case of the arrangement order of the patterns is calculated as the estimated frequency of the pattern to be evaluated for the sub-pattern or the estimated frequency of the pattern to be evaluated for the super pattern.
A pattern evaluation apparatus characterized by that.
[0093]
(Supplementary note 7) A pattern evaluation processing method in which a computer evaluates a pattern based on significance using the frequency of sub-patterns and super patterns,
A pattern frequency calculation step for calculating a frequency for a plurality of patterns composed of element sets;
A sub-pattern / super-pattern generation step for generating a sub-pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculating step, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculating step A pattern estimation frequency calculating step for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern A pattern significance calculation step for calculating an arbitrary statistical value related to the actual frequency deviation of the pattern to be evaluated as the significance of the pattern to be evaluated;
A pattern evaluation step for evaluating the pattern to be evaluated based on the calculated significance level.
A pattern evaluation processing method characterized by the above.
[0094]
(Supplementary Note 8) A pattern evaluation processing program for causing a computer to execute pattern evaluation processing based on significance using sub-pattern and super-pattern frequencies,
Pattern frequency calculation processing for calculating the frequency for a plurality of patterns composed of element sets;
A sub pattern / super pattern generation process for generating a sub pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculation process, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculation process Pattern estimation frequency calculation processing for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern Pattern significance calculation processing for calculating an arbitrary statistical value related to the actual frequency deviation of the pattern to be evaluated as the significance of the pattern to be evaluated;
A pattern evaluation process for evaluating the pattern to be evaluated based on the calculated significance level,
A pattern evaluation processing program to be executed by a computer.
[0095]
(Supplementary Note 9) A computer-readable recording medium recording a program for causing a computer to execute pattern evaluation processing based on significance using sub-pattern and super-pattern frequencies,
Pattern frequency calculation processing for calculating the frequency for a plurality of patterns composed of element sets;
A sub pattern / super pattern generation process for generating a sub pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculation process, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculation process Pattern estimation frequency calculation processing for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern Pattern significance calculation processing for calculating an arbitrary statistical value related to the actual frequency deviation of the pattern to be evaluated as the significance of the pattern to be evaluated;
A pattern evaluation process for evaluating the pattern to be evaluated based on the calculated significance level,
A pattern evaluation processing program recording medium having recorded thereon a program to be executed by a computer.
[0096]
【The invention's effect】
The pattern evaluation device of the present invention removes patterns that are composed of element groups from patterns that have a low correlation with respect to the frequency in the database and redundant patterns that extract only a part of a set of elements that have a strong correlation with each other. can do. Therefore, according to the present invention, a pattern group composed of a set of elements includes all the elements that are correlated with each other, and does not include elements that are not correlated with them. It becomes possible to select only.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration example of a pattern evaluation apparatus according to the present invention.
FIG. 2 is a diagram showing an example of a pattern evaluation process flow of the present invention.
FIG. 3 is a diagram showing a product purchase history database.
FIG. 4 is a diagram showing a pattern frequency information database.
FIG. 5 is a diagram illustrating calculation of a deviation degree of an actual frequency of a pattern from each estimated frequency.
FIG. 6 is a diagram showing a pattern group with higher significance.
FIG. 7 is a diagram showing a pattern frequency information database.
FIG. 8 is a diagram showing a pattern group of higher significance when the minimum support value is 2. FIG.
FIG. 9 is a diagram illustrating an example of a state string database in consideration of the arrangement order of elements.
FIG. 10 is a diagram illustrating an example of a pattern generated by jumping an element on a state sequence.
FIG. 11 is a diagram showing a pattern frequency information database in consideration of the arrangement order of elements.
[Explanation of symbols]
1 Pattern evaluation device
11 Processing control unit
12 Pattern frequency calculator
13 Sub pattern / super pattern generator
14 Pattern estimation frequency calculator
15 Pattern significance calculation section
16 Pattern evaluation section
17 Evaluation result output processing section
18 Input device
19 Output device
20 State column database
21 pattern frequency information database

Claims (5)

サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価装置であって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算手段と,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成手段と,
前記パターン頻度計算手段により算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算手段により算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算手段と,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算手段と,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価手段とを備える
ことを特徴とするパターン評価装置。
A pattern evaluation device based on significance using sub-pattern and super-pattern frequencies,
A pattern frequency calculation means for calculating the frequency for a plurality of patterns composed of element sets;
A sub-pattern / super-pattern generating means for generating a sub-pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculation means, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculation means Pattern estimation frequency calculating means for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern Pattern significance calculation means for calculating an arbitrary statistical value related to the actual frequency divergence of the pattern to be evaluated as the significance of the pattern to be evaluated;
A pattern evaluation unit comprising: a pattern evaluation unit that evaluates the pattern to be evaluated based on the calculated significance level.
請求項1記載のパターン評価装置において,
前記パターン推定頻度計算手段は,
前記サブパターンの頻度と前記評価対象のパターンから取り除かれた要素の頻度の積を全状態列数で割った値を前記サブパターンについての前記評価対象のパターンの推定頻度として算出し,
前記スーパーパターンの頻度と全状態列数の積を前記評価対象のパターンに追加した要素の頻度で割った値を前記スーパーパターンについての前記評価対象のパターンの推定頻度として算出する
ことを特徴とするパターン評価装置。
The pattern evaluation apparatus according to claim 1,
The pattern estimation frequency calculation means includes:
A value obtained by dividing the product of the frequency of the sub-pattern and the frequency of the element removed from the pattern to be evaluated by the total number of state columns is calculated as the estimated frequency of the pattern to be evaluated for the sub-pattern,
A value obtained by dividing the product of the frequency of the super pattern and the total number of state columns by the frequency of the element added to the pattern to be evaluated is calculated as the estimated frequency of the pattern to be evaluated for the super pattern. Pattern evaluation device.
サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価をコンピュータによって行うパターン評価処理方法であって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算ステップと,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成ステップと,
前記パターン頻度計算ステップにより算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算ステップにより算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算ステップと,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算ステップと,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価ステップとを有する
ことを特徴とするパターン評価処理方法。
A pattern evaluation processing method that uses a computer to evaluate patterns based on significance using sub-pattern and super-pattern frequencies,
A pattern frequency calculation step for calculating a frequency for a plurality of patterns composed of element sets;
A sub-pattern / super-pattern generation step for generating a sub-pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculating step, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculating step A pattern estimation frequency calculating step for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern A pattern significance calculation step for calculating an arbitrary statistical value related to the actual frequency deviation of the pattern to be evaluated as the significance of the pattern to be evaluated;
And a pattern evaluation step for evaluating the pattern to be evaluated based on the calculated significance level.
サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価処理を,コンピュータに実行させるためのパターン評価処理プログラムであって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算処理と,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成処理と,
前記パターン頻度計算処理により算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算処理により算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算処理と,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算処理と,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価処理とを,
コンピュータに実行させるためのパターン評価処理プログラム。
A pattern evaluation processing program for causing a computer to execute pattern evaluation processing based on significance using sub-pattern and super-pattern frequencies,
Pattern frequency calculation processing for calculating the frequency for a plurality of patterns composed of element sets;
A sub pattern / super pattern generation process for generating a sub pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculation process, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculation process Pattern estimation frequency calculation processing for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern Pattern significance calculation processing for calculating an arbitrary statistical value related to the actual frequency deviation of the pattern to be evaluated as the significance of the pattern to be evaluated;
A pattern evaluation process for evaluating the pattern to be evaluated based on the calculated significance level,
A pattern evaluation processing program to be executed by a computer.
サブパターンおよびスーパーパターンの頻度を用いた有意義度に基づくパターンの評価処理を,コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって,
要素の組で構成される複数のパターンについて頻度を算出するパターン頻度計算処理と,
評価対象のパターンから一部の要素を取り除いたサブパターンと,前記評価対象のパターンに要素を追加したスーパーパターンとを生成するサブパターン/スーパーパターン生成処理と,
前記パターン頻度計算処理により算出された前記サブパターンの頻度に基づいて前記サブパターンについての前記評価対象のパターンの推定頻度を算出し,前記パターン頻度計算処理により算出された前記スーパーパターンの頻度に基づいて前記スーパーパターンについての前記評価対象のパターンの推定頻度を算出するパターン推定頻度計算処理と,
前記算出されたサブパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度と前記算出されたスーパーパターンについての前記評価対象のパターンの推定頻度からの前記評価対象のパターンの実際の頻度の乖離度に関する任意の統計値を前記評価対象のパターンの有意義度として算出するパターン有意義度計算処理と,
前記算出された有意義度に基づいて前記評価対象のパターンを評価するパターン評価処理とを,
コンピュータに実行させるためのプログラムを記録したことを特徴とするパターン評価処理プログラム記録媒体。
A computer-readable recording medium storing a program for causing a computer to execute pattern evaluation processing based on significance using sub-pattern and super-pattern frequencies,
Pattern frequency calculation processing for calculating the frequency for a plurality of patterns composed of element sets;
A sub pattern / super pattern generation process for generating a sub pattern obtained by removing some elements from the pattern to be evaluated, and a super pattern in which elements are added to the pattern to be evaluated;
Based on the frequency of the sub-pattern calculated by the pattern frequency calculation process, the estimated frequency of the pattern to be evaluated for the sub-pattern is calculated, and based on the frequency of the super pattern calculated by the pattern frequency calculation process Pattern estimation frequency calculation processing for calculating an estimation frequency of the pattern to be evaluated for the super pattern;
The degree of deviation of the actual frequency of the pattern to be evaluated from the estimated frequency of the pattern to be evaluated for the calculated sub-pattern and the estimated frequency of the pattern to be evaluated for the calculated super pattern Pattern significance calculation processing for calculating an arbitrary statistical value related to the actual frequency deviation of the pattern to be evaluated as the significance of the pattern to be evaluated;
A pattern evaluation process for evaluating the pattern to be evaluated based on the calculated significance level,
A pattern evaluation processing program recording medium having recorded thereon a program to be executed by a computer.
JP2003165844A 2003-06-11 2003-06-11 Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof Expired - Fee Related JP4263949B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003165844A JP4263949B2 (en) 2003-06-11 2003-06-11 Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003165844A JP4263949B2 (en) 2003-06-11 2003-06-11 Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof

Publications (2)

Publication Number Publication Date
JP2005004393A true JP2005004393A (en) 2005-01-06
JP4263949B2 JP4263949B2 (en) 2009-05-13

Family

ID=34092165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003165844A Expired - Fee Related JP4263949B2 (en) 2003-06-11 2003-06-11 Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof

Country Status (1)

Country Link
JP (1) JP4263949B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2009589A4 (en) * 2006-03-24 2009-03-11 Konami Digital Entertainment Stock name search device, stock name search method, and information storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2009589A4 (en) * 2006-03-24 2009-03-11 Konami Digital Entertainment Stock name search device, stock name search method, and information storage medium
US8352345B2 (en) 2006-03-24 2013-01-08 Konami Digital Entertainment Co., Ltd. Stock name search device, stock name search method, and information storage medium

Also Published As

Publication number Publication date
JP4263949B2 (en) 2009-05-13

Similar Documents

Publication Publication Date Title
Hong et al. Effective utility mining with the measure of average utility
Annie et al. Market basket analysis for a supermarket based on frequent itemset mining
Chu et al. An efficient algorithm for mining high utility itemsets with negative item values in large databases
US20070033185A1 (en) Applying Data Regression and Pattern Mining to Predict Future Demand
Pramono et al. Estimating customer segmentation based on customer lifetime value using two-stage clustering method
CN109697203B (en) Index transaction analysis method and device, computer storage medium, and computer device
Morid et al. Defending recommender systems by influence analysis
JP2019145043A (en) Data management device and data management system
Isa et al. Market basket analysis of customer buying patterns at corm café
Aguirre-Munizaga et al. Analysis of classification algorithms for the prediction of purchase intention in electronic commerce
Pillai et al. Huri–a novel algorithm for mining high utility rare itemsets
Dinh et al. A survey of privacy preserving utility mining
JP4263949B2 (en) Pattern evaluation apparatus, pattern evaluation processing method, pattern evaluation processing program, and program recording medium thereof
Harase Comparison of Sobol’sequences in financial applications
JP2018092284A (en) Information processing apparatus, information processing method, and information processing program
Preethi et al. Data Mining In Banking Sector
Yoon et al. Efficient link-based clustering in a large scaled blog network
Yun et al. Using category-based adherence to cluster market-basket data
Feng et al. A novel feature selection approach based on multiple filters and new separable degree index for credit scoring
Hsu et al. IECT: A methodology for identifying critical products using purchase transactions
Xu et al. Mining high utility sequential patterns using multiple minimum utility
Lan et al. Mining high fuzzy utility sequential patterns
Kelesidis et al. Correlation as an arm interestingness measure for numeric datasets
Chaudhari et al. Extension of prefix span approach with GRC constraints for sequential pattern mining
Intayoad et al. Process Discovery Method in Dynamic Manufacturing and Logistics Environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081224

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20081224

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees