JP7447674B2 - Information processing program, information processing method, and information processing device - Google Patents
Information processing program, information processing method, and information processing device Download PDFInfo
- Publication number
- JP7447674B2 JP7447674B2 JP2020090137A JP2020090137A JP7447674B2 JP 7447674 B2 JP7447674 B2 JP 7447674B2 JP 2020090137 A JP2020090137 A JP 2020090137A JP 2020090137 A JP2020090137 A JP 2020090137A JP 7447674 B2 JP7447674 B2 JP 7447674B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- cluster
- unit
- document
- dendrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理プログラム、情報処理方法及び情報処理装置に関する。 The present invention relates to an information processing program, an information processing method, and an information processing apparatus.
各種の製品を市場に出荷する製造元では、製品出荷後の市場品質マネジメントが重要な経営課題となっている。例えば、製品が実際に使用されているフィールドで発生した不具合は、障害レポート(MR:Maintenance Report)として報告される。このような障害レポートは、例えば、フィールドサポート業務を行うフィールドSEによって作成されるが、対象製品によっては電話やメールによるサポートを行うコールセンター業務の中でも作成される。 For manufacturers who ship various products to the market, market quality management after product shipment has become an important management issue. For example, a malfunction that occurs in a field where a product is actually used is reported as a maintenance report (MR). Such a failure report is created, for example, by a field SE that performs field support work, but depending on the target product, it may also be created during call center work that provides support by telephone or email.
そこで、市場品質マネジメントでは、市場に出たフィールド稼働製品の障害レポートを用いて発生事象を特定し、過去事例などから発生原因及び対策方法などを判定する。そして、決定された対策方法にしたがって、障害レポートが提出された障害に対する対応が行われる。 Therefore, market quality management uses failure reports of field-operated products on the market to identify occurrences, and determines causes and countermeasures based on past cases. Then, in accordance with the determined countermeasure method, a response to the failure for which the failure report has been submitted is taken.
また近年、以下のサイクルでフィールド稼働製品の品質向上に向けた取り組みが行われている。障害レポートが各所から報告され、報告された大量の障害レポートに対して分析が行われる。この分析により、例えば、最近増加した不具合の検出が行われる。このような直近で増加した不具合は傾向障害と呼ばれ、偶発障害と区別される。傾向障害は、今後も増加し続ける可能性があるので対策策定の緊急度が高い。例えば、OS(Operating System)のアップデートにより、フィールド稼働製品に用いられているファームウェアとの間で不具合が発生した場合などは、今後、同じファームウェアを使用している製品全てで発生してしまう事になるので一刻も早く対策を打つ必要がある。 In addition, in recent years, efforts have been made to improve the quality of field-operated products using the following cycle. Failure reports are reported from various places, and analysis is performed on a large number of reported failure reports. This analysis results in, for example, detection of defects that have increased recently. Such failures that have increased recently are called trend failures and are distinguished from random failures. Trend disorders are likely to continue to increase in the future, so there is a high degree of urgency in formulating countermeasures. For example, if an OS (Operating System) update causes a problem with the firmware used in a field-operated product, the problem will occur in all products using the same firmware in the future. Therefore, it is necessary to take measures as soon as possible.
このような傾向障害が検出された場合、製品の製造元は、検出した不具合の内容や対策を文書化し、市場に周知させることで不具合の発生を未然に防止する。例えば、製品の製造元は、「特定のファームウェアのバクに起因する不具合」の最近の増加を検知し、その傾向障害の対応策とともにその傾向障害の内容をフィールドに周知する。これにより、製造元は、該当するファームウェアを搭載した製品に対して利用者に予防措置を実施させて、その障害の発生を未然に防ぐことができる。 When such a trend failure is detected, the product manufacturer prevents the occurrence of the failure by documenting the details of the detected failure and countermeasures, and disseminating the information to the market. For example, a product manufacturer detects a recent increase in "malfunctions caused by specific firmware bugs" and informs the field of the nature of the trending faults along with countermeasures for the trending faults. This allows the manufacturer to prevent the occurrence of failures by having users take preventive measures for products equipped with the relevant firmware.
従来、この傾向障害の検知は人手により行われてきた。これに対して、障害レポートの急激な増加により、人手による傾向障害の検知では、適切な検知が困難になってきた。そこで、コード情報ベースの検知手法やキーワードベースの検知手法といった情報処理装置を用いた傾向障害の検出が導入されてきている。コード情報ベースの検知手法は、不具合内容を表すコード情報が所外レポートに付与さえている場合に、そのコード情報を用いて傾向障害を検知する方法である。また、キーワードベースの検知手法は、障害レポートに記載された単語や文中の主語と述語の係り受け組をコード情報としてみなすことで増加するキーワードを検出して、傾向障害を検出する手法である。また、キーワードベースよりも大きな単位で言葉を取り扱う文書ベースの検知手法を用いることも考えられる。 Conventionally, this trend failure detection has been performed manually. On the other hand, due to the rapid increase in the number of failure reports, it has become difficult to properly detect trend failures manually. Therefore, detection of trend failures using information processing devices, such as code information-based detection methods and keyword-based detection methods, has been introduced. The code information-based detection method is a method for detecting trend failures using code information that indicates the nature of the problem when it is attached to an external report. In addition, the keyword-based detection method is a method for detecting trend failures by detecting an increasing number of keywords by regarding the dependency pairs of subjects and predicates in words and sentences written in failure reports as code information. It is also conceivable to use a document-based detection method that handles words in larger units than keyword-based methods.
なお、文書を分析して検索する技術として、地理上の位置に基づき、提示するクラスタの粒度を変える従来技術がある。また、階層クラスタリング結果における各分岐点での代表ベクトルと、検索目標オブジェクトから生成されるベクトルとの類似度を算出して、算出した類似度の高いクラスタを提示する従来技術がある。 Note that as a technique for analyzing and searching documents, there is a conventional technique that changes the granularity of clusters to be presented based on geographical location. Furthermore, there is a conventional technique that calculates the degree of similarity between a representative vector at each branch point in the hierarchical clustering result and a vector generated from a search target object, and presents clusters with high calculated degrees of similarity.
しかしながら、コード情報ベースの検知手法の場合、コード情報が表す不具合内容の粒度が荒い。そのため、増加傾向にある障害を見逃されることが多い。例えば、増加傾向の障害と減少傾向の障害とが同一コードに分類されている場合、増加傾向にある障害が見逃されるおそれがある。 However, in the case of a detection method based on code information, the granularity of the defect content represented by the code information is coarse. As a result, disorders that are on the rise are often overlooked. For example, if a fault with an increasing trend and a fault with a decreasing trend are classified into the same code, the fault with an increasing trend may be overlooked.
また、キーワードベースの検知手法を行う場合、単語の表記揺れや同義語及び同義表現を考慮して検知を行うことが好ましい。例えば、「製造元ロゴ画面」、「製造元画面」及び「BIOS(Basic Input Output System)画面」といった単語は、全て同じ画面を指す場合があり、その場合にはそれらの単語が同義語となる。また、「停止する」や「停まる」は同義であり、さらに否定をともなった表現である「進まない」も同義語となる。しかし、単語の表記揺れや同義語及び同義表現を識別するための辞書の整備は、情報が増えるにつれて作成の煩雑さやで作成コストが増加する。そのため、障害レポートが急増する現状においては、キーワードベースの検知を行うことは困難である。そのため、これらの検知手法を用いて傾向障害を検出することは難しく、傾向障害に対する対応が遅れてしまい、製品の品質を向上させることが困難となる。 Furthermore, when performing a keyword-based detection method, it is preferable to perform detection by taking into consideration spelling variations of words, synonyms, and synonymous expressions. For example, the words "manufacturer logo screen," "manufacturer screen," and "BIOS (Basic Input Output System) screen" may all refer to the same screen, in which case these words are synonyms. Furthermore, "to stop" and "to stop" are synonymous, and the negative expression "do not proceed" is also a synonym. However, as the amount of information increases, the cost of creating a dictionary to identify variations in the spelling of words, synonyms, and synonymous expressions increases due to the complexity of creating the dictionary. Therefore, in the current situation where the number of failure reports is rapidly increasing, it is difficult to perform keyword-based detection. Therefore, it is difficult to detect trend failures using these detection methods, and response to trend failures is delayed, making it difficult to improve product quality.
これに対して、文書ベースの検知手法を用いることで、単語の表記揺れや同義語の処理のためのコストを抑えることができる。このような文書のグルーピングを行う場合に、クラスタを用いる手法が考えられる。クラスタを行う場合、クラスタ数となどの処理パラメータが事前に与えられる。ただし、パラメータが不適切であると適切なクラスタが生成されない場合があり、各クラスタの増加傾向を見落とすおそれがある。 On the other hand, by using a document-based detection method, it is possible to reduce the cost of processing word variations and synonyms. When grouping documents like this, a method using clusters can be considered. When clustering is performed, processing parameters such as the number of clusters are given in advance. However, if the parameters are inappropriate, appropriate clusters may not be generated, and there is a risk of overlooking the increasing trend of each cluster.
例えば、小さすぎるクラスタは、各クラスタに含まれる要素間の内容の類似性は高くなるが、障害レポートの発生件数を時間で集約すると件数が少なくなり、有意な傾向を検出し難くなる。例えば、過去6か月の月別集計結果が(0.1.0,2,2,3)の場合、危険率5%のMann-Kendallの傾向検定では有意な増加傾向は認められない。ここで、月別集計結果における括弧内の数字は、左から順に過去6か月の古い順の各月の発生件数を表す。 For example, if a cluster is too small, the content similarity between elements included in each cluster will be high, but if the number of occurrences of failure reports is aggregated over time, the number will be small, making it difficult to detect a significant trend. For example, if the monthly aggregate results for the past six months are (0.1.0, 2, 2, 3), no significant increasing trend is recognized in the Mann-Kendall trend test with a risk rate of 5%. Here, the numbers in parentheses in the monthly aggregation results represent the number of occurrences in each month from the left to the oldest in the past six months.
また、複数の障害で構成された大きすぎるクラスタは、実際には増加傾向にある検知したい障害の増加傾向が他の障害によって薄まる可能性があり、検定では有意となりにくい場合がある。例えば、過去6か月の月別集計結果が(0,3,6,10,15,20)である障害は、有意な増加傾向が認められる。一方、月別集計結果が(52,48,44,48,46,47)である不具合は、増加傾向及び減少傾向のいずれも認められない。この2つの障害を含むクラスタの月別集計結果は、両者の和となるが、その場合にはこのクラスタにおいて有意な増加傾向が認められなくなってしまう。 In addition, if a cluster is too large and is made up of multiple faults, the increasing trend of the fault that is desired to be detected may be diluted by other faults, and the test may not be significant. For example, a significant increasing trend is observed for failures whose monthly aggregate results for the past six months are (0, 3, 6, 10, 15, 20). On the other hand, for the defects whose monthly aggregate results are (52, 48, 44, 48, 46, 47), neither an increasing trend nor a decreasing trend is observed. The monthly aggregation result for a cluster that includes these two failures is the sum of both, but in that case, no significant increasing trend will be recognized in this cluster.
そして、単に文書ベースでクラスタリングを行った場合には、クラスタリング実行時に用いるパラメータを適切に決定することが困難であり、増加傾向を見逃すおそれがある。 If clustering is simply performed on a document basis, it is difficult to appropriately determine parameters to be used when performing clustering, and there is a risk of overlooking an increasing trend.
なお、地理上の位置に基づき提示するクラスタの粒度を変える従来技術では、位置に応じて適切な増加傾向にある事例の検出を行うことは難しく、地理的シソーラスに相当する情報を用いずに傾向障害を検出することは困難である。また、目標と結果とのベクトルの類似度を基にクラスタを提示する従来技術では、検索クエリの入力なしでのクラスタの提示は難しく、傾向障害を検出することは困難である。したがって、いずれの従来技術でも、製品の品質を向上させることは困難である。 In addition, with conventional technology that changes the granularity of clusters presented based on geographic location, it is difficult to detect cases that are showing an appropriate increasing trend depending on location, and it is difficult to detect cases that are showing an appropriate increasing trend depending on location. Failures are difficult to detect. Further, in the conventional technology that presents clusters based on the similarity of vectors between a target and a result, it is difficult to present clusters without inputting a search query, and it is difficult to detect trend failures. Therefore, it is difficult to improve the quality of products using any of the conventional techniques.
開示の技術は、上記に鑑みてなされたものであって、製品の品質を向上させる情報処理プログラム、情報処理方法及び情報処理装置を提供することを目的とする。 The disclosed technology has been developed in view of the above, and aims to provide an information processing program, an information processing method, and an information processing device that improve the quality of products.
本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の一つの態様において、以下の処理をコンピュータに実行させる。複数の文書情報を取得する。前記文書情報のそれぞれの内容を数値化して数値化情報を算出する。前記数値化情報を基に階層クラスタリングを行って樹形図を示す樹形図情報を生成する。前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応するクラスタに属する前記文書情報の特徴を特定する。前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応する前記クラスタに含まれる特定クラスタであって、前記特徴が有意性を有し、且つ、対応する前記分岐点を含む階層構造における上位の前記分岐点及び下位の分岐点に対応する前記クラスタよりも強い前記特徴を有する前記特定クラスタを抽出する。前記抽出した前記特定クラスタの情報を出力する。 In one aspect of the information processing program, information processing method, and information processing apparatus disclosed in the present application, a computer is caused to execute the following processing. Get multiple document information. Each content of the document information is digitized to calculate digitized information. Hierarchical clustering is performed based on the numerical information to generate dendrogram information indicating a dendrogram. A feature of the document information belonging to a cluster corresponding to a plurality of branch points of the tree diagram indicated by the tree diagram information is identified. A specific cluster included in the cluster corresponding to a plurality of branch points included in the tree diagram indicated by the tree diagram information, the feature having significance, and a hierarchy including the corresponding branch point. The specific cluster having the feature stronger than the cluster corresponding to the upper branching point and the lower branching point in the structure is extracted. Information about the extracted specific cluster is output.
1つの側面では、本発明は、製品の品質を向上させることができる。 In one aspect, the present invention can improve product quality.
以下に、本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理プログラム、情報処理方法及び情報処理装置が限定されるものではない。 Embodiments of an information processing program, an information processing method, and an information processing apparatus disclosed in the present application will be described in detail below based on the drawings. Note that the information processing program, information processing method, and information processing apparatus disclosed in the present application are not limited to the following embodiments.
図1は、傾向障害検出システムを示す図である。傾向障害検出システム10は、図1に示すように、サーバ装置1、障害レポート入力端末2、障害レポートデータベース3、単語ベクトルデータベース4、検索結果出力用クライアント端末5を有する。
FIG. 1 is a diagram showing a trend failure detection system. As shown in FIG. 1, the trend
サーバ装置1と障害レポート入力端末2とは、ネットワーク6を介して接続される。また、サーバ装置1には、障害レポートデータベース3及び単語ベクトルデータベース4が接続される。さらに、検索結果出力用クライアント端末5は、サーバ装置1に接続されてもよいし、ネットワーク6に接続されてもよい。
The
障害レポート入力端末2は、企業などで用いられて運用状態にある製品に障害が発生した場合に、障害対応を行った作業者が、その障害の情報を入力するための装置である。障害レポート入力端末2は、作業者から入力された障害の情報を取得する。そして、障害レポート入力端末2は、取得した障害の情報を障害レポートとして、ネットワーク6を介してサーバ装置1へ送信する。障害の情報には、例えば、その障害の情報の登録が行われた発行日、障害が発生した顧客の顧客名、障害が発生した製品の種別及び機種名、発生した障害の現象、障害の原因、その障害への対処及び対処完了日などが含まれる。
The failure
障害レポートデータベース3は、サーバ装置1により各障害レポート入力端末2から収集された障害レポートの情報が入力される。そして、障害レポートデータベース3は、入力された障害レポートをまとめて、図2に示すような障害レポート100を作成する。図2は、障害レポートの一例を表す図である。障害レポート100は、個々の障害レポート101を複数含む。障害レポート101は、文書情報であり、障害レポート入力端末2から送信される1つ1つの障害レポートである。
The
各障害レポート101は、発行日などの定型情報を記載するフィールドと、現象、原因及び対処法などの自由記述フィールドを有する。ここで、本実施例では発行日を記載したが、時刻まで含む発行日時でもよい。すなわち、障害レポート101は、時刻に関連付けられた文書情報であり、時刻には日にちや日時が含まれる。例えば、障害レポート101は、図2に示すように、発行日、顧客名、種別、機種名及び対処完了日といった定型情報、現象、原因及び対処法とった自由記述情報を含む。また、障害レポート100の情報は、ここで挙げた情報に限らず、交換部品の部品型名などのその他の情報を含んでもよく、傾向障害だけでなく、様々な観点でクラスタを生成可能である。
Each
障害レポートデータベース3は、障害レポート100を保持する。障害レポートデータベース3が保持する障害レポート100は、障害レポート入力端末2からの入力時又は定期的に、新たな障害レポート101が登録されて更新される。
The
単語ベクトルデータベース4は、単語を分散表現と呼ばれるベクトルで表現した単語ベクトルを保持する。分散表現で表現された単語ベクトルは、正解を与えずとも用例が似ている単語は同じようなベクトルとして表現される。すなわち、用例が似た単語は、同じように扱われるため、表記ゆれが存在する単語や同義語は同じように扱われる。 The word vector database 4 holds word vectors that represent words as vectors called distributed representations. In word vectors expressed using distributed representation, words that have similar usage examples are expressed as similar vectors even if no correct answer is given. In other words, words with similar usages are treated the same way, so words with different spellings and synonyms are treated the same way.
サーバ装置1は、ネットワーク6を介して各障害レポート入力端末2から送信された障害レポート101を収集する。そして、サーバ装置1は、障害レポート101を障害レポートデータベース3に格納させる。
The
そして、サーバ装置1は、単語ベクトルデータベース4に格納された単語ベクトルを用いて障害レポート101に含まれる障害レポート101それぞれをベクトル化し、類似度を用いてクラスタリングして複数の文書クラスタを生成する。次に、サーバ装置1は、各文書クラスタ内の障害の発生件数を集計して傾向障害を検出する。その後、サーバ装置1は、検出した傾向障害を検索結果出力用クライアント端末5へ送信する。
Then, the
検索結果出力用クライアント端末5は、傾向障害の検出結果を表示して利用者に提供する装置である。検索結果出力用クライアント端末5は、検出された傾向障害の情報をサーバ装置1から受信する。そして、検索結果出力用クライアント端末5は、取得した傾向障害の情報を出力してモニタなどへの表示を行うことで、傾向障害の情報を利用者に通知する。
The search result
次に、図3を参照して、サーバ装置1の詳細について説明する。図3は、サーバ装置のブロック図である。サーバ装置1は、図3に示すように、障害レポート情報取得部11、階層クラスタリング部12、傾向障害検出部13及び出力部14を有する。
Next, details of the
障害レポート情報取得部11は、障害レポート入力端末2から送信された障害レポートを収集する。そして、障害レポート情報取得部11は、収集した障害レポート101を障害レポートデータベース3へ送信して障害レポート100を更新する。
The failure report
階層クラスタリング部12は、障害レポート101に含まれる単語の単語ベクトルの作成及び作成した単語ベクトルを用いた障害レポート101のベクトル化、並びに、ベクトル化した障害レポート101のクラスタリングを行う。図4は、階層クラスタリング部及び傾向障害検出部の詳細を表すブロック図である。階層クラスタリング部12は、図4に示すように、文解析部121、単語ベクトル作成部122、文書ベクトル作成部123及びデンドログラム作成部124を有する。
The
文解析部121は、障害レポートデータベース3に格納された障害レポート100に含まれる全ての障害レポート101を取得する。そして、文解析部121は、取得した障害レポート101を解析して単語を抽出する。その後、文解析部121は、抽出した単語を単語ベクトル作成部122へ出力する。
The sentence analysis unit 121 acquires all the failure reports 101 included in the failure reports 100 stored in the
また、文解析部121は、障害レポート100から傾向障害の検出に用いる複数の障害レポート101を取得する。例えば、過去6か月の傾向を判定する場合、文解析部121は過去6か月以内に発生した障害が登録された全ての障害レポート101を取得する。そして、文解析部121は、取得した障害レポート101を文書ベクトル作成部123へ出力する。
Furthermore, the sentence analysis unit 121 acquires a plurality of failure reports 101 from the
単語ベクトル作成部122は、障害レポート100に含まれる単語の数値化を行う。具体的には、単語ベクトル作成部122は、障害レポート100から抽出された単語の入力を文解析部121から受ける。そして、単語ベクトル作成部122は、分散表現を用いて取得した単語を表して単語ベクトルを生成する。例えば、単語ベクトル作成部122は、Word2Vecを用いて単語ベクトルを生成する。単語ベクトル作成部122は、自由記述文中の単語の使われ方をニューラルネットワークにより学習して、各単語をn次元のベクトルに変換する。次元数であるnは、操作者により指定される値である。その後、単語ベクトル作成部122は、生成した単語ベクトルを単語ベクトルデータベース4に格納する。
The word vector creation unit 122 digitizes words included in the
文書ベクトル作成部123は、障害レポート101の数値化を行う。具体的には、文書ベクトル作成部123は、傾向障害の検出に用いる障害レポート101の入力を文解析部121から受ける。そして、文書ベクトル作成部123は、単語ベクトルデータベース4に格納された単語ベクトルを用いて、各障害レポート101における現象、原因及び対処といった文書をベクトル化して、それぞれの障害レポート101の文書ベクトルを生成する。その後、文書ベクトル作成部123は、文書ベクトルで表された各障害レポート101をデンドログラム作成部124へ出力する。このベクトル化が、「数値化」の一例にあたり、文書ベクトルが「数値化情報」の一例にあたる。そして、この文書ベクトル作成部123が、「数値化部」の一例にあたる。
The document
ここで、文書ベクトル作成部123による文書ベクトルの作成処理の一例を詳細に説明する。入力となるテキスト情報は、障害レポート101において、現象、原因及び対処などのフィールドに分割されて記述されている。文書ベクトル作成部123は、フィールド毎の自由記述文に含まれる単語の単語ベクトルから重心ベクトルを算出する。これにより、文書ベクトル作成部123は、フィールド毎の自由記述文をn次元のベクトルとして表現する。
Here, an example of the document vector creation process by the document
他にも、文書ベクトル作成部123は、自由記述文に含まれる各単語の重みを考慮した重み付き重心ベクトルを採用することも可能である。例えば、文書ベクトル作成部123は、その文書における単語の出現確率が偏っている単語をより重視して重み付けを行っても良い。この場合、文書ベクトル作成部123は、単語をwとして、wの重み=文書におけるwの出現頻度×log(全文書数/wを含む文書数)として算出することができる。また、文書ベクトル作成部123は、算出した重心ベクトルに対して正規化を行ってもよい。例えば、文書ベクトル作成部123は、各重心ベクトルそれぞれのベクトルの長さを1にすることで正規化を行うことができる。
Alternatively, the document
各フィールドの重心ベクトルの算出後、文書ベクトル作成部123は、例えば以下の2つの方法のいずれかを用いて文書ベクトルを求める。1つのベクトル化の方法として、文書ベクトル作成部123は、フィールドから得られたn次元のベクトルの重心を文書ベクトルとして採用する。この場合、1つの文書がn次元のベクトルとして表現される。ここで、文書ベクトル作成部123は、求めた文書のベクトルを正規化して用いてもよい。
After calculating the centroid vector of each field, the document
また、他のベクトル化の方法として、文書ベクトル作成部123は、各フィールドのn次元ベクトルを結合したベクトルを文書ベクトルとして採用しても良い。例えば、現象、原因及び対処の3つのフィールドを用いる場合、障害レポート101は3次元のベクトルとして表現される。この場合も、文書ベクトル作成部123は、求めた文書のベクトルを正規化して用いてもよい。
Further, as another vectorization method, the document
デンドログラム作成部124は、文書ベクトルを用いて表された各障害レポート101の入力を文書ベクトル作成部123から受ける。次に、デンドログラム作成部124は、文書ベクトルの類似度を用いて、類似度が近い障害レポート101を順番にまとめていく階層クラスタ分析を実行する。例えば、デンドログラム作成部124は、各障害レポート101をそれぞれの1つのクラスタとして、文書ベクトルで表されるクラスタ間の距離を用いてクラスタ同士をまとめていくことで、大きなクラスタを生成するcomplete linkを用いる。
The dendrogram creation unit 124 receives input of each
デンドログラム作成部124は、図5に示すように障害レポート101のデンドログラム200を作成する。図5は、デンドログラムの一例を表す図である。デンドログラム200は「樹形図」とも呼ばれ、デンドログラム200を示す情報が、「樹形図情報」の一例にあたる。
The dendrogram creation unit 124 creates a dendrogram 200 of the
図5における最下層のクラスタ201が、それぞれ1つの障害レポート101にあたる。そして、デンドログラム200における1つの分岐点202が、2つのクラスタが統合された1つのクラスタに対応する。デンドログラム作成部124は、作成したデンドログラム200を傾向障害検出部13へ出力する。
Each cluster 201 at the lowest level in FIG. 5 corresponds to one
ここで、実際は非常に多くの障害レポート101を用いてクラスタリングを行うため、デンドログラム200における分岐点202の数が非常に多くなる。また、階層クラスタリングは、計算コストが大きいため計算の処理数を抑えることが好ましい。そこで、例えば、デンドログラム作成部124は、k-means法などの粒度が粗く且つ計算コストが小さい方式を用いて、障害レポート101を大きく分けたうえで、階層クラスタリングを行っても良い。これにより、クラスタリングの処理時間を短縮することができ、且つ、計算コストを低く抑えることが可能となる。
Here, since clustering is actually performed using a very large number of failure reports 101, the number of branch points 202 in the dendrogram 200 becomes very large. Further, since hierarchical clustering requires a large calculation cost, it is preferable to reduce the number of calculation processes. Therefore, for example, the dendrogram creation unit 124 may use a method such as the k-means method that has coarse granularity and low calculation cost to broadly divide the
図4に戻って説明を続ける。傾向障害検出部13は、分岐点評価部131及び抽出部132を有する。
Returning to FIG. 4, the explanation will be continued. The trend
分岐点評価部131は、デンドログラム200の入力をデンドログラム作成部124から受ける。次に、分岐点評価部131は、図5に示すデンドログラム200の各分岐点202を抽出する。そして、分岐点評価部131は、分岐点202毎に増加傾向評価値を算出する。 The branch point evaluation unit 131 receives input of the dendrogram 200 from the dendrogram creation unit 124. Next, the branch point evaluation unit 131 extracts each branch point 202 of the dendrogram 200 shown in FIG. Then, the branch point evaluation unit 131 calculates an increasing tendency evaluation value for each branch point 202.
例えば、分岐点評価部131は、図6に示すように各分岐点202について増加傾向評価値を算出する。図6は、分岐点毎の増加傾向評価値の一例を表す図である。図6におけるクラスタ211~213がそれぞれデンドログラム200における分岐点202におけるクラスタにあたる。
For example, the branch point evaluation unit 131 calculates an increasing tendency evaluation value for each branch point 202 as shown in FIG. FIG. 6 is a diagram showing an example of increasing tendency evaluation values for each branch point.
例えば、分岐点評価部131は、クラスタ212に属する障害の過去6か月の発生件数として(0,1,0,2,2,3)を取得する。ここで、括弧内の数字は、紙面に向かって左から古い順に6か月の古い順の各月の発生件数を表す。次に、分岐点評価部131は、過去6か月の発生件数に対してMann-Kendallの傾向検定を行い単調性の指標となるtau統計量を算出する。ここでは、分岐点評価部131は、クラスタ212においてtau=0.788と算出する。次に、分岐点評価部131は、tauを用いて統計的検定に用いられる増加傾向評価値であるP値を算出する。P値は、偏りがないと考えられる帰無仮説が成立する場合に観測結果以上の偏りが発生する確率である。Mann-Kendallの傾向検定の場合、帰無仮説下では、tau統計量が標準正規分布にしたがうため、分岐点評価部131は、tau統計量からP値を算出することができる。例えば、分岐点評価部131は、クラスタ212のP値を0.788と算出する。 For example, the branch point evaluation unit 131 obtains (0, 1, 0, 2, 2, 3) as the number of occurrences of failures belonging to the cluster 212 in the past six months. Here, the numbers in parentheses represent the number of occurrences in each month in 6-month chronological order starting from the left on the page. Next, the branching point evaluation unit 131 performs a Mann-Kendall trend test on the number of occurrences in the past six months and calculates a tau statistic that is an index of monotony. Here, the branch point evaluation unit 131 calculates tau=0.788 in the cluster 212. Next, the branching point evaluation unit 131 uses tau to calculate the P value, which is an increasing trend evaluation value used in the statistical test. The P value is the probability that a bias greater than the observed result will occur when the null hypothesis that there is no bias holds true. In the case of the Mann-Kendall trend test, the tau statistic follows a standard normal distribution under the null hypothesis, so the branch point evaluation unit 131 can calculate the P value from the tau statistic. For example, the branch point evaluation unit 131 calculates the P value of the cluster 212 as 0.788.
同様に、分岐点評価部131は、クラスタ213に属する障害の過去6か月の発生件数として(1,0,1,1,2,2)を取得する。そして、分岐点評価部131は、クラスタ213のtau統計量を0.701と算出し、P値を0.100と算出する。 Similarly, the branch point evaluation unit 131 obtains (1, 0, 1, 1, 2, 2) as the number of occurrences of failures belonging to the cluster 213 in the past six months. Then, the branch point evaluation unit 131 calculates the tau statistic of the cluster 213 as 0.701, and calculates the P value as 0.100.
次に、分岐点評価部131は、クラスタ212とクラスタ213との過去6か月の発生件数を合計して、クラスタ211に属する障害の過去6か月の発生件数として(1,1,1,3,4,5)を取得する。そして、分岐点評価部131は、クラスタ211のtau統計量を0.894と算出し、P値を0.027と算出する。
Next, the branching point evaluation unit 131 adds up the number of occurrences in the past six months in the clusters 212 and 213, and calculates the number of occurrences in the past six months of failures belonging to the
分岐点評価部131は、このようにP値の算出をデンドログラム200の全ての分岐点202に対応するクラスタついて行う。そして、分岐点評価部131は、各クラスタの増加傾向評価値であるP値を各クラスタの識別情報とともに抽出部132へ出力する。
The branch point evaluation unit 131 thus calculates the P value for the clusters corresponding to all the branch points 202 of the dendrogram 200. Then, the branch point evaluation unit 131 outputs the P value, which is the increasing tendency evaluation value of each cluster, to the
ここで、本実施例では、分岐点評価部131は、デンドログラム200の全ての分岐点202に対応する全てのクラスタに対して増加傾向評価値を算出した。しかし、下層側のクラスタは粒度が細かすぎて有意な増加傾向が認められないことが多い。そこで、分岐点評価部131は、予め決められた数以上の障害レポート101を含むクラスタを選択して、その選択したクラスタに限定して増加傾向評価値を求めて、その選択したクラスタの中から抽出部132に傾向障害を表すクラスタを抽出させても良い。これにより、計算コストを削減することができる。
Here, in this embodiment, the branching point evaluation unit 131 calculated increasing trend evaluation values for all clusters corresponding to all the branching points 202 of the dendrogram 200. However, the granularity of the clusters on the lower layer side is often too fine to show any significant increasing trend. Therefore, the branching point evaluation unit 131 selects clusters including a predetermined number or more of failure reports 101, calculates an increasing trend evaluation value limited to the selected clusters, and The
抽出部132は、デンドログラム200における全ての分岐点202に対応するそれぞれのクラスタの識別情報及び増加傾向評価値であるP値の入力を分岐点評価部131から受ける。そして、分岐点評価部131は、統計的検定として所定の危険率と算出したP値とを比較して各クラスタに有意な増加傾向が認められるか否を判定する。例えば、危険率を5%と設定した場合、P値<0.05であれば、抽出部132は、有意な増加傾向が認められると判定する。
The
例えば、図5におけるクラスタ212のP値は0.788であり危険率5%より大きいので、抽出部132は、クラスタ212において有意な増加傾向は認められないと判定する。同様に、クラスタ213のP値は0.701であり危険率5%より大きいので、抽出部132は、クラスタ213において有意な増加傾向は認められないと判定する。これに対して、クラスタ211のP値は0.027であり危険率5%以下であるので、抽出部132は、クラスタ211において有意な増加傾向が認められると判定する。このように、含まれる障害レポート101の件数が少ないために有意な増加傾向が認められなかったクラスタ212及び213が統合されることにより、有意な増加傾向が認められるクラスタ211が生成される場合がある。
For example, since the P value of cluster 212 in FIG. 5 is 0.788, which is greater than the risk rate of 5%, the
次に、抽出部132は、特定の分岐点202を選択した場合に、その分岐点202を含む階層構造において増加傾向が最大となる分岐点202のクラスタを抽出する。図7は、クラスタの抽出を説明するための図である。例えば、クラスタ223を選択した場合に、クラスタ223に対応する分岐点202を含む階層構造の分岐点202にはクラスタ221、222及び224~229が対応する。その中で、クラスタ221及び227~229は有意な増加傾向が認められず、クラスタ222~226は有意な増加傾向が認められる場合で説明する。なお、この場合のクラスタ221は、クラスタ222を含む下位のクラスタの統合により有意性が消失したと言える。この場合に、クラスタ223の増加傾向がクラスタ222及び224~226の増加傾向よりも大きい、すなわち増加傾向が強ければ、抽出部132は、クラスタ223を抽出する。抽出部132は、このようなクラスタをデンドログラム200の中の全ての分岐点202から抽出する。この抽出部132により抽出されたクラスタが、「特定クラスタ」の一例にあたる。
Next, when a specific branch point 202 is selected, the
この抽出部132によるクラスタの抽出方法の具体例を以下に説明する。抽出部132は、増加傾向評価値であるP値が高い順に各分岐点202に対応するクラスタの識別子をソートした選択リストを作成する。
A specific example of the method for extracting clusters by the
次に、抽出部132は、リストの先頭から順にエントリを抽出する。そして、抽出したエントリのクラスタに有意な増加傾向が認められるか否かを判定する。有意な増加傾向が認められれば、抽出部132は、抽出したエントリを抽出リストに追加する。そして、抽出部132は、抽出したエントリのクラスタに対応する分岐点202の下位の分岐点202に対応するクラスタのエントリを選択リストから削除する。次に、抽出部132は、削除したエントリの間を詰めて選択リストのエントリをソートしなおす。その後、抽出部132は、次の位置のエントリの抽出を行う。
Next, the
これに対して、抽出したエントリのクラスタに有意な増加傾向が認められなければ、抽出部132は、選択リストのそれ以下のエントリに有意な増加傾向が認められるエントリが存在しないので、抽出リストの作成を終了する。そして、抽出部132は、作成した抽出リストに登録されたエントリに対応するクラスタの情報を出力部14へ出力する。ここで、クラスタの情報としては、そのクラスタがどのような障害を表すグループであるかが識別できる情報であればよい。例えば、クラスタの情報は、抽出されたクラスタに属する障害レポート101の情報であっても良いし、そのクラスタに含まれる障害レポート101間で類似度の高い障害に関する単語であっても良い。
On the other hand, if a significant increasing tendency is not recognized in the cluster of extracted entries, the
また、抽出部132は、評価基準に対応させて抽出するクラスタ数の下限や上限を決定しても良い。本実施例では、ある分岐点202におけるクラスタの増加傾向評価値がその分岐点202を含む階層構造において最大の増加傾向評価値であるという条件にあう分岐点202に対応するクラスタを抽出したが、抽出したクラスタの数が下限に達しない場合がある。その場合は、抽出部132は、抽出したクラスタを除いて選択リストを再度作成して、上述した抽出リストを再度作成して前のリストに加えても良い。また、上限を超えた場合には、抽出部132は、増加傾向評価値の高い順に上限に収まる数のクラスタを抽出しても良い。
Further, the
出力部14は、発生率の増加傾向が認められる傾向障害のグループであるクラスタの情報の入力を抽出部132から受ける。そして、出力部14は、取得した各クラスタを発生率の増加傾向が認められる傾向障害のグループであるクラスタとして、その情報を検索結果出力用クライアント端末5へ出力する。
The
利用者は、検索結果出力用クライアント端末5を用いて、発生率の増加傾向が認められる傾向障害のグループであるクラスタの情報を取得する。そして、利用者は、各クラスタの情報を用いてどのような傾向障害が発生しているかを確認する。これにより、利用者は、発生している傾向障害に対する対処を迅速に行うことが可能となる。
The user uses the search result
次に、図8を参照して、本実施例に係る傾向障害検出処理の流れを説明する。図8は、実施例1に係る傾向障害算出処理のフローチャートである。 Next, with reference to FIG. 8, the flow of the trend failure detection process according to this embodiment will be described. FIG. 8 is a flowchart of the trend failure calculation process according to the first embodiment.
障害レポート情報取得部11は、障害レポート入力端末2から送信された障害レポート101を収集する。そして、障害レポート情報取得部11は、収集した障害レポートを障害レポートデータベース3へ送信して、障害レポート101のそれぞれを各エントリとする障害レポート100を障害レポートデータベース3に格納する(ステップS1)。
The failure report
階層クラスタリング部12の文解析部121は、傾向障害の検出処理に用いるデータを有する障害レポート100を障害レポートデータベース3から取得する。そして、文解析部121は、障害レポート100に含まれる各障害レポート101を分析して、障害レポート100に含まれる単語を抽出する。単語ベクトル作成部122は、文解析部121により抽出された単語を、分散表現を用いて表すことで、単語ベクトルを生成する(ステップS2)。その後、単語ベクトル作成部122は、生成した単語ベクトルを単語ベクトルデータベース4に格納する。
The sentence analysis unit 121 of the
文書ベクトル作成部123は、傾向障害の検出に用いる障害レポート101である対象文書を、文解析部121から取得する。そして、文書ベクトル作成部123は、単語ベクトルデータベース4に登録された単語ベクトルを用いて、傾向障害の検出処理の対象文書である各障害レポート101の文書ベクトルを作成する(ステップS3)。その後、文書ベクトル作成部123は、作成した文書ベクトルをデンドログラム作成部124へ出力する。
The document
デンドログラム作成部124は、対象文書群に含まれる各障害レポート101の文ベクトルを文書ベクトル作成部123から取得する。次に、デンドログラム作成部124は、各障害レポート101の文書ベクトルを用いての対象文書群の階層クラスタリングを実行して、デンドログラム200を作成する(ステップS4)。その後、デンドログラム作成部124は、作成したデンドログラム200を傾向障害検出部13の分岐点評価部131へ出力する。
The dendrogram creation unit 124 acquires the sentence vector of each
分岐点評価部131は、デンドログラム作成部124から取得したデンドログラム200の各分岐点202に対応するクラスタの増加傾向評価値を算出する(ステップS5)。そして、分岐点評価部131は、算出した増加傾向評価値とともに各クラスタの識別情報を抽出部132へ出力する。
The branch point evaluation unit 131 calculates the increasing tendency evaluation value of the cluster corresponding to each branch point 202 of the dendrogram 200 obtained from the dendrogram creation unit 124 (step S5). Then, the branch point evaluation unit 131 outputs the identification information of each cluster together with the calculated increasing tendency evaluation value to the
抽出部132は、デンドログラム200の分岐点202のそれぞれに対応する各クラスタの識別情報及び増加傾向評価値を分岐点評価部131から取得する。そして、抽出部132は、増加傾向評価値の高い順にクラスタをソートして並べた選択リストを生成する(ステップS6)。
The
次に、抽出部132は、選択リストにおける選択対象のエントリの先頭からの順番を表すiを1に設定する(ステップS7)。
Next, the
次に、抽出部132は、選択リストのi番目のエントリの抽出を行う(ステップS8)。
Next, the
次に、抽出部132は、i番目のエントリの抽出が成功したか否かを判定する(ステップS9)。i番目のエントリの抽出に失敗した場合(ステップS9:否定)、抽出部132は、ステップS13へ進む。
Next, the
これに対して、i番目のエントリの抽出に成功した場合(ステップS9:肯定)、抽出部132は、そのエントリに対応するクラスタの増加傾向評価値を用いて、そのクラスタにおいて有意な増加傾向が存在するか否かを判定する(ステップS10)。そのクラスタにおいて有意な増加傾向が存在しない場合(ステップS10:否定)、抽出部132は、ステップS13へ進む。
On the other hand, if the extraction of the i-th entry is successful (step S9: affirmative), the
これに対して、そのクラスタにおいて有意な増加傾向が存在する場合(ステップS10:肯定)、抽出部132は、抽出したエントリを抽出リストに追加する(ステップS11)。
On the other hand, if there is a significant increasing trend in that cluster (step S10: affirmative), the
次に、抽出部132は、抽出したエントリに対応する分岐点202の下位の分岐点202に対応するエントリを選択リストから楽所する(ステップS12)。さらに、抽出部132は、選択リストにおけるエントリが削除された部分を詰めて、選択リストに含まれる各エントリに先頭から順に番号を振り直す。その後、抽出部132は、ステップS8へ戻る。
Next, the
一方、エントリの抽出が失敗した場合(ステップS9:否定)及び抽出したエントリで表されるクラスタにおいて有意な増加傾向が認められなかった場合(ステップS10:否定)、抽出部132は、以下の処理を行う。抽出部132は、抽出リストに登録されたエントリに対応するクラスタの情報を出力部14へ出力する。出力部14は、抽出部132から取得したクラスタを、各クラスタの情報を検索結果出力用クライアント端末5へ傾向障害を表すクラスタとして出力する(ステップS13)。
On the other hand, if entry extraction fails (step S9: negative) or if no significant increasing trend is observed in the cluster represented by the extracted entry (step S10: negative), the
以上に説明したように、本実施例に係る傾向障害検出処理では、サーバ装置は、障害レポートのそれぞれの文書ベクトルを求め、その文書ベクトルを用いて階層クラスタリングを行ってデンドログラムを作成する。その後、サーバ装置は、デンドログラムの分岐点に対応するクラスタのうち、優位な増加傾向が認められるクラスタであって、その分岐点を含む階層構造において増加傾向評価値が最大となるクラスタを抽出してその情報を通知する。 As described above, in the trend failure detection process according to the present embodiment, the server device obtains a document vector for each failure report, performs hierarchical clustering using the document vector, and creates a dendrogram. After that, the server device extracts a cluster that has a dominant increasing tendency among the clusters corresponding to the branching points of the dendrogram and has the highest increasing tendency evaluation value in the hierarchical structure that includes the branching point. and notify you of that information.
これにより、増加傾向が最も強く現れる内容粒度のクラスタを自動的に作成することができ、増加傾向にある不具合を高精度に検出することが可能となる。また、同期語辞書などの整備が不要なため人的コストを抑えることができる。したがって、高精度な傾向障害の検出により、不具合の発生に迅速かつ適切に対処することができ、製品の品質を向上させることが可能となる。 As a result, it is possible to automatically create clusters with a content granularity that shows the strongest increasing tendency, and it is possible to detect defects that are increasing with high accuracy. Furthermore, since there is no need to maintain synchronized word dictionaries, human costs can be reduced. Therefore, by detecting trend failures with high accuracy, it is possible to quickly and appropriately deal with the occurrence of defects, and it is possible to improve product quality.
次に、実施例2について説明する。実施例1では、増加傾向にある障害の検出処理を例に説明したが、デンドログラムの分岐点202で算出する評価値を変えることにより他の検出処理にも、本実施例で説明した手法を適用することも可能である。その場合、評価値は、特定のクラスタにおいて、クラスタ内の障害レポート101及びクラスタ外の障害レポート101と顧客名とのクロス集計結果から算出されるカイ二乗統計量である。本実施例では、特定顧客に特異的に多い障害を発見する処理について説明する。本実施例に係るサーバ装置1も図3及び4で表される。以下の説明では、実施例1と同様の各部の動作は説明を省略する場合がある。
Next, Example 2 will be explained. In Example 1, the detection process for a disorder that is on the rise is explained as an example, but the method described in this example can be applied to other detection processes by changing the evaluation value calculated at the branch point 202 of the dendrogram. It is also possible to apply In that case, the evaluation value is a chi-square statistic calculated from the cross-tabulation results of the
図9は、特定顧客に特異的に多い障害の検出処理における階層クラスタの一部を表す図である。図9では、クラスタ毎に、顧客Aで発生した障害と、顧客A以外の顧客で発生した障害と、そのクラスタに含まれない顧客Aで発生した障害と、そのクラスタに含まれない顧客A以外の顧客で発生した障害と、そのクラスタでのカイ二乗統計量が示される。 FIG. 9 is a diagram showing part of a hierarchical cluster in the process of detecting failures that are uniquely common to specific customers. In Figure 9, for each cluster, there are failures that occur at customer A, failures that occur at customers other than customer A, failures that occur at customer A that is not included in that cluster, and customers other than A that are not included in that cluster. It shows the failures that occurred for customers and the chi-square statistic for that cluster.
例えば,クラスタ301は、顧客Aで発生した8件の障害及びそれ以外の顧客で発生した2件の障害の計10件の障害を含むクラスタである。そして、クラスタ301に含まれない障害には、顧客Aで発生した17件の障害及びそれ以外の顧客で発生した99973件の障害が含まれる。そして、クラスタ301のけるカイ二乗統計量は、22493である。
For example,
階層クラスタリング部12のデンドログラム作成部124は、実施例1と同様に、検出処理で用いられる障害レポート101の文書ベクトルを用いて階層クラスタリングを実行して、図9で示すような階層を一部に有するデンドログラム200を作成する。
Similarly to the first embodiment, the dendrogram creation unit 124 of the
傾向障害検出部13の分岐点評価部131は、デンドログラム200の各分岐点202に対応するクラスタ毎の評価値であるカイ二乗統計量を算出する。
The branch point evaluation unit 131 of the trend
カイ二乗統計量は、値が大きいほど顧客Aの特異性が強いことを表す。すなわち、図9では、クラスタ302が、顧客Aの特異性が最も強く現れている。抽出部132は、顧客Aで発生した障害において有意な特異性が認められ、且つ、そのクラスタを含む階層構造において、そのクラスタのカイ二乗統計量で表される評価値が最大となる分岐点202に対応するクラスタを抽出する。これにより、顧客Aに特異的に多い障害を表すクラスタが抽出される。
The larger the value of the chi-square statistic, the stronger the specificity of customer A is. That is, in FIG. 9, cluster 302 exhibits the strongest peculiarity of customer A. The
利用者は、サーバ装置1により抽出されたクラスタで表される障害を確認することで、特定の顧客において特異的に多い障害を発見することができ、特定の顧客に対して迅速で適切な対応を行うことができる。
By checking the failures represented by the clusters extracted by the
(ハードウェア構成)
図10は、サーバ装置のハードウェア構成図である。図10に示すように、サーバ装置1は、CPU91、メモリ92、ハードディスク93及びネットワークインタフェース94を有する。CPU91は、バスを介して、メモリ92、ハードディスク93及びネットワークインタフェース94に接続される。
(Hardware configuration)
FIG. 10 is a hardware configuration diagram of the server device. As shown in FIG. 10, the
ネットワークインタフェース94は、ネットワーク6及び検索結果出力用クライアント端末5との通信用のインタフェースである。CPU91は、ネットワークインタフェース94を介して、障害レポート入力端末2や検索結果出力用クライアント端末5と通信を行う。
The
ハードディスク93は、補助記憶装置である。ハードディスク93は、図3に例示した障害レポート情報取得部11、階層クラスタリング部12、傾向障害検出部13及び出力部14の機能を実現するためのプログラムを含む各種プログラムを格納する。
The
また、本実施例では、障害レポートデータベース3及び単語ベクトルデータベース4をサーバ装置1の外部に配置したが、サーバ装置1がそれらを保持する構成でもよい。その場合、ハードディスク93が、障害レポートデータベース3及び単語ベクトルデータベース4の機能を実現する。
Further, in this embodiment, the
CPU91は、ハードディスク93に格納された各種プログラムを読み出してメモリ92に展開して実行する。これにより、CPU91及びメモリ92は、図3に例示した障害レポート情報取得部11、階層クラスタリング部12、傾向障害検出部13及び出力部14の機能を実現する。
The CPU 91 reads various programs stored in the
1 サーバ装置
2 障害レポート入力端末
3 障害レポートデータベース
4 単語ベクトルデータベース
5 検索結果出力用クライアント端末
6 ネットワーク
10 傾向障害検出システム
11 障害レポート情報取得部
12 階層クラスタリング部
13 傾向障害検出部
14 出力部
121 文解析部
122 単語ベクトル作成部
123 文書ベクトル作成部
124 デンドログラム作成部
131 分岐点評価部
132 抽出部
1
Claims (7)
前記文書情報のそれぞれの内容を数値化して数値化情報を算出し、
前記数値化情報を基に階層クラスタリングを行って樹形図を示す樹形図情報を生成し、
前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応するクラスタに属する前記文書情報の特徴を特定し、
前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応する前記クラスタに含まれる特定クラスタであって、前記特徴が有意性を有し、且つ、対応する前記分岐点を含む階層構造における上位の前記分岐点及び下位の分岐点に対応する前記クラスタよりも強い前記特徴を有する前記特定クラスタを抽出し、
前記抽出した前記特定クラスタの情報を出力する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。 Get multiple document information,
digitizing each content of the document information to calculate quantified information;
Performing hierarchical clustering based on the digitized information to generate dendrogram information indicating a dendrogram;
identifying features of the document information belonging to clusters corresponding to a plurality of branch points of the tree diagram indicated by the tree diagram information;
A specific cluster included in the cluster corresponding to a plurality of branch points included in the tree diagram indicated by the tree diagram information, the feature having significance, and a hierarchy including the corresponding branch point. extracting the specific cluster having the feature stronger than the cluster corresponding to the upper branching point and the lower branching point in the structure;
An information processing program that causes a computer to execute a process of outputting the extracted information on the specific cluster.
前記文書情報に関連付けられた前記時刻を基に、前記特徴として前記文書情報で示される事象の増減傾向を特定し、
前記増減傾向が有意性を有し、且つ、対応する前記分岐点を含む階層構造における前記上位の分岐点及び前記下位の分岐点に対応する前記クラスタよりも前記増減傾向が強い前記特定クラスタを抽出する
処理をコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。 The document information is information associated with time,
Based on the time associated with the document information, identifying an increase/decrease trend in events indicated by the document information as the feature;
Extracting the specific cluster in which the increase/decrease tendency has significance and the increase/decrease tendency is stronger than the cluster corresponding to the upper branch point and the lower branch point in the hierarchical structure including the corresponding branch point. The information processing program according to claim 1, causing a computer to execute the processing.
前記特徴として前記文書情報で示される事象の、特定の前記発生場所における発生傾向を特定し、
前記発生傾向が有意性を有し、且つ、対応する前記分岐点を含む階層構造における前記上位の分岐点及び前記下位の分岐点に対応する前記クラスタよりも前記発生傾向が強い前記特定クラスタを抽出する
処理をコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。 The document information is information indicating an event associated with an occurrence location,
Identifying the occurrence tendency of the event indicated by the document information as the characteristic at the specific occurrence location,
Extracting the specific cluster in which the occurrence tendency has significance and the occurrence tendency is stronger than the cluster corresponding to the upper branch point and the lower branch point in the hierarchical structure including the corresponding branch point. The information processing program according to claim 1, causing a computer to execute the processing.
前記文書情報のそれぞれの内容を数値化して数値化情報を算出し、
前記数値化情報を基に階層クラスタリングを行って樹形図を示す樹形図情報を生成し、
前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応するクラスタに属する前記文書情報の特徴を特定し、
前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応する前記クラスタに含まれる特定クラスタであって、前記特徴が有意性を有し、且つ、対応する前記分岐点を含む階層構造における上位の前記分岐点及び下位の前記分岐点に対応する前記クラスタよりも強い前記特徴を有する前記特定クラスタを抽出し、
前記抽出した前記特定クラスタの情報を出力する
処理をコンピュータに実行させることを特徴とする情報処理方法。 Get multiple document information,
digitizing each content of the document information to calculate quantified information;
Performing hierarchical clustering based on the digitized information to generate dendrogram information indicating a dendrogram;
identifying features of the document information belonging to clusters corresponding to a plurality of branch points of the tree diagram indicated by the tree diagram information;
A specific cluster included in the cluster corresponding to a plurality of branch points included in the tree diagram indicated by the tree diagram information, the feature having significance, and a hierarchy including the corresponding branch point. extracting the specific cluster having the feature stronger than the cluster corresponding to the upper branching point and the lower branching point in the structure;
outputting information on the extracted specific cluster;
An information processing method characterized by causing a computer to perform processing .
前記数値化情報を基に階層クラスタリングを行って樹形図を示す樹形図情報を生成するデンドログラム作成部と、
前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応するクラスタに属する前記文書情報の特徴を特定する分岐点評価部と、
前記樹形図情報が示す前記樹形図が有する複数の分岐点に対応する前記クラスタに含まれる特定クラスタであって、前記特徴が有意性を有し、且つ、対応する前記分岐点を含む階層構造における上位の前記分岐点及び下位の前記分岐点に対応する前記クラスタよりも強い前記特徴を有する前記特定クラスタを抽出する抽出部と、
前記抽出した前記特定クラスタの情報を出力する出力部と
を備えたことを特徴とする情報処理装置。 a digitization unit that obtains a plurality of pieces of document information and digitizes the content of each of the document information to calculate digitized information;
a dendrogram creation unit that performs hierarchical clustering based on the numerical information to generate dendrogram information indicating a dendrogram;
a branching point evaluation unit that identifies characteristics of the document information belonging to a cluster corresponding to a plurality of branching points of the tree diagram indicated by the tree diagram information;
A specific cluster included in the cluster corresponding to a plurality of branch points included in the tree diagram indicated by the tree diagram information, the feature having significance, and a hierarchy including the corresponding branch point. an extraction unit that extracts the specific cluster having the characteristic stronger than the cluster corresponding to the upper branching point and the lower branching point in the structure;
An information processing device comprising: an output unit that outputs the extracted information on the specific cluster.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020090137A JP7447674B2 (en) | 2020-05-22 | 2020-05-22 | Information processing program, information processing method, and information processing device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020090137A JP7447674B2 (en) | 2020-05-22 | 2020-05-22 | Information processing program, information processing method, and information processing device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021184224A JP2021184224A (en) | 2021-12-02 |
| JP7447674B2 true JP7447674B2 (en) | 2024-03-12 |
Family
ID=78767437
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020090137A Active JP7447674B2 (en) | 2020-05-22 | 2020-05-22 | Information processing program, information processing method, and information processing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7447674B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001092825A (en) | 1999-09-17 | 2001-04-06 | Nec Corp | Device and method for processing information |
| JP2008299382A (en) | 2007-05-29 | 2008-12-11 | Fujitsu Ltd | Data division program, recording medium recording the program, data division apparatus, and data division method |
| JP2009277136A (en) | 2008-05-16 | 2009-11-26 | Mitsubishi Electric Corp | Similarity analysis evaluation system |
| US20140137076A1 (en) | 2012-11-13 | 2014-05-15 | International Business Machines Corporation | Indicating hierarchy diversion in a class diagram |
-
2020
- 2020-05-22 JP JP2020090137A patent/JP7447674B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001092825A (en) | 1999-09-17 | 2001-04-06 | Nec Corp | Device and method for processing information |
| JP2008299382A (en) | 2007-05-29 | 2008-12-11 | Fujitsu Ltd | Data division program, recording medium recording the program, data division apparatus, and data division method |
| JP2009277136A (en) | 2008-05-16 | 2009-11-26 | Mitsubishi Electric Corp | Similarity analysis evaluation system |
| US20140137076A1 (en) | 2012-11-13 | 2014-05-15 | International Business Machines Corporation | Indicating hierarchy diversion in a class diagram |
Non-Patent Citations (2)
| Title |
|---|
| 川原 大弥、外6名,時系列観測データによるマルウェア発生分布の解析,2020年 暗号と情報セキュリティシンポジウム予稿集 [online],日本,電子情報通信学会情報セキュリティ(ISEC)研究会,2020年01月28日,p.1-8 |
| 水田 昌孝、外2名,LDAと時間フィルタを用いた文書ストリームからのバースト潜在トピック抽出,第87回 知識ベースシステム研究会資料 (SIG-KBS-A902),日本,社団法人人工知能学会,2010年01月20日,p.25-30 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021184224A (en) | 2021-12-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI723528B (en) | Computer-executed event risk assessment method and device, computer-readable storage medium and computing equipment | |
| US11449673B2 (en) | ESG-based company evaluation device and an operation method thereof | |
| CN110109835B (en) | Software defect positioning method based on deep neural network | |
| US20200081899A1 (en) | Automated database schema matching | |
| US12026467B2 (en) | Automated learning based executable chatbot | |
| US20190370601A1 (en) | Machine learning model that quantifies the relationship of specific terms to the outcome of an event | |
| CN111612041A (en) | Abnormal user identification method and device, storage medium and electronic equipment | |
| CN110288004A (en) | A system fault diagnosis method and device based on log semantic mining | |
| CN112527958A (en) | User behavior tendency identification method, device, equipment and storage medium | |
| US9489379B1 (en) | Predicting data unavailability and data loss events in large database systems | |
| US10783453B2 (en) | Systems and methods for automated incident response | |
| CN117971606B (en) | Log management system and method based on elastic search | |
| CN111738589A (en) | Workload evaluation method, device and equipment for big data project based on content recommendation | |
| CN112256865B (en) | Chinese text classification method based on classifier | |
| JP7223549B2 (en) | Information operation device and information operation method | |
| KR101625124B1 (en) | The Technology Valuation Model Using Quantitative Patent Analysis | |
| CN112632990B (en) | Label acquisition method, device, equipment and readable storage medium | |
| CN115170027A (en) | Data analysis method, device, equipment and storage medium | |
| US20130198147A1 (en) | Detecting statistical variation from unclassified process log | |
| JP7447674B2 (en) | Information processing program, information processing method, and information processing device | |
| CN119180266A (en) | Historical data-based audit opinion generation method, device and equipment | |
| WO2025071815A1 (en) | Data health evaluation using generative language models | |
| CN115146890A (en) | Enterprise operation risk warning method and device, computer equipment and storage medium | |
| CN110837843A (en) | Information classification method and device, computer equipment and storage medium | |
| CN111930545A (en) | Program script processing method and device and server |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230209 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231027 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231128 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240118 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240130 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240212 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7447674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |