JP4909830B2 - Server application monitoring system and monitoring method - Google Patents
Server application monitoring system and monitoring method Download PDFInfo
- Publication number
- JP4909830B2 JP4909830B2 JP2007183296A JP2007183296A JP4909830B2 JP 4909830 B2 JP4909830 B2 JP 4909830B2 JP 2007183296 A JP2007183296 A JP 2007183296A JP 2007183296 A JP2007183296 A JP 2007183296A JP 4909830 B2 JP4909830 B2 JP 4909830B2
- Authority
- JP
- Japan
- Prior art keywords
- measurement
- server
- combination
- server application
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Description
本発明は、サーバアプリケーション監視システム及び監視方法に係り、特に、クライアント/サーバ型システムのサーバアプリケーションの性能を監視するサーバアプリケーション監視システム及び監視方法に関する。 The present invention relates to a server application monitoring system and a monitoring method, and more particularly to a server application monitoring system and a monitoring method for monitoring the performance of a server application in a client / server type system.
クライアント/サーバ型システムのサーバアプリケーションの性能を監視する方法として、サーバアプリケーションに対する処理要求やトランザクションを擬似実行するエージェントまたはプローブと呼ばれるプログラムを導入した計測エージェント装置をサーバアプリケーションの利用者が居るクライアント側の拠点に配備し、サーバ監視マネージャプログラムを導入したサーバ監視装置がその計測エージェント装置を制御するサーバアプリケーション監視システムが知られている。このようなサーバアプリケーション監視システムは、計測エージェント装置からの処理要求やトランザクションに対するサーバアプリケーションの応答時間や要求に対する一連の処理にかかる時間を計測すること等によりサーバアプリケーションの性能を評価している。この方法は、実際のユーザの体感速度としてのサーバアプリケーションの性能を評価することができる。 As a method for monitoring the performance of a server application in a client / server type system, a measurement agent device installed with a program called an agent or a probe that simulates a processing request or transaction for the server application is installed on the client side where the user of the server application is located. There is known a server application monitoring system in which a server monitoring apparatus deployed at a base and installed with a server monitoring manager program controls the measurement agent apparatus. Such a server application monitoring system evaluates the performance of a server application by measuring the response time of a server application to a processing request from a measurement agent device or a transaction, and the time required for a series of processing for the request. This method can evaluate the performance of the server application as the actual user experience speed.
そして、前述した従来技術は、複数の計測エージェントプログラムが定期的にサーバアプリケーションの性能を計測することにより、サーバアプリケーションに問題が発生した場合に、その発生をすぐに検知することができるという利点を有している。 The above-described conventional technology has an advantage that when a problem occurs in the server application, a plurality of measurement agent programs periodically measure the performance of the server application, so that the occurrence can be detected immediately. Have.
         
  また、サーバアプリケーションの性能を監視する他の従来技術として、例えば、前述した計測エージェントプログラムを利用する技術を、特許文献1に記載のようなネットワーク監視システムと連携して使用することにより、あるいは、特許文献2に記載のようなネットワーク機器稼動監視システムと連携して使用することにより、問題の発生箇所を特定するという技術が知られている。そして、これらの従来技術は、特定した問題をシステム管理者に通知することにより、システム管理者が早期に問題を解決することができるように支援をすることが可能である。
 
前述した計測エージェントプログラムを利用する従来技術は、計測エージェント装置が定期的に計測を行っているだけのもので、サーバ監視装置が問題の原因をすぐには判定することができず、また、問題が発生したことを監視対象システムの管理者に通知することはできるが、問題の原因の特定作業や問題からの復旧作業を、監視対象システムの管理者が全て行わなければならないという問題点を有している。 The prior art using the measurement agent program described above is a method in which the measurement agent device only periodically measures, and the server monitoring device cannot immediately determine the cause of the problem. However, there is a problem that the administrator of the monitored system must perform all the work to identify the cause of the problem and to recover from the problem. is doing.
また、ネットワーク監視システムやネットワーク機器稼動監視システム等と連携する従来技術は、問題の原因を判定することはできるが、その問題の原因の判定をするために使用した監視の結果が、ユーザの体感速度としてサーバアプリケーションの性能を評価した結果と一致しない場合があるという問題点を有している。さらに、これらの従来技術は、問題が発生した後で、計測エージェント装置からサーバアプリケーションへの計測が、問題が発生しているネットワークやサーバ、サーバアプリケーションに更なる負荷をかけてしまう場合があるという問題点を有している。 In addition, the conventional technology linked with the network monitoring system and the network equipment operation monitoring system can determine the cause of the problem, but the monitoring result used to determine the cause of the problem is the result of the user's experience. There is a problem that there is a case where the speed does not coincide with the result of evaluating the performance of the server application. In addition, these conventional technologies have a problem that, after a problem occurs, measurement from the measurement agent device to the server application may place an additional load on the network, server, or server application in which the problem occurs. Has a problem.
本発明の目的は、前述した従来技術の問題点を解決し、ネットワーク監視システムやネットワーク機器稼動監視システム等の他の監視システムを利用することなく、サーバアプリケーションの性能を監視し、問題の発生を検出した場合にその問題の原因を判定し、問題からの回復を行うことができるサーバアプリケーション監視システム及び監視方法を提供することにある。 The object of the present invention is to solve the above-mentioned problems of the prior art, monitor the performance of server applications without using other monitoring systems such as a network monitoring system and a network equipment operation monitoring system, and It is an object of the present invention to provide a server application monitoring system and a monitoring method capable of determining the cause of the problem when detected and recovering from the problem.
           
  本発明によれば前記目的は、複数のサーバアプリケーションを実行する複数のサーバと、複数の計測エージェント装置と、前記サーバを監視するサーバ監視装置とを備えたサーバアプリケーション監視システムにおけるサーバアプリケーション監視方法において、
  前記サーバ監視装置は、 
  前記サーバアプリケーション及び前記測定エージェント装置の組み合わせに対して、優先度、しきい値及び計測間隔を予め格納し、 
  前記計測間隔に従って、複数の前記計測エージェント装置に対して指定した前記サーバアプリケーションの計測指示を繰り返し送信し、 
  前記計測エージェント装置は、 
  前記サーバ監視装置からの計測指示に応じて、指示された前記サーバアプリケーションに対して処理を要求してから要求した処理の結果を受領するまでの応答時間を計測し、前記計測した応答時間を、前記サーバ監視装置に送信し、 
  前記サーバ監視装置は、 
  複数の前記計測エージェント装置から前記応答時間を繰り返し受信し、 
  前記計測エージェント装置から受信した前記応答時間と前記しきい値とを比較することにより、前記しきい値を超過した前記応答時間を送信してきた前記計測エージェント装置と、測定対象とした前記サーバアプリケーションとを含む第1の組み合わせを抽出し、 
  前記第1の組み合わせに関連し、前記サーバアプリケーション及び前記計測エージェント装置とを含む第2の組み合わせを1つ以上求め、 
  前記第1の組み合わせの優先度と、1つ以上の前記第2の組み合わせの優先度と、の平均値を算出し、 
  算出した前記平均値と、前記第1の組み合わせの優先度及び1つ以上の前記第2の組み合わせの優先度とを比較することにより、前記平均値より高い優先度を持つ第3の組み合わせを前記第1の組み合わせ及び1つ以上の前記第2の組み合わせから求め、 
  前記第3の組み合わせに含まれる第3のサーバアプリケーションに対する応答時間の計測指示を、前記第3の組み合わせにに対応するアプリケーション計測間隔より短い時間間隔で、前記第3の組み合わせに含まれる第3の計測エージェント装置に対して送信し、 
  前記平均値より低い優先度を持つ第4の組み合わせを前記第1の組み合わせ及び1つ以上の前記第2の組み合わせから求め、 
  前記第4の組み合わせに含まれる第4のサーバアプリケーションに対する応答時間の計測指示の、前記第4の組み合わせに含まれる第4の計測エージェント装置への繰り返し送信を一時停止することにより達成される。
According to the present invention, the object is a server application monitoring method in a server application monitoring system comprising a plurality of servers that execute a plurality of server applications, a plurality of measurement agent devices, and a server monitoring device that monitors the servers. , 
 The server monitoring device 
 For the combination of the server application and the measurement agent device, the priority, threshold value and measurement interval are stored in advance, 
 According to the measurement interval, repeatedly transmits a measurement instruction of the specified server application to a plurality of the measurement agent devices, 
 The measurement agent device includes: 
 In response to a measurement instruction from the server monitoring device, measure a response time from requesting processing to the instructed server application until receiving a result of the requested processing, and measuring the measured response time, Sent to the server monitoring device, 
 The server monitoring device 
 Repeatedly receiving the response time from a plurality of the measurement agent devices, 
 By comparing the response time received from the measurement agent device with the threshold value, the measurement agent device that has transmitted the response time exceeding the threshold value, and the server application as a measurement target, Extract the first combination containing 
 Obtaining one or more second combinations related to the first combination, including the server application and the measurement agent device; 
 Calculating an average value of the priority of the first combination and the priority of one or more of the second combinations; 
 By comparing the calculated average value with the priority of the first combination and the priority of one or more of the second combinations, a third combination having a higher priority than the average value is obtained. Determining from a first combination and one or more of the second combinations; 
 The response time measurement instruction for the third server application included in the third combination is sent to the third combination included in the third combination at a time interval shorter than the application measurement interval corresponding to the third combination. Sent to the measurement agent device, 
 Determining a fourth combination having a lower priority than the average value from the first combination and the one or more second combinations; 
 This is achieved by suspending the repeated transmission of the response time measurement instruction for the fourth server application included in the fourth combination to the fourth measurement agent device included in the fourth combination .
        
本発明によれば、ネットワーク監視システムやネットワーク機器稼動監視システム等の他の監視システムを利用することなく、サーバアプリケーションの性能に関わる問題の発生を検出し、かつ、問題の発生を検出してから直ちに問題の原因を判定し、システム管理者に復旧作業を行わせる必要をなくして問題からの復旧を実施し、問題が発生した場合でも、ネットワーク、サーバ、サーバアプリケーション等に更なる負荷をかけずにサーバアプリケーションの監視を継続することができ、サーバアプリケーションの運用及び監視に関わる負担を軽減することができる。 According to the present invention, the occurrence of a problem related to the performance of a server application is detected without using another monitoring system such as a network monitoring system or a network equipment operation monitoring system, and the occurrence of the problem is detected. Immediately determine the cause of the problem, eliminate the need for the system administrator to perform recovery work, and perform recovery from the problem. Even if a problem occurs, no additional load is placed on the network, server, server application, etc. In addition, monitoring of the server application can be continued, and the burden on the operation and monitoring of the server application can be reduced.
以下、本発明によるサーバアプリケーション監視システム及び監視方法の実施形態を図面により詳細に説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments of a server application monitoring system and a monitoring method according to the present invention will be described in detail with reference to the drawings.
図1は本発明の一実施形態によるサーバアプリケーション監視システムの全体の構成を示すブロック図である。 FIG. 1 is a block diagram showing the overall configuration of a server application monitoring system according to an embodiment of the present invention.
         
  本発明の実施形態によるサーバアプリケーション監視システムは、サーバ監視装置100、計測エージェント装置120、サーバ資源管理装置140、1または複数のサーバ150、1または複数のクライアント160がネットワーク130に接続されて構成されている。
  The server application monitoring system according to the embodiment of the present invention is configured by connecting a 
         
  なお、図1に示すサーバアプリケーション監視システムは、1台の計測エージェント装置120が設けられているとして示しているが、計測エージェント装置120は、複数台備えられていてよく、図1では図面の簡素化のため、そのうち1台の計測エージェント装置120だけを示している。また、図面の簡素化のため、図1には、2台のサーバ150と1台のサーバ資源管理装置140との組み合わせを1組のみ示しているが、3台以上のサーバ150と1台のサーバ資源管理装置との組み合わせを設けることも、この組み合わせを複数組設けることも可能である。
  The server application monitoring system shown in FIG. 1 is shown as having one 
         
  前述したような構成のサーバアプリケーション監視システムにおいて、監視マネージャとして動作するサーバ監視装置100は、定められた監視スケジュールに従って監視エージェントとして動作する計測エージェント装置120に監視対象であるサーバ150で動作するサーバアプリケーション151の監視を指示し、計測エージェント装置120は、サーバアプリケーション151と定められた通信を行うと共に、その通信に要する時間を計測し、サーバ監視装置100に監視の結果として計測した通信に要した時間を報告する。そして、サーバ監視装置100は、報告された監視の結果と定められたしきい値とを比較することにより問題の発生を検知し、問題箇所を特定するために監視スケジュールを変更して監視を実施し、監視スケジュールを変更して実施した監視の結果を解析することにより問題の範囲の特定を行い、特定した問題の範囲に応じて監視スケジュールを調整し、特定した問題の範囲に応じて問題から回復するための処理の実施をサーバ資源管理装置140に対して指示する。
  In the server application monitoring system configured as described above, the 
         
  サーバ監視装置100は、プロセッサ(CPU)104と、メモリ101とを有して構成され、通信インタフェース102を介してネットワーク130に接続されている。また、サーバ監視装置100は、ディスクインターフェース103を介してハードディスクドライブ等の記憶装置109に接続されている。プロセッサ104は、記憶装置109に格納されていて、メモリ101にロードされてメモリ101内に格納されたサーバ監視マネージャプログラム105を実行することにより、サーバ監視装置100を監視マネージャとして動作させる。
  The 
         
  サーバ監視マネージャプログラム105は、計測制御処理を実行する計測制御部106、計測結果解析処理を実行する計測結果解析部107、回復手段実施処理を実行する回復手段実施部108により構成される。サーバ監視マネージャプログラム105は、各処理を実行するときに、記憶装置109に格納された計測情報テーブル群110及び計測結果テーブル111の読み込み及び書き込みを行う。
  The server 
         
  計測エージェント装置120は、プロセッサ122とメモリ121とを有して構成され、通信インタフェース124を介してネットワーク130に接続されている。また、計測エージェント装置120は、ディスクインターフェース123を介してハードディスクドライブ等の記憶装置127に接続されている。プロセッサ122は、記憶装置127に格納されていて、メモリ121にロードされてメモリ121内に格納されたサーバ監視エージェントプログラム125を実行することにより、計測エージェント装置120を監視エージェントとして動作させる。
  The 
         
  サーバ監視エージェントプログラム125は、計測実施処理を実行する計測実施処理部126により構成され、計測実施処理を実行するときに、記憶装置127に格納された計測データテーブル128の読み込み及び書き込みを行う。
  The server 
         
  クライアント160は、その詳細な構成を示していないが、PC等に代表される情報処理装置であり、CPU、メモリ、通信インタフェース、ハードディスク等の記憶装置、表示装置等の出力装置及びキーボード、マウス等の入力装置を備えて構成される。そして、クライアント160のメモリには、クライアントアプリケーションがロードされて、CPUは、このクライアントアプリケーション161の実行を制御すると共に、サーバ150内のサーバアプリケーション151を利用したサービスをユーザに対して提供する。
  Although the detailed configuration of the 
         
  図2はサーバ150の構成例を示すブロック図である。サーバ150は、プロセッサ201とメモリ200とを有して構成され、通信インタフェース203を介してネットワーク130に接続されている。また、サーバ150は、ディスクインターフェース202を介してハードディスクドライブ等の記憶装置204に接続されている。プロセッサ201は、記憶装置204に格納されていて、メモリ200にロードされてメモリ200内に格納されたサーバアプリケーションプログラム205、Webサーバプログラム、Webサーバプログラム上で動作するWebアプリケーションプログラム207等を実行する。
  FIG. 2 is a block diagram illustrating a configuration example of the 
         
  本発明の実施形態によるサーバアプリケーション監視システムは、これらのアプリケーションプログラム205、Webアプリケーションプログラム207等を監視対象としている。
  The server application monitoring system according to the embodiment of the present invention targets these 
         
  図3はサーバ資源管理装置140の構成例を示すブロック図である。図3に示すサーバ資源管理装置140は、負荷分散装置300により構成されるものとしている。
  FIG. 3 is a block diagram illustrating a configuration example of the server 
         
  負荷分散装置300は、ネットワーク130から受け付けるサーバ150に対する通信の負荷分散を行う負荷分散処理部301、サーバ150の稼動状況を監視するサーバ監視部302、サーバ150に割り当てる資源を制御するサーバ資源制御部303、サーバ管理者や外部にあるソフトウェアに対してコマンドラインインタフェース等のサーバ資源の制御手段を提供するサーバ資源制御手段提供部304により構成される。
  The 
         
  図3に示した負荷分散装置300の例は、ハードウェアにより実現されるものとして示しているが、ハードウェアで実現された負荷分散装置もソフトウェアで実現された負荷分散装置も広く一般的に知られて存在する。負荷分散装置300をソフトウェアにより構成する場合、負荷分散装置300を、プロセッサとメモリとを有して構成し、通信インタフェースを介してネットワーク130に接続し、また、ディスクインターフェースを介してハードディスクドライブ等の記憶装置に接続しておき、プロセッサが、記憶装置に格納されていて、メモリにロードされてそのメモリに格納されたプログラムを実行することにより、前述で説明した各機能部を構築するようにすればよい。
  The example of the 
         
  前述では、サーバ資源管理装置140の例として負荷分散装置300を挙げて説明したが、サーバ資源管理装置140としては、サーバが提供する論理パーティション機能やソフトウェアが提供する仮想サーバ機能、ネットワーク機器が提供する帯域制御機能等、広く一般的に存在するサーバの資源を管理するソフトウェア及びハードウェアを利用することができる。本発明の実施形態を構成するサーバ資源管理装置140は、外部にあるソフトウェアに対してサーバ資源の制御手段を提供することのみを前提とし、その構成や実現方法は限定しない。
  In the above description, the 
         
  図4はサーバ監視装置100の記憶装置109に格納されている計測情報テーブル群110を構成するテーブルを示す図である。
  FIG. 4 is a diagram showing the tables constituting the measurement 
         
  計測情報テーブル群110は、通信時間の計測を行う対象のサーバアプリケーション151の情報を定義している計測対象テーブル401と、個々の計測に対する設定情報を定義している計測設定テーブル402と、計測のスケジュールを格納する計測間隔テーブル403と、問題の発生を検知したときに問題の管理情報を格納する問題管理テーブル404と、問題から回復するための手段の情報を定義している回復手段テーブル405とにより構成される。
  The measurement 
図5は図4に示す計測対象テーブル401の構成例を示す図である。 FIG. 5 is a diagram showing a configuration example of the measurement target table 401 shown in FIG.
         
  計測対象テーブル401は、通信時間の計測を行う監視対象としてのサーバアプリケーション151の情報を定義しているテーブルであり、計測の対象となるサーバアプリケーション151の名前または識別子を登録する対象アプリケーション列504と、サーバアプリケーション151が実行されているサーバ150のIPアドレスまたはホスト名を登録する対象サーバ列503と、サーバアプリケーション151が実行されるサーバ150が属するサーバネットワークのネットワークアドレスまたはネットワーク名を登録する対象ネットワーク列502と、1組の定義を一意に識別する数字または記号からなる対象IDを登録する対象ID列501とにより構成される。対象ID列501以外の列の定義は、サーバ監視マネージャプログラム105の利用者が登録する。
  The measurement target table 401 is a table defining information of the 
         
  例えば、ネットワーク名Network1を持つネットワークにあるホスト名Server1を持つサーバ150で動作する名前AP1を持つサーバアプリケーション151を計測対象として登録するには、対象ネットワーク列502にNetwork1、対象サーバ列503にServer1、対象アプリケーション列504にAP1を定義する。対象ID列501は、サーバ監視マネージャプログラム105によってT1が対象IDとして割り当てられる。
  For example, in order to register the 
図6は図4に示す計測設定テーブル402の構成例を示す図である。 FIG. 6 is a diagram showing a configuration example of the measurement setting table 402 shown in FIG.
         
  計測設定テーブル402は、計測を実行する計測エージェント装置120と計測の対象であるサーバアプリケーション151との組み合わせで決まる個々の計測に対する設定情報を定義しているテーブルであり、図5に示した計測対象テーブル401で定義した対象ID列501の対象IDを登録する対象ID列602と、計測を実行する計測エージェント装置120のIPアドレスまたはホスト名を登録する計測実行エージェント列603と、その計測をどれだけ優先して行うかの評価を最も高い10から最も低い1までの整数で表す優先度を登録する優先度列604と、その計測の結果として得られる通信時間を評価するしきい値となる時間を登録するしきい値列605と、その計測を実行する間隔を登録する計測間隔列606と、1組の定義を一意に識別する数字または記号からなる計測IDを登録する計測ID列601とにより構成される。計測ID列601以外の列の定義は、サーバ監視マネージャプログラム105の利用者が登録する。
  The measurement setting table 402 is a table that defines setting information for each measurement determined by a combination of the 
         
  例えば、対象IDとしてT1が割り当てられた計測対象を、ホスト名Agent1を持つ計測エージェント装置120で計測し、その優先度を10、そのしきい値を0.3秒、計測を実行する間隔を300秒として登録するには、対象ID列602にT1、測定実行エージェント列603にAgent1、優先度列604に10、しきい値列605に0.3秒、計測間隔列606に300秒を定義する。計測ID列601は、サーバ監視マネージャプログラム105によってM1が計測IDとして割り当てられる。
  For example, a measurement target assigned T1 as a target ID is measured by the 
図7は図4に示す計測間隔テーブル403の構成例を示す図である。 FIG. 7 is a diagram showing a configuration example of the measurement interval table 403 shown in FIG.
         
  計測間隔テーブル403は、サーバ監視マネージャプログラム105の計測制御部106が計測の実行を指示する間隔を決定するために、サーバ監視マネージャプログラム105が作成、設定、変更するテーブルである。計測間隔テーブル403は、図6に示した計測設定テーブル402で定義した個々の計測に対して、図6に示した計測ID列601の計測IDを設定する計測ID列701と、計測を実行の有無を文字列OnまたはOffで設定する計測実施on/off列702と、計測を実行する間隔を設定する計測間隔列703と、次回の計測を実行する時刻を設定する次回計測時刻列704とにより構成される。
  The measurement interval table 403 is a table that the server 
         
  例えば、計測IDとしてM1が割り当てられた計測が実行されていて、その計測を実行する間隔が300秒、次回の計測を実行する時刻が12時である場合、計測ID列701にM1、計測実施on/off列702にOn、計測間隔列703に300秒、次回計測時刻列704に12:00が設定されている。
  For example, when measurement with M1 assigned as the measurement ID is executed, the interval for executing the measurement is 300 seconds, and the time for executing the next measurement is 12:00, M1 is measured in the 
         
  図8は図1に示すサーバ監視装置100のサーバ監視マネージャプログラム105の計測制御部106での計測制御処理の動作を説明するフローチャートであり、次に、図8に示すフローチャートを参照して、サーバ監視マネージャプログラム105の計測制御部106での処理動作について説明する。
  FIG. 8 is a flowchart for explaining the operation of the measurement control process in the 
         
(1)計測制御部106は、処理を開始すると、図7により説明した計測間隔テーブル403の次回計測時刻列704に設定された時刻を参照し、その中で現在時刻に最も近い時刻になるまで待機する。そして、その時刻になったとき、あるいは、すでにその時刻が経過している場合、待機することなく、次の処理に進む。例えば、現在時刻が11時59分の場合、計測間隔テーブル403で計測IDがM1の計測を実施する時刻12時まで待機する(ステップ801)。
(1) When the processing is started, the 
         
(2)次に、図7に示した計測間隔テーブル403、図6に示した計測設定テーブル402、図5に示した計測対象テーブル401を参照して、計測を実行する計測エージェント装置120のホスト名またはIPアドレスと、計測対象のサーバ150のホスト名またはIPアドレスと、計測対象のサーバアプリケーション151の名前または識別子とを決定する。例えば、計測間隔テーブル403で計測IDがM1の計測について決定する場合、計測設定テーブル402から計測エージェント装置120のホスト名Agent1を決定する。また、その対象IDがT1であるので、計測対象テーブル401から計測対象のサーバ150のホスト名Server1、計測対象のサーバアプリケーション名AP1を決定する(ステップ802)。
(2) Next, referring to the measurement interval table 403 shown in FIG. 7, the measurement setting table 402 shown in FIG. 6, and the measurement target table 401 shown in FIG. 5, the host of the 
         
(3)計測制御部106は、ステップ802の処理で決定した計測を実行する計測エージェント装置120に対して計測の実行を指示する。計測の指示は、ステップ802の処理で決定した計測対象のサーバ150のホスト名またはIPアドレスと、計測対象のサーバアプリケーション151の名前または識別子とを含む通信パケットを、計測エージェント装置120に送信することにより実施する。例えば、計測間隔テーブル403で計測IDがM1の計測の実行を指示する場合、ホスト名Agent1の計測エージェント装置120に対して、サーバ150のホスト名Server1とサーバアプリケーション151の名前AP1とを含む通信パケットを送信する(ステップ803)。
(3) The 
         
(4)次に、計測間隔テーブル403の次回計測時刻列704を更新する。すなわち、ステップ803の処理で実行を指示した計測に対応する計測間隔に現在時刻を足し合わせた時刻を、次回計測時刻として設定する。例えば、計測間隔テーブル403の計測IDがM1の計測の実行を指示した場合、その計測の次回計測時刻に12:05を設定する(ステップ804)。
(4) Next, the next 
         
(5)その後、ステップ803の処理で計測の実行を指示した計測エージェント装置120から、計測の結果を含む通信パケットが到着するまで待機する。そして、到着した通信パケットを受信し、そのパケットに含まれる計測結果を取得する(ステップ805)。
(5) Thereafter, the process waits until a communication packet including the measurement result arrives from the 
         
(6)サーバ監視マネージャプログラム105の計測結果解析部107に、計測を実行した計測IDとステップ805の処理で取得した計測結果とを通知し、その後、計測結果テーブル110にステップ805の処理で取得した計測結果を格納して、ここでの処理を終了する(ステップ806)。
(6) The measurement 
         
  図9はサーバ監視装置100の記憶装置109に格納されている計測結果テーブル111の構成を示す図である。
  FIG. 9 is a diagram illustrating a configuration of the measurement result table 111 stored in the 
         
  計測結果テーブル111は、実行した計測の計測IDを示す計測ID列901と、計測を実行した時刻を格納する計測時刻列902と、その計測の結果を格納する計測結果列903とにより構成される。そして、この計測結果テーブル111には、新たな計測を実行するたびに、計測時刻列902と計測結果列903とが追加され、その追加された列に計測時刻と計測結果とが格納される。
  The measurement result table 111 includes a 
         
  図10は図1に示す計測エージェント装置120におけるサーバ監視エージェントプログラム125の計測実施部126での計測実施処理の動作を説明するフローチャートであり、次に、これについて説明する。ここでの計測実施処理は、図8により説明したフローのステップ805で、サーバ監視エージェントプログラム125がサーバ監視マネージャプログラム105から計測の実行を指示された場合、すなわち、計測対象のサーバ150のホスト名またはIPアドレスと、計測対象のサーバアプリケーション151の名前または識別子とを含む通信パケットを受け取ったときに実行される。
  FIG. 10 is a flowchart for explaining the operation of the measurement execution process in the 
         
(1)計測実施部126は、サーバ監視エージェントプログラム125から受け取った通信パケットから計測対象のサーバ150のホスト名またはIPアドレスと、計測対象のサーバアプリケーション151の名前または識別子とを取得し、取得した計測対象の情報を使用して後述する計測データテーブル128を参照して、計測対象のサーバアプリケーション151に対する計測方法を決定する(ステップ1001)。
(1) The 
         
(2)計測実施部126は、その後、計測の開始時刻t1として現在時刻を取得して保持し、計測対象のサーバ150のサーバアプリケーション151に対して、ステップ1001の処理で決定した方法による通信を実施する(ステップ1002)。
(2) Thereafter, the 
         
(3)ステップ1002の処理で実施した通信に対するサーバアプリケーション151からの応答を待ち、通信に対するサーバアプリケーション151からの応答を受信し、その後、計測の終了時刻t2として現在時刻を取得して保持する(ステップ1003)。
(3) Wait for a response from the 
         
(4)ステップ1003の処理で取得した計測の終了時刻t2からステップ1002の処理で取得した計測の開始時刻t1を引いた時間を計算し、その時間である計測結果を含む通信パケットをサーバ監視マネージャプログラム105に送信して、ここでの処理を終了する(ステップ1004)。
(4) Calculate the time obtained by subtracting the measurement start time t1 acquired in the process of 
         
  図11は計測エージェント装置120の記憶装置127に格納されている計測データテーブル128の構成例を示す図である。
  FIG. 11 is a diagram illustrating a configuration example of the measurement data table 128 stored in the storage device 127 of the 
         
  計測データテーブル128は、通信時間の計測を行う対象のサーバアプリケーション151に対する計測を実施する方法の情報を定義しているテーブルであり、計測の対象となるサーバアプリケーション151の名前または識別子を登録する対象アプリケーション列1102と、サーバアプリケーション151が実行されているサーバ150のIPアドレスまたはホスト名を登録する対象サーバ列1101と、サーバアプリケーション151に対する計測方法を登録する計測方法列1103とにより構成される。
  The measurement data table 128 is a table that defines information on a method of performing measurement for the 
         
  計測方法列1103に登録されている計測方法は、サーバ監視エージェントプログラム125からサーバアプリケーション151に対して送信される通信パケットや、実行することによりサーバ監視エージェントプログラム125からサーバアプリケーション151に対して通信パケットを送信することができるコマンドやプログラムである。
  The measurement method registered in the 
図12は図4に示す問題管理テーブル404の構成例を示す図である。 FIG. 12 is a diagram showing a configuration example of the problem management table 404 shown in FIG.
         
  問題管理テーブル404は、サーバ監視装置100のサーバ監視マネージャプログラム105の計測結果解析部107で問題があると判定された計測の情報を格納するテーブルであり、問題ありとされた計測の計測IDを格納する問題計測ID列1201と、その問題に対して計測結果解析部107の内部状態を格納する状態列1202と、問題があると判定された計測に関連がある計測の計測IDを格納する関連計測ID列1203と、問題があると判定された計測とその計測に関連がある計測の関連性を表す情報を格納する関連種別列1204と、関連がある計測の問題を解析するために採用する最新の計測結果と計測設定テーブル402のしきい値とを比較した結果を格納する計測結果列1205とにより構成される。
  The problem management table 404 is a table for storing measurement information determined to have a problem by the measurement 
         
  ここで、関連がある計測について詳しく説明する。1つのサーバアプリケーション151に対して、複数の計測エージェント装置120が計測を実行するものとする。このとき、サーバアプリケーション151と計測エージェント装置120との組み合わせである計測は複数存在することになるが、この場合、それぞれが計測対象とするサーバアプリケーション151が同一であるという関連がある。
  Here, the related measurement will be described in detail. Assume that a plurality of 
         
  また、1つのサーバ150で複数のサーバアプリケーション151が実行されている場合に、それら複数のサーバアプリケーション151に対して、複数の計測エージェント装置120が計測を実行するものとする。このとき、サーバアプリケーション151と計測エージェント装置120との組み合わせである計測は複数あるが、この場合、それぞれが計測対象とするサーバ150が同一であるという関連がある。すなわち、サーバアプリケーション151の属性のうち動作するサーバ150が同一であるという点で関連している。
  In addition, when a plurality of 
         
  同様に、1つのサーバネットワークに複数のサーバ150が存在し、それらのサーバ150で複数のサーバアプリケーション151が実行されている場合に、それら複数のサーバアプリケーション151に対して、複数の計測エージェント装置120が計測を実行するものとする。このとき、サーバアプリケーション151と計測エージェント装置120との組み合わせである計測は複数あるが、この場合、それぞれが計測対象とするサーバネットワークが等しいという関連がある。すなわち、サーバアプリケーション151の属性のうち所属するサーバネットワークが等しいことについて関連している。
  Similarly, when a plurality of 
説明している本発明の実施形態によるサーバアプリケーション監視システムは、前述したような3つの関連を取り扱うこととしている。図12に示す例では、前述したような関連する計測を、図5に示す計測対象テーブル401と図6に示す計測設定テーブル402とから抽出したものとして示している。 The server application monitoring system according to the described embodiment of the present invention handles the three relations as described above. In the example illustrated in FIG. 12, the related measurement as described above is illustrated as extracted from the measurement target table 401 illustrated in FIG. 5 and the measurement setting table 402 illustrated in FIG. 6.
         
  図12に示す問題管理テーブル404の状態列1202に格納される状態は、「問題確認中」か「回復確認中」のいずれかの値が設定され、関連種別列1204に格納される関連性を表す情報には、「計測対象テーブル401の対象ネットワーク列502が等しい」、「計測対象テーブル401の対象サーバ列503が等しい」、「計測対象テーブル401の対象アプリケーション列504が等しい」のいずれかの値が設定される。また、計測結果列1205に格納されるしきい値と比較を行った結果としては、「しきい値を超過」、「しきい値以下」、「計測未実施」のいずれかの値が設定される。
  The status stored in the 
         
  図13は図1に示すサーバ監視装置100におけるサーバ監視マネージャプログラム105の計測結果解析部107での計測結果解析処理の動作を説明するフローチャートであり、次に、これについて説明する。この計測結果解析処理は、計測制御部106から計測を実行した計測IDと計測結果とが通知されたときに実行される。
  FIG. 13 is a flowchart for explaining the operation of the measurement result analysis process in the measurement 
         
(1)ここでの処理が開始されると、計測結果解析部107は、図12に示した問題管理テーブル404の関連計測ID列1203を検索して、計測制御部106から通知された計測IDが登録されているか否かを判定する(ステップ1301)。
(1) When the processing here is started, the measurement 
         
(2)ステップ1301の判定で、対象となる計測IDが問題管理テーブル404に登録されていなかった場合、計測制御部106から通知された計測結果が図6に示す計測設定テーブル402のしきい値列605のしきい値を超過しているか否かを判定し、計測結果がしきい値以下であった場合、ここでの計測結果解析処理を終了する(ステップ1302)。
(2) If the target measurement ID is not registered in the problem management table 404 in the determination in 
(3)ステップ1302の判定で、計測結果がしきい値を超過していた場合、新規な問題が発生したと判定されたことなので、図14に示すフローにより後述する問題新規登録処理を実行する(ステップ1303)。 (3) If it is determined in step 1302 that the measurement result exceeds the threshold value, it is determined that a new problem has occurred. Therefore, a new problem registration process to be described later is executed according to the flow shown in FIG. (Step 1303).
         
(4)ステップ1301の判定で、対象となる計測IDが問題管理テーブル404に登録されていた場合、ステップ1301での処理によりすでに登録されている問題に関連する計測結果を受け取ったと判定されたことなので、図15に示すフローにより後述する問題対応処理を実行する(ステップ1304)。
(4) When the target measurement ID is registered in the problem management table 404 in the determination in 
         
  図14は図13に示して説明したフローのステップ1303での問題新規登録処理の動作を説明するフローチャートである。この問題新規登録処理は、新規の問題が発生したと判定した場合に、その問題を問題管理テーブル404に登録するために計測結果解析部107で実行される処理である。この問題新規登録処理により、新規の問題が発生した問題の問題箇所を特定するために、関連する計測がすぐに実行される。
  FIG. 14 is a flowchart for explaining the operation of the new problem registration process in 
         
(1)計測結果解析部107は、この処理が開始されると、図12に示した問題管理テーブル404の問題計測ID列1201に対象となる計測の計測IDを設定し、状態列1202に「問題確認中」を設定する(ステップ1401)。
(1) When this processing is started, the measurement 
         
(2)次に、ステップ1403とステップ1404との処理を、対象となる計測に関連する計測に対して繰り返し実行することを設定する(ステップ1402、1405)。
(2) Next, it is set to repeat the processing of Step 1403 and 
         
(3)問題管理テーブル404の関連計測ID列1203に関連する計測の計測IDを設定し、関連種別列1204に関連性を表す情報を設定し、計測結果列1205に「計測未実施」を設定する(ステップ1403)。
(3) The measurement ID of the measurement related to the related 
         
(4)関連する計測を直ちに実行するために、図7に示した計測間隔テーブル403の関連する計測の計測IDに対応する次回計測時刻列704に現在時刻を設定する(ステップ1404)。
(4) In order to immediately perform the related measurement, the current time is set in the next 
         
  図15は図13に示して説明したフローのステップ1304での問題対応処理の動作を説明するフローチャートである。この問題対応処理は、すでに問題が発生している場合に、その問題の問題箇所を特定し、あるいは、その問題から回復したことを確認するために計測結果解析部107で実行される処理である。
  FIG. 15 is a flowchart for explaining the operation of the problem handling process in 
         
(1)計測結果解析部107は、この処理が開始されると、問題管理テーブル404の状態列1202を参照して、問題に対して計測結果解析部107の内部状態が、「問題確認中」となっているか、「回復確認中」となっているかを判定する(ステップ1501)。
(1) When this processing is started, the measurement 
         
(2)ステップ1501の判定で、内部状態が「問題確認中」となっていた場合、対象となる計測の計測結果と計測設定テーブル402のしきい値列605のしきい値とを比較し、比較結果がしきい値を超過している場合、問題管理テーブル404の計測結果列1205に「しきい値超過」を設定し、比較結果がしきい値以下の場合、計測結果列1205に「しきい値以下」を設定して、問題管理テーブル404を更新する(ステップ1502)。
(2) If the internal state is “under problem confirmation” in the determination in 
         
(3)次に、問題管理テーブル404の計測結果列1205を参照し、「計測未実施」となっている関連する計測がないか否かを判定し、「計測未実施」となっている関連する計測があった場合、その関連する計測については、計測が終了するまでここでの処理を行うことができないので、ここでの問題対応処理を終了する(ステップ1503)。
(3) Next, referring to the 
         
(4)ステップ1503の判定で、「計測未実施」となっている関連する計測がなかった場合、ステップ1501及びステップ1503の処理により問題の範囲を解析するための計測が完了したと判定されたので、図16により後述する問題解析処理を実行する(ステップ1504)。
(4) In the determination in 
         
(5)その後、ステップ1504での問題解析処理の解析結果に従って計測の実施間隔を調整するために、図17により後述する計測調整処理を実行する(ステップ1505)。
(5) Thereafter, in order to adjust the measurement execution interval according to the analysis result of the problem analysis process in 
         
(6)ステップ1501の判定で、内部状態が「回復確認中」となっていた場合、図18により後述する回復確認処理を実行する(ステップ1506)。
(6) If it is determined in 
         
(7)次に、ステップ1503での判定と同様に、問題管理テーブル404の計測結果列1205を参照し、「計測未実施」となっている関連する計測がないか否かを判定し、「計測未実施」となっている関連する計測があった場合、その関連する計測については、計測が終了し、問題解析が終了するまでここでの処理を行うことができないので、ここでの問題対応処理を終了する(ステップ1507)。
(7) Next, similarly to the determination in 
         
(8)ステップ1507の判定で、「計測未実施」となっている関連する計測がなかった場合、あるいは、ステップ1505での計測調整処理が終了した後、サーバ監視マネージャプログラム105の回復手段実施部108に対して、対象としている問題に対する回復手段の実行を指示すると共に、問題管理テーブル404の関連する問題の計測結果列1205を「計測未実施」に設定して、ここでの問題対応処理を終了する(ステップ1508、1809)。
(8) When there is no related measurement that is “not measured” in the determination in 
         
  図16は図15に示して説明したフローのステップ1504での問題解析処理の動作を説明するフローチャートであり、次に、これについて説明する。この問題解析処理は、問題に関連する計測について問題の範囲を確認するための計測が終了した後で、問題の範囲を解析するために計測結果解析部107で実行される処理である。
  FIG. 16 is a flowchart for explaining the operation of the problem analysis processing in 
         
(1)この処理が開始されると、計測結果解析部107は、図12に示した問題管理テーブル404の関連種別列1204と計測結果列1205とを参照し、「対象アプリケーション」が等しいとなっている計測で「しきい値超過」となっている計測があるか否かを判定する(ステップ1601)。
(1) When this process is started, the measurement 
         
(2)ステップ1601の判定で、「対象アプリケーション」が等しいとなっている計測で「しきい値超過」となっている関連する計測があった場合、問題管理テーブル404の関連種別列1204と計測結果列1205とを参照し、「対象サーバ」が等しいとなっている計測が「しきい値超過」となっている計測があるか否かを判定する(ステップ1602)。
(2) If there is a related measurement that is “exceeding the threshold value” in the measurement in which the “target application” is equal in the determination in 
         
(3)ステップ1602の判定で、「対象サーバ」が等しいとなっている計測が「しきい値超過」となっている計測があった場合、問題管理テーブル404の関連種別列1204と計測結果列1205とを参照し、「対象ネットワーク」が等しいとなっている計測が「しきい値超過」となっている計測があるか否かを判定する(ステップ1603)。
(3) If there is a measurement in which the “target server” is equal to the “threshold exceeded” in the determination in 
         
(4)ステップ1603の判定で、「対象ネットワーク」が等しいとなっている計測が「しきい値超過」となっている計測があった場合、ステップ1601の判定で、問題の計測と同じサーバアプリケーション151に対する別の計測エージェント装置120からの計測でも問題があると判定され、ステップ1602の判定で、問題の計測と同じサーバ150で動作する別のサーバアプリケーション151に対する計測でも問題があると判定され、ステップ1603の判定で、問題の計測と同じサーバネットワークにある別のサーバ150で動作する別のサーバアプリケーション151に対する計測でも問題があると判定されたので、問題の範囲は「同一サーバネットワーク」であると判定(判定1)する(ステップ1604)。
(4) In the case where there is a measurement in which the “target network” is equal to the “threshold exceeded” in the determination in 
         
(5)ステップ1603の判定で、「対象ネットワーク」が等しいとなっている計測が「しきい値超過」となっている計測がなかった場合、ステップ1601の判定で、問題の計測と同じサーバアプリケーション151に対する別の計測エージェント装置120からの計測でも問題があると判定され、ステップ1602の判定で、問題の計測と同じサーバ150で動作する別のサーバアプリケーション151に対する計測でも問題があると判定され、ステップ1603の判定で、問題の計測と同じサーバネットワークにある別のサーバ150で動作する別のサーバアプリケーション151に対する計測には問題がないと判定されたので、問題の範囲は「同一サーバ150」であると判定(判定2)する(ステップ1605)。
(5) If there is no measurement in which the “target network” is equal to the “exceeding threshold” in the determination in 
         
(6)ステップ1602の判定で、「対象サーバ」が等しいとなっている計測が「しきい値超過」となっている計測がなかった場合、ステップ1601の判定で、問題の計測と同じサーバアプリケーション151に対する別の計測エージェント装置120からの計測でも問題があると判定され、ステップ1602の判定で、問題の計測と同じサーバ150で動作する別のサーバアプリケーション151に対する計測には問題がないと判定されたので、問題の範囲は「同一サーバアプリケーション151」であると判定(判定3)する(ステップ1606)。
(6) If there is no measurement in which the “target server” is equal to the “exceeding threshold” in the determination in 
         
(7)ステップ1601の判定で、「対象アプリケーション」が等しいとなっている計測で「しきい値超過」となっている関連する計測がなかった場合、ステップ1601の判定で、問題の計測と同じサーバアプリケーション151に対する別の計測エージェント装置120からの計測には問題がないと判定されたので、問題の範囲は「サーバアプリケーション151と計測エージェント装置120の組み合わせ」であると判定(判定4)する(ステップ1607)。
(7) If there is no related measurement in which the “target application” is equal in the determination in 
         
(8)ステップ1604〜ステップ1607の判定処理の終了後、ステップ1604〜ステップ1607の判定結果に従って、問題の範囲に含まれない計測を問題管理テーブル404から削除して、ここでの処理を終了する(ステップ1608)。
(8) After completion of the determination processing in 
         
  図17は図15に示して説明したフローのステップ1505での計測調整処理の動作を説明するフローチャートであり、次に、これについて説明する。この計測調整処理は、問題の範囲に含まれる計測で優先度が高い計測の間隔を短くして問題からの回復の検知を早くするため、及び、問題の範囲に含まれる計測で優先度が低い計測の実施を一時停止することにより、問題の範囲に含まれるサーバアプリケーション151、サーバ150、サーバネットワーク等の負荷を低減させるため、計測結果解析部107で実行される処理である。
  FIG. 17 is a flowchart for explaining the operation of the measurement adjustment processing in 
なお、ここでは説明しないが、優先度が高い計測以外の優先度が低い計測の全てに対する実施を一時的に停止する処理でもよく、また、計測エージェント装置の一部または全部からの計測を一時的に停止する処理でもよい。 Although not described here, it may be a process of temporarily stopping the execution of all the low-priority measurements other than the high-priority measurement, and the measurement from a part or all of the measurement agent device is temporarily performed. It is also possible to stop the process.
         
(1)この処理が開始されると、計測結果解析部107は、ステップ1702〜ステップ1705での処理を、対象となる計測に関連する計測に対して繰り返し実行することを設定する(ステップ1701、1706)。
(1) When this process is started, the measurement 
(2)その後、計測設定テーブル402と問題管理テーブル404とを参照し、問題の範囲に含まれる全ての関連する計測の優先度の平均値と対象としている関連する計測の優先度とを比較する(ステップ1702)。 (2) After that, the measurement setting table 402 and the problem management table 404 are referred to, and the average value of the priorities of all related measurements included in the problem range is compared with the priority of the related measurement in question. (Step 1702).
(3)次に、ステップ1702の比較で全ての関連する計測の優先度の平均値よりも対象としている関連する計測の優先度が高いか否かを判定する(ステップ1703)。 (3) Next, it is determined whether or not the priority of the related measurement as a target is higher than the average value of the priorities of all the related measurements in the comparison in Step 1702 (Step 1703).
         
(4)ステップ1703の判定で、対象としている関連する計測の優先度が全ての関連する計測の優先度の平均値より高いと判定された場合、対象としている関連する計測について計測間隔テーブル403の計測間隔列703に、計測設定テーブル402の計測間隔列606に定義されている時間の10分の1の時間を設定して、計測の頻度を高くする(ステップ1704)。
(4) If it is determined in 
         
(5)ステップ1703の判定で、対象としている関連する計測の優先度が全ての関連する計測の優先度の平均値より低いと判定された場合、対象としている関連する計測について計測間隔テーブル403の計測実施on/off列702に、「Off」を設定して、計測を一時的に停止する(ステップ1705)。
(5) If it is determined in 
         
(6)ステップ1702〜1705までの処理を、対象となる計測に関連する計測に対して繰り返し実行する処理を終了した後、問題管理テーブル404の状態列1202に「回復確認中」を設定し、計測結果解析部107の内部状態を問題の範囲を確認する状態から問題の回復を確認する状態に移行させてここでの処理を終了する(ステップ1707)。
(6) After completing the processing of 
         
  図18は図15に示して説明したフローのステップ1506での回復確認処理の動作を説明するフローチャートであり、次に、これについて説明する。この回復確認処理は、問題からの回復を確認するために計測結果解析部107で実行される処理である。
  FIG. 18 is a flowchart for explaining the operation of the recovery confirmation processing in 
         
(1)この処理が開始されると、計測結果解析部107は、対象となる計測の計測結果と計測設定テーブル402のしきい値列605のしきい値とを比較し、比較結果がしきい値を超過している場合、問題管理テーブル404の計測結果列1205に「しきい値超過」を設定し、比較結果がしきい値以下の場合、計測結果列1205に「しきい値以下」を設定して、問題管理テーブル404を更新する(ステップ1801)。
(1) When this process is started, the measurement 
         
(2)次に、問題管理テーブル404の計測結果列1205を参照し、問題からの回復を全て確認したか否かを判定する。この判定で、「計測未実施」の関連する計測がある、あるいは、「しきい値超過」の関連する計測があった場合、問題からの回復は確認できていないとして回復確認処理を終了する(ステップ1802)。
(2) Next, with reference to the 
         
(3)ステップ1802の判定で、「計測未実施」の関連する計測がなく、「しきい値超過」の関連する計測がなかった場合、すなわち、問題からの回復を検知するための全ての計測を実施し、その結果にしきい値を超過するものがなかった場合、問題からの回復を確認したとして、対象としている関連する計測のうち計測の頻度を高めていた計測について、計測間隔テーブル403の計測間隔列703に、計測設定テーブル402の計測間隔列606に定義されている時間を設定し、また、計測を一時的に停止していた計測について、計測間隔テーブル403の計測実施on/off列702に、「On」を設定して計測間隔テーブル403を更新し、計測を再開する(ステップ1803)。
(3) If there is no measurement related to “unmeasured” and no measurement related to “exceeding threshold” in the determination in step 1802, that is, all measurements for detecting recovery from the problem. If the result does not exceed the threshold value, the recovery from the problem has been confirmed. In the 
(4)その後、問題からの回復を確認した計測とその関連する計測とを、問題管理テーブル404から削除して問題管理テーブル404を更新して、ここでの処理を終了する(ステップ1804)。 (4) Thereafter, the measurement confirming the recovery from the problem and the related measurement are deleted from the problem management table 404, the problem management table 404 is updated, and the processing here is terminated (step 1804).
図19は図4に示す回復手段テーブル405の構成例を示す図である。 FIG. 19 is a diagram showing a configuration example of the recovery means table 405 shown in FIG.
         
  回復手段テーブル405は、問題からの回復対象であるサーバアプリケーション151の名前または識別子、サーバ150のホスト名またはIPアドレス、あるいは、サーバネットワークのネットワークアドレスまたはネットワーク名を定義する回復対象列1901と、問題からの回復手段を実行する対象であるサーバ資源管理装置140のホスト名またはIPアドレスを定義する回復手段実行先列1902と、サーバ資源管理装置140に回復手段の実行を指示するための方法を定義する回復手段列1903とにより構成される。
  The recovery means table 405 includes a 
         
  回復手段列1903に登録される回復手段は、サーバ監視マネージャプログラム105からサーバ資源管理装置140に対して送信される回復手段の実行を指示する通信パケットや、実行することでサーバ監視マネージャプログラム105からサーバ資源管理装置140に対して回復手段の実行を指示する通信パケットを送信することができるコマンドやプログラムである。
  The recovery means registered in the recovery means 
         
  図20は図1に示すサーバ監視装置100のサーバ監視マネージャプログラム105の回復手段実施部108での回復手段実施処理の動作を説明するフローチャートであり、次に、これについて説明する。この回復手段実施処理は、計測結果解析部107から問題の判定結果を含む回復手段の実行を指示されたときに回復手段実施部108により実行される処理である。
  FIG. 20 is a flowchart for explaining the operation of the recovery means execution processing in the recovery means 
         
(1)この処理が開始されると、回復手段実施部108は、まず、回復手段テーブル405を参照し、計測結果解析部107から通知された問題の範囲が回復手段テーブル405の回復対象列1901に登録されているか否かを判定する。この判定で、通知された問題の範囲が回復手段テーブル405の回復対象列1901に登録されていなかった場合、ここでの回復手段実施処理を終了する(ステップ2001)。
(1) When this process is started, the recovery means 
         
(2)ステップ2001の判定で、通知された問題の範囲が回復手段テーブル405の回復対象列1901に登録されていた場合、回復手段テーブル405を参照し、回復手段実行先列1902に登録されているサーバ資源管理装置140に対して、回復手段列1903に登録された回復手段を実行して、ここでの回復手段実施処理を終了する(ステップ2002)。
(2) When the notified problem range is registered in the 
前述した本発明の実施形態での各処理は、プログラムにより構成し、本発明が備えるプロセッサ(CPU)に実行させることができ、また、それらのプログラムは、FD、CDROM、DVD等の記録媒体に格納して提供することができ、また、ネットワークを介してディジタル情報により提供することができる。 Each process in the above-described embodiment of the present invention is configured by a program and can be executed by a processor (CPU) included in the present invention. The program is stored in a recording medium such as an FD, a CDROM, a DVD, or the like. It can be stored and provided, or can be provided by digital information via a network.
         
  図21はサーバ監視装置100のサーバ監視マネージャプログラム105がサーバ資源管理装置140に回復手段を実施したときの動作を説明するシステム構成図である。ここに示す例は、図1に示すシステム構成におけるサーバ150とサーバ資源管理装置140との部分を示したものであり、予備として待機しているサーバを1台設け、サーバ資源管理装置140としてサーバ負荷分散装置2120を使用する場合の例である。
  FIG. 21 is a system configuration diagram for explaining the operation when the server 
         
  図21に示す構成例は、負荷分散装置2120に、サーバ1(2101)、サーバ2(2102)、サーバ3(2103)が接続されて構成されている。そして、サーバ1(2101)では、サーバアプリケーション151としてAP1(2111)とAP2(2112)とが動作しており、サーバ2では、AP3(2113)とAP4(2114)とが動作しているものとする。また、サーバ3(2103)は、予備として待機しているものとする。
  The configuration example illustrated in FIG. 21 is configured by connecting a server 1 (2101), a server 2 (2102), and a server 3 (2103) to a load balancer 2120. In the server 1 (2101), AP1 (2111) and AP2 (2112) are operating as the 
         
  いま、サーバ監視マネージャプログラム105が、AP1(2111)の問題を検知し、サーバ1(2101)が問題の範囲であるとして解析した場合、サーバ監視マネージャプログラム105は、負荷分散装置2120に対してサーバ1(2101)を回復するための手段を実行する。そして、説明している例の場合、サーバ1(2101)の問題に対して、サーバ1(2101)で動作するサーバアプリケーションのAP1またはAP2を、待機中のサーバ3(2103)に移動して動作させるためのコマンドが、図19に示す回復手段テーブル405の回復手段列1903に登録されているものとする。サーバ監視マネージャプログラム105は、このコマンドを負荷分散装置2120に対して実行することにより、負荷分散装置2120は、サーバ1(2101)のAP2をサーバ3(2103)に移動し、サーバ3(2103)でAP2を動作させる。このような回復手段を実施することにより、サーバ1(2111)の負荷が低減され、問題を回復することができる。
  When the server 
        
       
  100  サーバ監視装置
  101、121  メモリ
  102、124  通信インタフェース
  103、123  ディスクインタフェース
  104、122  プロセッサ
  105  サーバ監視マネージャプログラム
  106  計測制御部
  107  計測結果解析部
  108  回復手段実施部
  109、127  記憶装置
  110  計測情報テーブル郡
  111  計測結果テーブル
  120  計測エージェント装置
  125  サーバ監視エージェントプログラム
  126  計測実施部
  128  計測データテーブル
  130  ネットワーク
  140  サーバ資源管理装置
  150  監視対象サーバ
  151  サーバアプリケーション
  160  クライアント
  161  クライアントアプリケーション
  401  計測対象テーブル
  402  計測設定テーブル
  403  計測間隔テーブル
  404  問題管理テーブル
  405  回復手段テーブル
DESCRIPTION OF 
Claims (5)
前記サーバ監視装置は、
前記サーバアプリケーション及び前記測定エージェント装置の組み合わせに対して、優先度、しきい値及び計測間隔を予め格納し、
前記計測間隔に従って、複数の前記計測エージェント装置に対して指定した前記サーバアプリケーションの計測指示を繰り返し送信し、
前記計測エージェント装置は、
前記サーバ監視装置からの計測指示に応じて、指示された前記サーバアプリケーションに対して処理を要求してから要求した処理の結果を受領するまでの応答時間を計測し、前記計測した応答時間を、前記サーバ監視装置に送信し、
前記サーバ監視装置は、
複数の前記計測エージェント装置から前記応答時間を繰り返し受信し、
前記計測エージェント装置から受信した前記応答時間と前記しきい値とを比較することにより、前記しきい値を超過した前記応答時間を送信してきた前記計測エージェント装置と、測定対象とした前記サーバアプリケーションとを含む第1の組み合わせを抽出し、
前記第1の組み合わせに関連し、前記サーバアプリケーション及び前記計測エージェント装置とを含む第2の組み合わせを1つ以上求め、
前記第1の組み合わせの優先度と、1つ以上の前記第2の組み合わせの優先度と、の平均値を算出し、
算出した前記平均値と、前記第1の組み合わせの優先度及び1つ以上の前記第2の組み合わせの優先度とを比較することにより、前記平均値より高い優先度を持つ第3の組み合わせを前記第1の組み合わせ及び1つ以上の前記第2の組み合わせから求め、
前記第3の組み合わせに含まれる第3のサーバアプリケーションに対する応答時間の計測指示を、前記第3の組み合わせにに対応するアプリケーション計測間隔より短い時間間隔で、前記第3の組み合わせに含まれる第3の計測エージェント装置に対して送信し、
前記平均値より低い優先度を持つ第4の組み合わせを前記第1の組み合わせ及び1つ以上の前記第2の組み合わせから求め、
前記第4の組み合わせに含まれる第4のサーバアプリケーションに対する応答時間の計測指示の、前記第4の組み合わせに含まれる第4の計測エージェント装置への繰り返し送信を、一時停止することを特徴とするサーバアプリケーション監視方法。 In a server application monitoring method in a server application monitoring system comprising a plurality of servers that execute a plurality of server applications, a plurality of measurement agent devices, and a server monitoring device that monitors the servers,
The server monitoring device
For the combination of the server application and the measurement agent device, the priority, threshold value and measurement interval are stored in advance,
According to the measurement interval, repeatedly transmits a measurement instruction of the specified server application to a plurality of the measurement agent devices,
The measurement agent device includes:
In response to a measurement instruction from the server monitoring device, measure a response time from requesting processing to the instructed server application until receiving a result of the requested processing, and measuring the measured response time, Sent to the server monitoring device,
The server monitoring device
Repeatedly receiving the response time from a plurality of the measurement agent devices,
By comparing the response time received from the measurement agent device with the threshold value, the measurement agent device that has transmitted the response time exceeding the threshold value, and the server application as a measurement target, Extract the first combination containing
Obtaining one or more second combinations related to the first combination, including the server application and the measurement agent device;
Calculating an average value of the priority of the first combination and the priority of one or more of the second combinations;
By comparing the calculated average value with the priority of the first combination and the priority of one or more of the second combinations, a third combination having a higher priority than the average value is obtained. Determining from a first combination and one or more of the second combinations;
The response time measurement instruction for the third server application included in the third combination is sent to the third combination included in the third combination at a time interval shorter than the application measurement interval corresponding to the third combination. Sent to the measurement agent device,
Determining a fourth combination having a lower priority than the average value from the first combination and the one or more second combinations;
The server characterized by temporarily stopping the transmission of the response time measurement instruction for the fourth server application included in the fourth combination to the fourth measurement agent device included in the fourth combination. Application monitoring method.
前記サーバ監視装置は、The server monitoring device
前記サーバアプリケーション及び前記測定エージェント装置の組み合わせに対して、優先度、しきい値及び計測間隔を予め格納し、For the combination of the server application and the measurement agent device, the priority, threshold value and measurement interval are stored in advance,
前記計測間隔に従って、複数の前記計測エージェント装置に対して指定した前記サーバアプリケーションの計測指示を繰り返し送信し、According to the measurement interval, repeatedly transmits a measurement instruction of the specified server application to a plurality of the measurement agent devices,
前記計測エージェント装置は、The measurement agent device includes:
前記サーバ監視装置からの計測指示に応じて、指示された前記サーバアプリケーションに対して処理を要求してから要求した処理の結果を受領するまでの応答時間を計測し、前記計測した応答時間を、前記サーバ監視装置に送信し、In response to a measurement instruction from the server monitoring device, measure a response time from requesting processing to the instructed server application until receiving a result of the requested processing, and measuring the measured response time, Sent to the server monitoring device,
前記サーバ監視装置は、The server monitoring device
複数の前記計測エージェント装置から前記応答時間を繰り返し受信し、Repeatedly receiving the response time from a plurality of the measurement agent devices,
前記計測エージェント装置から受信した前記応答時間と前記しきい値とを比較することにより、前記しきい値を超過した前記応答時間を送信してきた前記計測エージェント装置と、測定対象とした前記サーバアプリケーションとを含む第1の組み合わせを抽出し、By comparing the response time received from the measurement agent device with the threshold value, the measurement agent device that has transmitted the response time exceeding the threshold value, and the server application as a measurement target, Extract the first combination containing
前記第1の組み合わせに関連し、前記サーバアプリケーション及び前記計測エージェント装置とを含む第2の組み合わせを1つ以上求め、Obtaining one or more second combinations related to the first combination, including the server application and the measurement agent device;
前記第1の組み合わせの優先度と、1つ以上の前記第2の組み合わせの優先度と、の平均値を算出し、Calculating an average value of the priority of the first combination and the priority of one or more of the second combinations;
算出した前記平均値と、前記第1の組み合わせの優先度及び1つ以上の前記第2の組み合わせの優先度とを比較することにより、前記平均値より高い優先度を持つ第3の組み合わせを前記第1の組み合わせ及び1つ以上の前記第2の組み合わせから求め、By comparing the calculated average value with the priority of the first combination and the priority of one or more of the second combinations, a third combination having a higher priority than the average value is obtained. Determining from a first combination and one or more of the second combinations;
前記第3の組み合わせに含まれる第3のサーバアプリケーションに対する応答時間の計測指示を、前記第3の組み合わせにに対応するアプリケーション計測間隔より短い時間間隔で、前記第3の組み合わせに含まれる第3の計測エージェント装置に対して送信し、The response time measurement instruction for the third server application included in the third combination is sent to the third combination included in the third combination at a time interval shorter than the application measurement interval corresponding to the third combination. Sent to the measurement agent device,
前記平均値より低い優先度を持つ第4の組み合わせを前記第1の組み合わせ及び1つ以上の前記第2の組み合わせから求め、Determining a fourth combination having a lower priority than the average value from the first combination and the one or more second combinations;
前記第4の組み合わせに含まれる第4のサーバアプリケーションに対する応答時間の計測指示の、前記第4の組み合わせに含まれる第4の計測エージェント装置への繰り返し送信を、一時停止することを特徴とするサーバアプリケーション監視システム。The server characterized by temporarily stopping the transmission of the response time measurement instruction for the fourth server application included in the fourth combination to the fourth measurement agent device included in the fourth combination. Application monitoring system.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2007183296A JP4909830B2 (en) | 2007-07-12 | 2007-07-12 | Server application monitoring system and monitoring method | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2007183296A JP4909830B2 (en) | 2007-07-12 | 2007-07-12 | Server application monitoring system and monitoring method | 
Publications (3)
| Publication Number | Publication Date | 
|---|---|
| JP2009020736A JP2009020736A (en) | 2009-01-29 | 
| JP2009020736A5 JP2009020736A5 (en) | 2010-03-11 | 
| JP4909830B2 true JP4909830B2 (en) | 2012-04-04 | 
Family
ID=40360321
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2007183296A Expired - Fee Related JP4909830B2 (en) | 2007-07-12 | 2007-07-12 | Server application monitoring system and monitoring method | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP4909830B2 (en) | 
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP5895946B2 (en) | 2012-02-02 | 2016-03-30 | 富士通株式会社 | Event management apparatus, information processing method and program for event management | 
| JP6924072B2 (en) * | 2017-05-18 | 2021-08-25 | 株式会社デンソーテン | Management server, cloud system, and management method | 
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP2001325126A (en) * | 2000-05-15 | 2001-11-22 | Matsushita Electric Ind Co Ltd | Computer system monitoring method and computer system monitoring device | 
| JP4123914B2 (en) * | 2002-11-26 | 2008-07-23 | 株式会社日立製作所 | Monitoring method and monitoring program for program operating state | 
| JP2005018120A (en) * | 2003-06-23 | 2005-01-20 | Hitachi Software Eng Co Ltd | Method for collecting apparatus information in network management system | 
| JP4516306B2 (en) * | 2003-11-28 | 2010-08-04 | 株式会社日立製作所 | How to collect storage network performance information | 
- 
        2007
        - 2007-07-12 JP JP2007183296A patent/JP4909830B2/en not_active Expired - Fee Related
 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP2009020736A (en) | 2009-01-29 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| US20250047577A1 (en) | Monitoring wireless access point events | |
| US10536343B2 (en) | Traffic management apparatus and traffic management method | |
| US8180922B2 (en) | Load balancing mechanism using resource availability profiles | |
| JP2006338543A (en) | Monitoring system and monitoring method | |
| US20160156516A1 (en) | Monitoring device, method, and medium | |
| JP2008108120A (en) | Computer system and method for monitoring performance using agents | |
| JP2016146020A (en) | Data analysis system and analysis method | |
| WO2016082078A1 (en) | Path management system, device and method | |
| US9331912B2 (en) | Violation sign condition setting supporting system, violation sign condition setting supporting method, and violation sign condition setting supporting program | |
| JP4151985B2 (en) | Technology to detect information processing devices that have malfunctioned | |
| JP4909830B2 (en) | Server application monitoring system and monitoring method | |
| US20070086350A1 (en) | Method, system, and computer program product for providing failure detection with minimal bandwidth usage | |
| JP2002152204A (en) | Network monitoring device and method, and network monitoring program | |
| JP2013016111A (en) | Data center system, operation evaluation device, and program of operation evaluation device | |
| JP6816511B2 (en) | Session management program, session management method, information processing device, and information processing system | |
| JP2011186821A (en) | Virtual-environment management system, device, method, and program | |
| JP2020035297A (en) | Apparatus state monitor and program | |
| US12081426B2 (en) | Information processing device, information processing method and information processing program | |
| CN111506422B (en) | Event analysis method and system | |
| JP2008005118A (en) | Network monitoring system | |
| JP5974905B2 (en) | Response time monitoring program, method, and response time monitoring apparatus | |
| US20230113776A1 (en) | Traffic application amount calculation apparatus, method and program | |
| JP5056346B2 (en) | Information processing apparatus, information processing system, virtual server movement processing control method, and program | |
| JP6724583B2 (en) | Information processing apparatus, information processing method, program, and information processing system | |
| JP5764090B2 (en) | Terminal state detection apparatus and terminal state detection method | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A521 | Written amendment | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100121 | |
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100121 | |
| A977 | Report on retrieval | Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110421 | |
| A131 | Notification of reasons for refusal | Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 | |
| A521 | Written amendment | Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110715 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 | |
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120116 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 | |
| R150 | Certificate of patent or registration of utility model | Free format text: JAPANESE INTERMEDIATE CODE: R150 | |
| LAPS | Cancellation because of no payment of annual fees |