[go: up one dir, main page]

JP7604858B2 - Monitoring device, monitoring method, and program - Google Patents

Monitoring device, monitoring method, and program Download PDF

Info

Publication number
JP7604858B2
JP7604858B2 JP2020199275A JP2020199275A JP7604858B2 JP 7604858 B2 JP7604858 B2 JP 7604858B2 JP 2020199275 A JP2020199275 A JP 2020199275A JP 2020199275 A JP2020199275 A JP 2020199275A JP 7604858 B2 JP7604858 B2 JP 7604858B2
Authority
JP
Japan
Prior art keywords
monitoring
failure rate
server
monitoring interval
individual failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020199275A
Other languages
Japanese (ja)
Other versions
JP2022087371A (en
Inventor
理仁 深沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2020199275A priority Critical patent/JP7604858B2/en
Publication of JP2022087371A publication Critical patent/JP2022087371A/en
Application granted granted Critical
Publication of JP7604858B2 publication Critical patent/JP7604858B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本開示は、サーバの監視に関する。 This disclosure relates to server monitoring.

インターネットで介した様々なサービスは、コンピュータにプログラムを導入したサーバを稼働させることで実現されている。しかしコンピュータは、常に安定して稼働しているわけではなく、思わぬ障害の発生によりサーバがダウンしたり動作が重くなることがある。サーバを常時監視して障害発生時に迅速な対応を取ることは安定したサービスを提供する上で重要となっている。 Various services provided via the Internet are made possible by running servers that have installed programs on computers. However, computers do not always operate stably, and unexpected problems can cause servers to go down or slow down. Constantly monitoring servers and responding quickly when a problem occurs is important for providing a stable service.

電子機器の障害の発生を検知するために、ネットワークを通じた電子機器の監視が行われている。特許文献1には、パーソナルコンピュータやサーバなどの保守管理対象装置、または、監視装置が、保守管理対象装置における障害の発生を通知することが開示されている。特許文献2には、プリンタなどの管理対象機器を使用状況に応じて所定の監視間隔で監視することが開示されている。 Electronic devices are monitored through a network to detect the occurrence of failures in the electronic devices. Patent Document 1 discloses that a maintenance-managed device such as a personal computer or server, or a monitoring device, notifies the occurrence of a failure in a maintenance-managed device. Patent Document 2 discloses that a managed device such as a printer is monitored at a predetermined monitoring interval according to the usage status.

なお、本開示に関連する技術として、特許文献3には、機器の累積的な運転状況の情報と、各機器に固有のパラメータを考慮して機器の異常の有無を判断する運用・保守支援システムが開示されている。 As a technology related to the present disclosure, Patent Document 3 discloses an operation and maintenance support system that determines whether or not an equipment malfunctions by taking into account information on the cumulative operating status of the equipment and parameters specific to each equipment.

特開2016-081374号公報JP 2016-081374 A 特開2014-053027号公報JP 2014-053027 A 特開2010-271905号公報JP 2010-271905 A

電子機器は温度や湿度などの動作環境によって故障率が変化する。しかし、特許文献2において、機器の動作環境を考慮して電子機器の監視の制御を行っていない。 The failure rate of electronic devices varies depending on the operating environment, such as temperature and humidity. However, in Patent Document 2, the monitoring of electronic devices is not controlled with the operating environment of the devices taken into consideration.

本開示は、サーバの動作環境を考慮して監視を制御する監視装置等を提供することを目的とする。 The present disclosure aims to provide a monitoring device etc. that controls monitoring while taking into account the operating environment of the server.

本開示に係る監視装置は、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する取得手段と、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する決定手段と、を備える。 The monitoring device according to the present disclosure includes an acquisition means for acquiring the individual failure rate caused by the hardware, operating time, and operating environment of each server, and a determination means for determining the monitoring interval for the server based on the individual failure rate.

本開示に係る監視方法は、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する。 The monitoring method disclosed herein obtains the individual failure rate caused by the hardware, operating time, and operating environment of each server, and determines the monitoring interval for the server based on the individual failure rate.

本開示に係るプログラムは、サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、前記個体故障率に基づき、前記サーバに対する監視間隔を決定する処理をコンピュータに実行させる。 The program disclosed herein acquires the individual failure rate caused by the hardware, operating time, and operating environment of each server, and causes a computer to execute a process of determining a monitoring interval for the server based on the individual failure rate.

本開示によれば、サーバの動作環境を考慮して監視を制御できる。 According to this disclosure, monitoring can be controlled taking into account the operating environment of the server.

第1実施形態に係る保守管理システムの構成を示す概略図である。1 is a schematic diagram showing a configuration of a maintenance management system according to a first embodiment. サーバ300のハードウェア概略図である。FIG. 3 is a schematic diagram of the hardware of the server 300. 保守管理システムの動作例を示すシーケンス図である。FIG. 2 is a sequence diagram showing an example of the operation of the maintenance management system. 関係モデルの例を示すグラフである。1 is a graph illustrating an example of a relational model. 関係モデルの他の例を示すグラフである。13 is a graph showing another example of a relational model. 第2実施形態に係る監視装置100の構成を示すブロック図である。FIG. 11 is a block diagram showing a configuration of a monitoring device 100 according to a second embodiment. 算出装置120の配置例を示す概略図である。FIG. 2 is a schematic diagram showing an example of the arrangement of a calculation device 120. 個体故障率と決定される監視間隔の関係の他の例を示すグラフである。13 is a graph showing another example of the relationship between the individual failure rate and the determined monitoring interval. 第2実施形態に係る監視装置100の動作例を示すフローチャートである。10 is a flowchart showing an example of the operation of the monitoring device 100 according to the second embodiment. コンピュータ500のハードウェア構成の例を示すブロック図である。FIG. 5 is a block diagram showing an example of the hardware configuration of a computer 500.

本開示において、大規模システムを構成する複数の電子機器を保守管理のために監視する監視装置について説明する。被監視対象の電子機器の例として、サーバを監視する監視装置を例に、以下実施形態において図面を参照しながら説明する。ただし被監視対象には、サーバ以外の電子機器が含まれてもよい。 In this disclosure, a monitoring device that monitors multiple electronic devices that make up a large-scale system for maintenance management purposes is described. As an example of an electronic device to be monitored, a monitoring device that monitors a server is taken as an example and described in the following embodiment with reference to the drawings. However, the monitored device may also include electronic devices other than servers.

[第1実施形態]
(構成)
図1は、第1実施形態に係る保守管理システムの構成を示す概略図である。保守管理システムは、監視装置100と被監視対象となる1以上のサーバラック200(200_1、・・・、200_y)を備える。各サーバラック200は、1以上のサーバ300(300_1、300_2、・・・、300_x)と温度センサ400を備える。監視装置100は、ネットワーク010によって各サーバ300及び温度センサ400と、通信可能に接続される。サーバラック200ごとのサーバ300の台数は任意に変更されうる。
[First embodiment]
(composition)
1 is a schematic diagram showing the configuration of a maintenance management system according to a first embodiment. The maintenance management system includes a monitoring device 100 and one or more server racks 200 (200_1, ..., 200_y) to be monitored. Each server rack 200 includes one or more servers 300 (300_1, 300_2, ..., 300_x) and a temperature sensor 400. The monitoring device 100 is communicatively connected to each server 300 and temperature sensor 400 via a network 010. The number of servers 300 in each server rack 200 can be changed arbitrarily.

監視装置100は、サーバ300における障害の発生の有無を監視する。第1実施形態において、監視装置100は、取得部101、算出部102、及び決定部103を備える。 The monitoring device 100 monitors whether or not a failure has occurred in the server 300. In the first embodiment, the monitoring device 100 includes an acquisition unit 101, a calculation unit 102, and a determination unit 103.

取得部101は、サーバ300ごとのハードウェア監視情報、稼働情報、及び、動作環境に関する情報を取得する。ハードウェア監視情報は、サーバ300内部の各部品の異常傾向を判定するためのハードウェア監視データを示す。稼働情報は、例えば初期配置からの稼働時間、または使用年数など、サーバ300の稼働状況を示す。動作環境に関する情報は、例えばサーバラック200内の温度、または湿度、あるいはサーバ300の温度を示す情報である。さらに、取得部101は、算出部102が算出した、各サーバ300のハードウェア、稼働情報、及び、動作環境に基づく個体故障率を取得する。 The acquisition unit 101 acquires hardware monitoring information, operation information, and information on the operating environment for each server 300. The hardware monitoring information indicates hardware monitoring data for determining abnormal trends in each component inside the server 300. The operation information indicates the operating status of the server 300, such as the operating time from initial placement or the number of years of use. The information on the operating environment is, for example, information indicating the temperature or humidity inside the server rack 200, or the temperature of the server 300. Furthermore, the acquisition unit 101 acquires the individual failure rate based on the hardware, operation information, and operating environment of each server 300 calculated by the calculation unit 102.

算出部102は、取得部101が取得したハードウェア監視情報、稼働情報、及び、動作環境に関する情報に基づいて、サーバ300ごとに個体故障率Pを算出する。個体故障率Pの算出については後述する。 The calculation unit 102 calculates the individual failure rate P for each server 300 based on the hardware monitoring information, operation information, and information on the operating environment acquired by the acquisition unit 101. The calculation of the individual failure rate P will be described later.

決定部103は、各サーバ300の個体故障率と監視間隔の関係モデルに基づいて、各サーバ300に対する監視間隔を決定する。監視間隔とは、監視装置100がサーバ300に対する障害の監視処理を実行した後、再度監視処理を実行するまでの時間間隔である。監視装置100は、監視処理として、例えば、サーバ300に対して入出力要求を送信し、入出力要求に対する応答時間が正常な範囲内であるか確認してもよい。あるいは、監視装置100は、監視処理として、サーバ300の各部品の監視データが正常な範囲内であるか確認してもよい。 The determination unit 103 determines the monitoring interval for each server 300 based on a relational model between the individual failure rate of each server 300 and the monitoring interval. The monitoring interval is the time interval from when the monitoring device 100 executes a fault monitoring process for the server 300 until it executes the monitoring process again. As the monitoring process, the monitoring device 100 may, for example, send an input/output request to the server 300 and check whether the response time to the input/output request is within a normal range. Alternatively, as the monitoring process, the monitoring device 100 may check whether the monitoring data for each component of the server 300 is within a normal range.

個体故障率と監視間隔の関係モデルは、個体故障率の増加に対応する監視間隔の減少傾向を示してもよい。関係モデルは、個体故障率と監視間隔の関係式によって表されてもよく、テーブルにより表されてもよい。関係モデルは、目的変数をネットワーク負荷とし、説明変数として例えば、故障率、監視間隔、サーバ台数、及びネットワーク帯域を用いた、機械学習によって得られてもよい。 The relational model between the individual failure rate and the monitoring interval may show a decreasing trend of the monitoring interval corresponding to an increase in the individual failure rate. The relational model may be represented by a relational equation between the individual failure rate and the monitoring interval, or may be represented by a table. The relational model may be obtained by machine learning using, for example, the failure rate, the monitoring interval, the number of servers, and the network bandwidth as explanatory variables, with the network load as the objective variable.

第1実施形態において、温度センサ400は、サーバラック200内の温度を測定する。温度センサ400は、測定温度をサーバラック200内のサーバ300_1、・・・、300_xの動作環境に関する情報として、監視装置100に送信する。 In the first embodiment, the temperature sensor 400 measures the temperature inside the server rack 200. The temperature sensor 400 transmits the measured temperature to the monitoring device 100 as information about the operating environment of the servers 300_1, ..., 300_x in the server rack 200.

動作環境に関する情報として、各サーバ300の温度を用いる場合、1台のサーバ300ごとに1つの温度センサ400が設置されてもよい。温度センサ400は各サーバの測定温度を監視装置100に送信する。 When the temperature of each server 300 is used as information about the operating environment, one temperature sensor 400 may be installed for each server 300. The temperature sensor 400 transmits the measured temperature of each server to the monitoring device 100.

サーバラック200内には、取得部101が取得する動作環境に関する情報の種類に応じて、他のセンサが設置されうる。動作環境に関する情報として湿度を用いる場合、以下の説明において温度センサ400に関する説明は湿度センサに置き換えることができる。 Other sensors may be installed in the server rack 200 depending on the type of information about the operating environment acquired by the acquisition unit 101. If humidity is used as the information about the operating environment, the description of the temperature sensor 400 in the following explanation can be replaced with a humidity sensor.

図2は、サーバ300のハードウェア概略図である。CPU(Central Processing Unit)301、メモリ302、HDD(hard disk drive)303、イーサポート304、及び、BMC(Baseboard Management Controller)309を備える。BMC309は、サーバ300のハードウェア(サーバ300内部に構成する各部品、要素)からの監視データを取得し、ハードウェア監視情報として監視装置100に送信する。 Figure 2 is a hardware schematic diagram of server 300. It comprises a CPU (Central Processing Unit) 301, memory 302, HDD (hard disk drive) 303, EtherPort 304, and BMC (Baseboard Management Controller) 309. BMC 309 acquires monitoring data from the hardware of server 300 (each component and element configured within server 300) and transmits it to monitoring device 100 as hardware monitoring information.

(動作)
図3は、保守管理システムの動作例を示すシーケンス図である。図3において、簡略化のためにサーバ300は1台だけ示されているが、各サーバ300は同様に動作する。
(Operation)
Fig. 3 is a sequence diagram showing an example of the operation of the maintenance management system. For the sake of simplicity, only one server 300 is shown in Fig. 3, but each server 300 operates in the same manner.

<<ハードウェアに起因する故障率の算出>>
監視装置100の取得部101は、ネットワーク010とBMC309を介して、サーバ300からハードウェア監視情報を取得する。算出部102は、取得部101が取得した監視情報に基づいてハードウェアに起因する故障率Pを算出する(ステップS101)。
<<Calculating the failure rate due to hardware>>
The acquisition unit 101 of the monitoring device 100 acquires hardware monitoring information from the server 300 via the network 010 and the BMC 309. The calculation unit 102 calculates a failure rate P h caused by hardware based on the monitoring information acquired by the acquisition unit 101 (step S101).

ハードウェアに起因する故障率Pとは、個々の装置の故障の起こり得る確率である。故障率Pは、例えば0から1(あるいは0%から100%)の間で算出される。 The hardware failure rate P h is the probability that a failure of an individual device may occur, and is calculated, for example, between 0 and 1 (or 0% and 100%).

ハードウェア監視情報は、CPU301、メモリ302、HDD303、イーサポート304、電源など、複数の監視対象部品に対応するそれぞれの監視データを含む。CPU301に関する監視データは、例えば、CPUの使用率及び温度である。メモリ302に関する監視データとして、例えば、ECC(Error checking and correcting)におけるエラーの回数が用いられる。HDD303に関する監視データとして、例えばSMART(Self-Monitoring, Analysis and Reporting Technology)による検査値が用いられる。電源に関する監視データは、例えば電源の冗長化状態を示す。 The hardware monitoring information includes monitoring data corresponding to multiple monitored components such as the CPU 301, memory 302, HDD 303, ethernet port 304, and power supply. The monitoring data related to the CPU 301 is, for example, the CPU usage rate and temperature. The monitoring data related to the memory 302 is, for example, the number of errors in ECC (Error checking and correcting). The monitoring data related to the HDD 303 is, for example, an inspection value obtained by SMART (Self-Monitoring, Analysis and Reporting Technology). The monitoring data related to the power supply indicates, for example, the redundant state of the power supply.

算出部102は、例えば、ハードウェアの故障対象部品ごとに取得された監視データの値に基づいて異常傾向の有無を判定する。算出部102は、監視データが所定の閾値を超えたとき、部品に異常傾向があると判定する。あるいは、算出部102は、部品の監視データの値に基づいて算出した部品の故障率が所定の閾値以上である場合に、該部品に異常傾向があると判定してもよい。監視情報が100個の部品に関する情報を含む場合、算出部102は、例えば、異常傾向のある部品の数だけ故障率Pを+0.01(あるいは+1%)増加させる。なお、監視情報に含まれる部品の重要度や計測されたデータの値に基づいて、増加させる故障率Pは部品ごとに調整されてもよい。 The calculation unit 102 determines whether or not there is an abnormal trend based on, for example, the value of the monitoring data acquired for each hardware component that is subject to failure. The calculation unit 102 determines that a component has an abnormal trend when the monitoring data exceeds a predetermined threshold. Alternatively, the calculation unit 102 may determine that a component has an abnormal trend when the failure rate of the component calculated based on the value of the monitoring data of the component is equal to or greater than a predetermined threshold. When the monitoring information includes information on 100 components, the calculation unit 102 increases the failure rate P h by, for example, +0.01 (or +1%) by the number of components that have an abnormal trend. Note that the increased failure rate P h may be adjusted for each component based on the importance of the component included in the monitoring information and the value of the measured data.

<<動作環境に起因する故障率の算出>>
監視装置100の取得部101は、サーバ300の動作環境に関する情報として、サーバラック200に設置された温度センサ400の測定温度を取得する。算出部102は、取得部101が取得した温度に基づいて動作環境に起因する故障率Pを算出する(ステップS102)。
<< Calculation of failure rate due to operating environment >>
The acquisition unit 101 of the monitoring device 100 acquires temperatures measured by the temperature sensors 400 installed in the server rack 200 as information about the operating environment of the servers 300. The calculation unit 102 calculates the failure rate Pe caused by the operating environment based on the temperatures acquired by the acquisition unit 101 (step S102).

動作環境に起因する故障率Pとは、サーバ300が設置される環境と安定稼働条件との差異に基づいて算出される故障の確率である。故障率Pは例えば0から1(0%から100%)の間で算出される。 The failure rate P e due to the operating environment is a failure probability calculated based on the difference between the environment in which the server 300 is installed and the stable operating conditions. The failure rate P e is calculated, for example, between 0 and 1 (0% to 100%).

算出部102は、例えば、温度が稼働想定温度の中央値であれば0(あるいは0%)、温度上限値以上であれば1(あるいは100%)、温度下限値以下であれば1(あるいは100%)と算出する。算出部102は、動作環境温度の変化率、温度の継続時間、または、所定の上限値若しくは下限値を超えた回数を考慮し、故障率Pを算出してもよい。 For example, the calculation unit 102 calculates the failure rate P e as 0 (or 0%) if the temperature is the median of the assumed operating temperatures, as 1 (or 100%) if the temperature is equal to or higher than the upper temperature limit, and as 1 (or 100%) if the temperature is equal to or lower than the lower temperature limit. The calculation unit 102 may calculate the failure rate P e by taking into consideration the rate of change of the operating environment temperature, the duration of the temperature, or the number of times a predetermined upper or lower limit has been exceeded.

なお、取得部101は、外部装置からサーバ300が配置されたサーバルームの温度分布を取得してもよい。取得部101は、サーバルームの温度分布とサーバ300の配置に基づいて、各サーバ300の動作環境温度を取得してもよい。 The acquisition unit 101 may acquire the temperature distribution of the server room in which the servers 300 are arranged from an external device. The acquisition unit 101 may acquire the operating environment temperature of each server 300 based on the temperature distribution of the server room and the arrangement of the servers 300.

<<稼働時間に起因する故障率の算出>>
サーバ300は初期配置からの合計稼働時間(合計通電時間)を記録、蓄積する。取得部101は、サーバ300からサーバ300の稼働時間を稼働情報として取得する。算出部102は、稼働時間に基づいて故障率Pを算出する(ステップS103)。
<<Calculating the failure rate due to operating time>>
The server 300 records and accumulates the total operation time (total power-on time) from the initial placement. The acquisition unit 101 acquires the operation time of the server 300 from the server 300 as operation information. The calculation unit 102 calculates the failure rate Pt based on the operation time (step S103).

稼働時間に起因する故障率Pとは、合計稼働時間に起因するサーバ300の寿命特性を示す装置のバスタブ曲線に基づいて算出される故障の確率である。故障率Pは、未使用状態で0(0%)、稼働時間上限値を1(100%)とする。 The failure rate Pt due to operating time is the probability of failure calculated based on a bathtub curve of the device that indicates the lifespan characteristics of the server 300 due to the total operating time. The failure rate Pt is set to 0 (0%) in an unused state, and the upper limit of operating time is set to 1 (100%).

<<個体故障率Pの算出と取得>>
算出部102は、それぞれのサーバ300に対して算出されたハードウェアに起因する故障率P、動作環境に起因する故障率P、及び、稼働時間に起因する故障率Pを総合的に考慮して、個体故障率Pを算出する(ステップS104)。取得部101は、算出部102が算出した個体故障率Pを取得する(ステップS105)。
<<Calculation and acquisition of individual failure rate P>>
The calculation unit 102 calculates the individual failure rate P by comprehensively considering the failure rate P h due to hardware, the failure rate P e due to the operating environment, and the failure rate P t due to the operating time calculated for each server 300 (step S104). The acquisition unit 101 acquires the individual failure rate P calculated by the calculation unit 102 (step S105).

ステップS101~103の順番は変更可能である。 The order of steps S101 to S103 can be changed.

個体故障率Pの算出例1:算出部102は、3つの故障率P,P,Pに優先順位や重みづけをつけてもよい。個体故障率Pは例えば以下の式で表される。
P=W×P+W×P+W×P (重み付け定数W,W,W>0)
個体故障率Pの算出例2:算出部102は、故障率P及びPが所定値まで増加したとき、故障率Pの重みWを小さく設定してもよい。つまり、ハードウェアに起因する故障率Pと稼働時間に起因する故障率Pが高いサーバは、動作環境に起因する故障率Pが低くても、個体故障率Pを高く算出してもよい。これによりサーバは短い監視間隔で監視される。
Calculation example 1 of individual failure rate P: The calculation unit 102 may prioritize or weight the three failure rates P h , P e , and P t . The individual failure rate P is expressed by, for example, the following formula.
P = W h × P h + W e × P e + W t × P t (weighting constants W h , W e , W t > 0)
Calculation example 2 of individual failure rate P: The calculation unit 102 may set the weight W e of the failure rate P e to be small when the failure rates P h and P t increase to a predetermined value. In other words, for a server with a high hardware-related failure rate P h and a high operating time-related failure rate P t , the individual failure rate P may be calculated to be high even if the operating environment-related failure rate P e is low. This allows the server to be monitored at a short monitoring interval.

<<監視間隔の決定>>
決定部103は、サーバ300の個体故障率と監視間隔の関係モデルに基づいて、サーバ300に対する監視間隔を決定する(ステップS106)。図4は、関係モデルの例を示すグラフである。図4において、個体故障率Pと監視間隔Iの関係モデルは直線により表されているが、曲線であってもよい。また図4において、個体故障率の増加に伴い、監視間隔Iは連続した値が設定されているが、監視間隔Iは非連続(離散的)であってもよい。監視間隔Iは個体故障率Pの範囲によって、異なる関係式により表されてもよい。
<<Determining monitoring interval>>
The determining unit 103 determines the monitoring interval for the server 300 based on the relational model between the individual failure rate of the server 300 and the monitoring interval (step S106). Fig. 4 is a graph showing an example of the relational model. In Fig. 4, the relational model between the individual failure rate P and the monitoring interval I is represented by a straight line, but it may be a curved line. Also, in Fig. 4, the monitoring interval I is set to a continuous value as the individual failure rate increases, but the monitoring interval I may be discontinuous (discrete). The monitoring interval I may be represented by a different relational equation depending on the range of the individual failure rate P.

個体故障率Pが100に近いほど、監視間隔Iは一般的な監視装置の通常の監視間隔よりも短く定められてもよい。また、個体故障率Pが0に近いほど、監視間隔Iは一般的な監視装置の通常の監視間隔よりも長く定められてもよい。 The closer the individual failure rate P is to 100, the shorter the monitoring interval I may be set than the normal monitoring interval of a typical monitoring device. Also, the closer the individual failure rate P is to 0, the longer the monitoring interval I may be set than the normal monitoring interval of a typical monitoring device.

監視装置100は、サーバ300ごとに決定された監視間隔によりサーバ300を監視する。 The monitoring device 100 monitors the server 300 at a monitoring interval determined for each server 300.

(効果)
第1実施形態によれば、サーバ300の動作環境を考慮して監視を制御できる。その理由は、監視装置100の取得部101がサーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、決定部103が個体故障率に基づきサーバ300に対する監視間隔を決定するためである。
(effect)
According to the first embodiment, monitoring can be controlled in consideration of the operating environment of the server 300. This is because the acquisition unit 101 of the monitoring device 100 acquires the individual failure rate caused by the hardware, operating time, and operating environment of each server, and the determination unit 103 determines the monitoring interval for the server 300 based on the individual failure rate.

システムの保守管理において、1つの監視装置により多くの電子機器を監視することが行われている。システムの規模が大きくなればなるほど被監視対象の電子機器が増える。また、監視項目が一つ増えるたびに電子機器の台数分のアクセスが増えるためネットワーク負荷、及び、監視装置の負荷が増加する。そのため、大きなシステムでは監視間隔を一律に長くすることにより、ネットワーク負荷、監視装置の負荷を下げることが行われる。 In system maintenance management, many electronic devices are monitored using one monitoring device. The larger the system, the more electronic devices must be monitored. Furthermore, each time a monitoring item is added, the number of accesses increases by the number of electronic devices, which increases the network load and the load on the monitoring device. For this reason, in large systems, the monitoring interval is uniformly lengthened to reduce the network load and the load on the monitoring device.

しかし、監視間隔が長いと、障害発生から監視装置が障害を検出するまでの時間が長くなる。即時に障害を検出できなければ、システム全体の稼働率を下げ、さらには、サービス品質の低下につながる。 However, if the monitoring interval is long, it will take a long time for the monitoring device to detect a failure after it occurs. If failures cannot be detected immediately, this will reduce the overall system availability and even lead to a deterioration in service quality.

第1実施形態によれば、決定部103が、所定の故障率の基準より個体故障率Pが低いサーバ300の監視間隔を所定の監視間隔の基準より長く決定することで、多くのサーバを監視する際のネットワーク010の負荷を低減し、監視負荷を低減できる。 According to the first embodiment, the determination unit 103 determines the monitoring interval for the server 300 whose individual failure rate P is lower than the predetermined failure rate standard to be longer than the predetermined monitoring interval standard, thereby reducing the load on the network 010 when monitoring many servers and reducing the monitoring load.

さらに、第1実施形態によれば、決定部103が、所定の故障率の基準より個体故障率Pが高いサーバ300の監視間隔を所定の監視間隔の基準よりも短くすることで、実際の障害発生から監視装置100が障害を検知するまでの時間を短くし、障害の検知の遅延を防ぐことができる。 Furthermore, according to the first embodiment, the determination unit 103 sets the monitoring interval of the server 300 whose individual failure rate P is higher than the predetermined failure rate standard to be shorter than the predetermined monitoring interval standard, thereby shortening the time from the actual occurrence of a failure to the monitoring device 100 detecting the failure, and preventing delays in detecting the failure.

(変形例)
図5は、関係モデルの他の例を示すグラフである。図5において、関係モデルは個体故障率Pが基準故障率Pより小さいか、基準故障率P以上であるかによって、異なる関係式により表されている。
(Modification)
5 is a graph showing another example of the relational model, in which the relational model is expressed by different relational expressions depending on whether the individual failure rate P is smaller than the reference failure rate P0 or equal to or greater than the reference failure rate P0 .

P≦Pのとき、I=I
0<P<Pのとき、I=I
図5の例において、例えば、監視間隔Iは2~3分、監視間隔Iは1時間と定められてもよい。決定部103は、例えば、所定期間における各サーバラック200の各サーバ300_1、300_2、・・・、300_xの個体故障率の平均値、あるいは中央値を基準故障率Pとしてもよい。また、決定部103は、基準故障率Pは上述の機械学習を用いて設定されてよい。
When P≦ P0 , I=I A
When 0<P< P0 , I= IB
5, for example, the monitoring interval I A may be set to 2 to 3 minutes, and the monitoring interval I B may be set to 1 hour. The determination unit 103 may set the reference failure rate P 0 to, for example, the average or median of the individual failure rates of the servers 300_1, 300_2, ..., 300_x of each server rack 200 in a predetermined period. The determination unit 103 may set the reference failure rate P 0 using the above-mentioned machine learning.

[第2実施形態]
第1実施形態において、監視装置100が個体故障率Pを算出する算出部を備える場合について説明した。第2実施形態において、他の装置が第1実施形態に係る算出部102の機能を有し、監視装置100が、算出装置によって算出された個体故障率Pを取得する場合について説明する。第1実施形態と同様の説明は、第2実施形態の説明において省略する。
[Second embodiment]
In the first embodiment, a case has been described in which the monitoring device 100 includes a calculation unit that calculates the individual failure rate P. In the second embodiment, a case will be described in which another device has the function of the calculation unit 102 according to the first embodiment, and the monitoring device 100 acquires the individual failure rate P calculated by the calculation unit. Descriptions similar to those in the first embodiment will be omitted in the description of the second embodiment.

(構成)
図6は、第2実施形態に係る監視装置100の構成を示すブロック図である。第2実施形態に係る監視装置100は、取得部121と決定部122を備える。第2実施形態に係る監視装置100は、図1における監視装置100と置き換えることができる。
(composition)
6 is a block diagram showing the configuration of a monitoring device 100 according to the second embodiment. The monitoring device 100 according to the second embodiment includes an acquisition unit 121 and a determination unit 122. The monitoring device 100 according to the second embodiment can be substituted for the monitoring device 100 in FIG.

図7は、算出装置120の配置例を示す、第2実施形態に係る保守管理システムの概略図である。図7に示すように、1台の確率算出装置120が、監視装置100、各サーバラック200の各サーバ300及び温度センサ400と通信可能に接続されてもよい。算出装置120は、各サーバ300からハードウェア監視情報と、稼働情報を取得し、温度センサ400から動作環境に関する情報を取得する。 Figure 7 is a schematic diagram of a maintenance management system according to the second embodiment, showing an example of the arrangement of the calculation device 120. As shown in Figure 7, one probability calculation device 120 may be communicatively connected to the monitoring device 100, each server 300 in each server rack 200, and a temperature sensor 400. The calculation device 120 acquires hardware monitoring information and operation information from each server 300, and acquires information about the operating environment from the temperature sensor 400.

監視装置100の取得部121は、外部の算出装置120から、各サーバ300のハードウェア、稼働情報、及び、動作環境に基づく個体故障率を取得する。 The acquisition unit 121 of the monitoring device 100 acquires the individual failure rate based on the hardware, operation information, and operating environment of each server 300 from the external calculation device 120.

決定部122は、各サーバ300の個体故障率に基づいて、サーバに対する監視間隔を決定する。 The determination unit 122 determines the monitoring interval for each server 300 based on the individual failure rate of the server.

決定部122は、個体故障率が所定の基準故障率より高い場合、サーバ300の監視間隔を第1の監視間隔に決定し、個体故障率が該基準故障率より低い場合、サーバ300の監視間隔を第1の監視間隔より長い第2の監視間隔に決定してもよい。個体故障率が基準故障率と等しい場合、決定部122は、監視間隔を第1の監視間隔以上であり第2の監視間隔以下の任意の時間に決定する。 The determination unit 122 may determine the monitoring interval of the server 300 to be a first monitoring interval if the individual failure rate is higher than a predetermined reference failure rate, and may determine the monitoring interval of the server 300 to be a second monitoring interval longer than the first monitoring interval if the individual failure rate is lower than the reference failure rate. If the individual failure rate is equal to the reference failure rate, the determination unit 122 determines the monitoring interval to be an arbitrary time equal to or greater than the first monitoring interval and equal to or less than the second monitoring interval.

個体故障率と決定部122により決定される監視間隔の関係は、図4、または、図5のグラフにより示されてもよい。図8は、個体故障率と決定される監視間隔の関係の他の例を示すグラフである。図8において、基準故障率P~Pに対応して、監視間隔I~Iが決定される。基準故障率P~Pはそれぞれ、所定の基準故障率の一実施形態である。監視間隔I~Iはそれぞれ第1または第2の監視間隔の一実施形態である。 The relationship between the individual failure rate and the monitoring interval determined by the determination unit 122 may be shown by the graph of Fig. 4 or Fig. 5. Fig. 8 is a graph showing another example of the relationship between the individual failure rate and the determined monitoring interval. In Fig. 8, monitoring intervals I1 to I5 are determined corresponding to reference failure rates P1 to P4 . Each of the reference failure rates P1 to P4 is an embodiment of the predetermined reference failure rate. Each of the monitoring intervals I1 to I5 is an embodiment of the first or second monitoring interval.

監視装置100は、決定した監視間隔によりサーバ300を監視する。あるいは、監視装置100は、図示しない他の監視処理実行装置に決定した監視間隔を送信し、監視処理実行装置にサーバ300を監視させる。 The monitoring device 100 monitors the server 300 at the determined monitoring interval. Alternatively, the monitoring device 100 transmits the determined monitoring interval to another monitoring process execution device (not shown) and causes the monitoring process execution device to monitor the server 300.

図7において、1台の算出装置120が配置されているが、算出装置120は1台のサーバラック200ごとに1台配置されてもよい。このとき、算出装置120はサーバラック200内の各サーバ300の個体故障率を算出する。あるいは、算出装置120の機能は、各サーバ300が備えてもよい。このとき、各サーバ300は温度センサ400から動作環境に関する情報を取得し、自装置の個体故障率を算出する。監視装置100は複数の算出装置120のそれぞれから各サーバ300の個体故障率を取得する。 In FIG. 7, one calculation device 120 is arranged, but one calculation device 120 may be arranged for each server rack 200. In this case, the calculation device 120 calculates the individual failure rate of each server 300 in the server rack 200. Alternatively, the functions of the calculation device 120 may be provided in each server 300. In this case, each server 300 obtains information about the operating environment from the temperature sensor 400 and calculates the individual failure rate of its own device. The monitoring device 100 obtains the individual failure rate of each server 300 from each of the multiple calculation devices 120.

(動作)
図9は、第2実施形態に係る監視装置100の動作例を示すフローチャートである。取得部121は、サーバ300ごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する(ステップS121)。決定部122は、各サーバ300の個体故障率に基づいて、サーバ300に対する監視間隔を決定する(ステップS122)。
(Operation)
9 is a flowchart showing an example of the operation of the monitoring device 100 according to the second embodiment. The acquisition unit 121 acquires the individual failure rate caused by the hardware, the operating time, and the operating environment of each server 300 (step S121). The determination unit 122 determines the monitoring interval for each server 300 based on the individual failure rate of each server 300 (step S122).

(効果)
第2実施形態によれば、サーバ300の動作環境を考慮して監視を制御できる。その理由は、監視装置100の取得部121がサーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、決定部122が個体故障率に基づきサーバ300に対する監視間隔を決定するためである。
(effect)
According to the second embodiment, monitoring can be controlled in consideration of the operating environment of the server 300. This is because the acquisition unit 121 of the monitoring device 100 acquires the individual failure rate caused by the hardware, operating time, and operating environment of each server, and the determination unit 122 determines the monitoring interval for the server 300 based on the individual failure rate.

(変形例)
決定部122は、個体故障率に加えて、さらに、監視間隔ごとのサーバ300の台数の割合、あるいは上限数に基づいて、サーバに対する監視間隔を決定してもよい。すなわち、決定部122は、例えば、第1の監視間隔で監視するサーバ300が所定の上限数に達した場合、残りのサーバ300はより長い第2の監視間隔で監視されるよう、基準故障率を決定する。
(Modification)
The determination unit 122 may determine the monitoring interval for the servers based on the ratio of the number of servers 300 for each monitoring interval or the upper limit number in addition to the individual failure rate. That is, the determination unit 122 determines the reference failure rate so that, for example, when the number of servers 300 monitored at a first monitoring interval reaches a predetermined upper limit number, the remaining servers 300 are monitored at a longer second monitoring interval.

本変形例によれば、多くのサーバを監視する際のネットワークの負荷を低減し、監視負荷を低減する要請と、実際の障害発生から監視装置100が障害を検知するまでの時間を短くし、障害の検知の遅延を防ぐ要請の両方に応えることができる。 This modified example can reduce the network load when monitoring many servers, thereby meeting both the demand to reduce the monitoring load and the demand to shorten the time from when an actual failure occurs until the monitoring device 100 detects the failure, thereby preventing delays in failure detection.

[ハードウェア構成]
上述した各実施形態において、監視装置100の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部又は全部は、コンピュータ500とプログラムとの任意の組み合わせにより実現されてもよい。
[Hardware configuration]
In each of the above-described embodiments, each component of the monitoring device 100 is represented by a functional block. A part or all of each component of each device may be realized by any combination of the computer 500 and a program.

図10は、コンピュータ500のハードウェア構成の例を示すブロック図である。図10を参照すると、コンピュータ500は、例えば、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、プログラム504、記憶装置505、ドライブ装置507、通信インタフェース508、入力装置509、入出力インタフェース511、及び、バス512を含む。 FIG. 10 is a block diagram showing an example of the hardware configuration of a computer 500. Referring to FIG. 10, the computer 500 includes, for example, a CPU (Central Processing Unit) 501, a ROM (Read Only Memory) 502, a RAM (Random Access Memory) 503, a program 504, a storage device 505, a drive device 507, a communication interface 508, an input device 509, an input/output interface 511, and a bus 512.

プログラム504は、各装置の各機能を実現するための命令(instruction)を含む。プログラム504は、予め、ROM502やRAM503、記憶装置505に格納される。CPU501は、プログラム504に含まれる命令を実行することにより、各装置の各機能を実現する。例えば、監視装置100のCPU501がプログラム504に含まれる命令を実行することにより、監視装置100の機能を実現する。また、RAM503は、各装置の各機能において処理されるデータを記憶してもよい。例えば、コンピュータ500のRAM503に、監視装置100の算出部102が用いるハードウェア監視情報、動作環境温度を記憶してもよい。 The program 504 includes instructions for implementing each function of each device. The program 504 is stored in advance in the ROM 502, the RAM 503, or the storage device 505. The CPU 501 implements each function of each device by executing the instructions included in the program 504. For example, the CPU 501 of the monitoring device 100 implements the functions of the monitoring device 100 by executing the instructions included in the program 504. The RAM 503 may also store data to be processed in each function of each device. For example, the RAM 503 of the computer 500 may store hardware monitoring information and operating environment temperature used by the calculation unit 102 of the monitoring device 100.

ドライブ装置507は、記録媒体506の読み書きを行う。通信インタフェース508は、通信ネットワークとのインタフェースを提供する。入力装置509は、例えば、マウスやキーボード等であり、保守管理システムの管理者からの情報の入力を受け付ける。出力装置510は、例えば、ディスプレイであり、管理者へ情報を出力(表示)する。入出力インタフェース511は、周辺機器とのインタフェースを提供する。バス512は、これらハードウェアの各構成要素を接続する。なお、プログラム504は、通信ネットワークを介してCPU501に供給されてもよいし、予め、記録媒体506に格納され、ドライブ装置507により読み出され、CPU501に供給されてもよい。 The drive device 507 reads and writes data from the recording medium 506. The communication interface 508 provides an interface with the communication network. The input device 509 is, for example, a mouse or keyboard, and accepts information input from the administrator of the maintenance management system. The output device 510 is, for example, a display, and outputs (displays) information to the administrator. The input/output interface 511 provides an interface with peripheral devices. The bus 512 connects these hardware components. The program 504 may be supplied to the CPU 501 via the communication network, or may be stored in advance on the recording medium 506, read by the drive device 507, and supplied to the CPU 501.

なお、図10に示されているハードウェア構成は例示であり、これら以外の構成要素が追加されていてもよく、一部の構成要素を含まなくてもよい。 Note that the hardware configuration shown in FIG. 10 is an example, and other components may be added, or some components may not be included.

各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ異なるコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。 There are various variations in the way each device can be realized. For example, each device may be realized by any combination of a different computer and program for each component. Also, multiple components of each device may be realized by any combination of a single computer and program.

また、各装置の各構成要素の一部又は全部は、プロセッサ等を含む汎用又は専用の回路(circuitry)や、これらの組み合わせによって実現されてもよい。これらの回路は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。 In addition, some or all of the components of each device may be realized by general-purpose or dedicated circuits including a processor, etc., or a combination of these. These circuits may be configured by a single chip, or may be configured by multiple chips connected via a bus. Some or all of the components of each device may be realized by a combination of the above-mentioned circuits, etc., and a program.

また、各装置の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。 In addition, when some or all of the components of each device are realized by multiple computers, circuits, etc., the multiple computers, circuits, etc. may be centralized or distributed.

また、監視装置100の少なくとも一部がSaaS(Software as a Service)形式で提供されてよい。すなわち、監視装置100を実現するための機能の少なくとも一部が、ネットワーク経由で実行されるソフトウェアによって実行されてよい。 In addition, at least a part of the monitoring device 100 may be provided in a SaaS (Software as a Service) format. That is, at least a part of the functions for realizing the monitoring device 100 may be executed by software executed via a network.

以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本開示のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。 Although the present disclosure has been described above with reference to the embodiments, the present disclosure is not limited to the above-mentioned embodiments. Various modifications that can be understood by a person skilled in the art can be made to the configuration and details of the present disclosure within the scope of the present disclosure. Furthermore, the configurations in each embodiment can be combined with each other as long as they do not deviate from the scope of the present disclosure.

100 監視装置
101、121 取得部
102 算出部
103、122 決定部
120 算出装置
200 サーバラック
300 サーバ
400 温度センサ
500 コンピュータ
REFERENCE SIGNS LIST 100 Monitoring device 101, 121 Acquisition unit 102 Calculation unit 103, 122 Determination unit 120 Calculation device 200 Server rack 300 Server 400 Temperature sensor 500 Computer

Claims (7)

サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得する取得手段と、
前記個体故障率の増加に対応する監視間隔の減少傾向を示す関係モデルに基づき、前記サーバに対する監視間隔を前記サーバごとに決定する決定手段と、
を備える監視装置。
An acquisition means for acquiring an individual failure rate caused by hardware, operating time, and operating environment of each server;
a determination means for determining a monitoring interval for each of the servers based on a relational model showing a decreasing trend of the monitoring interval corresponding to an increase in the individual failure rate;
A monitoring device comprising:
前記取得手段は、前記サーバごとのハードウェア監視情報、稼働時間、及び、サーバラック内の前記サーバの動作環境温度に基づく前記個体故障率を取得する、
請求項1に記載の監視装置。
the acquiring means acquires the individual failure rate based on hardware monitoring information, operating time, and operating environment temperature of the server in the server rack for each of the servers;
The monitoring device according to claim 1.
前記サーバごとのハードウェア監視情報、稼働時間、及び、前記サーバの動作環境温度に基づいて、前記個体故障率を算出する算出手段をさらに備える、
請求項1または2に記載の監視装置。
a calculation unit for calculating the individual failure rate based on the hardware monitoring information for each server, an operating time, and an operating environment temperature of the server;
3. A monitoring device according to claim 1 or 2.
前記決定手段は、
前記個体故障率が所定の基準故障率より高い場合、前記サーバの監視間隔を第1の監視間隔に決定し、
前記個体故障率が前記基準故障率より低い場合、前記サーバの監視間隔を第1の監視間隔より長い第2の監視間隔に決定する、
請求項1乃至3のいずれか1項に記載の監視装置。
The determining means is
If the individual failure rate is higher than a predetermined reference failure rate, a monitoring interval of the server is determined to be a first monitoring interval;
If the individual failure rate is lower than the reference failure rate, determining a monitoring interval of the server to be a second monitoring interval that is longer than the first monitoring interval.
A monitoring device according to any one of claims 1 to 3 .
前記決定手段は、さらに、前記監視間隔で監視する前記サーバの上限数に基づいて、前記監視間隔を決定する
請求項1乃至4のいずれか1項に記載の監視装置。
The monitoring device according to claim 1 , wherein the determining unit determines the monitoring interval based on an upper limit number of the servers to be monitored during the monitoring interval.
監視装置が、
サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、
前記個体故障率の増加に対応する監視間隔の減少傾向を示す関係モデルに基づき、前記サーバに対する監視間隔を前記サーバごとに決定する、
監視方法。
The monitoring device,
Obtain the individual failure rate due to the hardware, operating time, and operating environment of each server,
determining a monitoring interval for each of the servers based on a relational model showing a decreasing trend of the monitoring interval corresponding to an increase in the individual failure rate;
Monitoring methods.
サーバごとのハードウェア、稼働時間、及び、動作環境に起因する個体故障率を取得し、
前記個体故障率の増加に対応する監視間隔の減少傾向を示す関係モデルに基づき、前記サーバに対する監視間隔を前記サーバごとに決定する、
処理をコンピュータに実行させるプログラム。
Obtain the individual failure rate due to the hardware, operating time, and operating environment of each server,
determining a monitoring interval for each of the servers based on a relational model showing a decreasing trend of the monitoring interval corresponding to an increase in the individual failure rate;
A program that causes a computer to carry out processing.
JP2020199275A 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program Active JP7604858B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020199275A JP7604858B2 (en) 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020199275A JP7604858B2 (en) 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program

Publications (2)

Publication Number Publication Date
JP2022087371A JP2022087371A (en) 2022-06-13
JP7604858B2 true JP7604858B2 (en) 2024-12-24

Family

ID=81975664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020199275A Active JP7604858B2 (en) 2020-12-01 2020-12-01 Monitoring device, monitoring method, and program

Country Status (1)

Country Link
JP (1) JP7604858B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014053027A (en) 2013-10-16 2014-03-20 Ricoh Co Ltd Monitoring control method, remote management system and remote management device
JP2016192016A (en) 2015-03-31 2016-11-10 富士通エフ・アイ・ピー株式会社 Information processing device, program, and information providing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014053027A (en) 2013-10-16 2014-03-20 Ricoh Co Ltd Monitoring control method, remote management system and remote management device
JP2016192016A (en) 2015-03-31 2016-11-10 富士通エフ・アイ・ピー株式会社 Information processing device, program, and information providing method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OKITA, Hideki et al,DYNAMICALLY PRIORITIZED VIERTUAL-NETWORK MONITORING ACCORDING TO LIFECYCLE OF VIRTUAL MACHINES IN LARGE SCALE DATA CENTER,Proceedings of the 19th International Conference on WWW/Internet(ICWI 2020),米国,IEEE,2020年11月18日,pp. 123-131
沖田 英樹 他,仮想マシンの累計稼働時間に基づく仮想ネットワーク動的優先監視方式の検討,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2020年11月19日,Vol.120 No.259,pp.61-66,[ISSN]2432-6380

Also Published As

Publication number Publication date
JP2022087371A (en) 2022-06-13

Similar Documents

Publication Publication Date Title
US6480809B1 (en) Computer system monitoring
US11422595B2 (en) Method and system for supervising a health of a server infrastructure
CN100533399C (en) Self-learning method and system for detecting anomalies
JP3831377B2 (en) Method and apparatus for analyzing power failure in a computer system
US8930736B2 (en) Inferred electrical power consumption of computing devices
JP4912127B2 (en) THROTTLE ADJUSTING METHOD AND SYSTEM IN BREAT COMPUTER SYSTEM
US20160034208A1 (en) Solid-state disk (ssd) management
AU2012221821B2 (en) Network event management
US20050188263A1 (en) Detecting and correcting a failure sequence in a computer system before a failure occurs
JP6663970B2 (en) System power management method and computer system
JP2019071077A (en) Method and device for performing environment management by use of smart alarm
CN116225812B (en) Baseboard management controller system operation method, device, equipment and storage medium
CN109040277A (en) A kind of long-distance monitoring method and device of server
US20160378158A1 (en) Failure recovery of distributed control of power and thermal management
JP7604858B2 (en) Monitoring device, monitoring method, and program
CN119105710A (en) An online monitoring system and method based on the use status of monitoring equipment
CN111338891A (en) A kind of fan stability testing method and device
Levy et al. Characterizing the Impact of Job Execution on the Occurrence of Memory Failures on a Petascale HPC System
CN115686890A (en) Processor fault early warning method, system, electronic equipment and medium
US10635522B2 (en) Processor-fault reproduction method, information processing apparatus, and recording medium recording execution-time reporting program
JP7500817B2 (en) Information processing device, information processing method, and information processing program
TWI893964B (en) Temperature monitoring system, method of altering the interval, and computer server
CN115712518B (en) Method for processing memory fault and related equipment
TWI871872B (en) Device testing system and device testing method
US20250315358A1 (en) Method and system for dynamic temperature measurement in computing devices

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241125

R150 Certificate of patent or registration of utility model

Ref document number: 7604858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150