JP2006185312A - Failure analysis apparatus and failure analysis method - Google Patents
Failure analysis apparatus and failure analysis method Download PDFInfo
- Publication number
- JP2006185312A JP2006185312A JP2004380071A JP2004380071A JP2006185312A JP 2006185312 A JP2006185312 A JP 2006185312A JP 2004380071 A JP2004380071 A JP 2004380071A JP 2004380071 A JP2004380071 A JP 2004380071A JP 2006185312 A JP2006185312 A JP 2006185312A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- access
- route
- access route
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Maintenance And Management Of Digital Transmission (AREA)
Abstract
【課題】 正確に自動で、アクセスルートの障害箇所を特定し、障害の無いアクセスルートに切り替える。
【解決手段】 障害が検出された場合、通常アクセスを実行したアクセスルート上の全ての構成要素が、障害箇所候補とされる。障害箇所候補へテスト用アクセスが実行される。障害特定手段11cにより、1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素が障害箇所とされる。アクセスルート切替手段11dにより、障害箇所として特定された構成要素を経由しないアクセスルートに切り替えられる。
【選択図】 図1
PROBLEM TO BE SOLVED: To identify a faulty part of an access route accurately and automatically and switch to an access route without a fault.
When a failure is detected, all the components on the access route that has executed normal access are determined as failure location candidates. Test access is performed to the candidate failure location. As a result of the test access being executed by one or more access routes by the failure specifying means 11c, the constituent element of the failure location candidate that becomes the last one is set as the failure location. The access route switching unit 11d switches to an access route that does not go through the component identified as the failure location.
[Selection] Figure 1
Description
本発明は、コンピュータシステムの障害解析装置及び障害解析方法に関し、特に、冗長化されたアクセスルートと複数の装置とを含むコンピュータシステムの障害解析装置及び障害解析方法に関する。 The present invention relates to a failure analysis device and failure analysis method for a computer system, and more particularly to a failure analysis device and failure analysis method for a computer system including redundant access routes and a plurality of devices.
コンピュータシステムは、データを記憶装置に記憶したり、データを記憶装置から抽出したりしている。このため、記憶装置はコンピュータシステムにとって不可欠な存在である。 The computer system stores data in a storage device and extracts data from the storage device. For this reason, the storage device is indispensable for the computer system.
しかも、コンピュータシステムにおいて、利用するデータは年々増加するので、大容量の記憶装置が必要である。現在、低価格の大容量の記憶装置が出現しており、入手しやすくなっている。 In addition, since data to be used in a computer system increases year by year, a large-capacity storage device is required. Currently, low-priced large-capacity storage devices have emerged and are easily available.
また、コンピュータシステムでは、終日運転に対応するために、複数の記憶装置を論理的に1台の記憶装置として使用している(ディスクアレイ)。このディスクアレイを採用したコンピュータシステムは、コンピュータシステムの中に予備の記憶装置を準備している。そして、自動的に、予備の記憶装置に運用している記憶装置のデータを通常時に転送している。このようにすると、コンピュータシステムの中の1つの記憶装置において、使用不可能となるような障害が発生した場合に対応できるようになる。 Further, in the computer system, a plurality of storage devices are logically used as one storage device (disk array) in order to cope with all-day operation. In a computer system employing this disk array, a spare storage device is prepared in the computer system. Then, the data of the storage device operating in the spare storage device is automatically transferred at the normal time. In this way, it becomes possible to cope with a case where a failure that makes it unusable occurs in one storage device in the computer system.
ディスクアレイを使用し、かつ、複数のアクセスルートを持つコンピュータシステムも現れている。ここで、アクセスルートの障害については、オペレータが障害箇所を特定しているか、自動で大まかな障害箇所を特定している。なぜなら、コンピュータシステムはマルチベンダが一般的であり、大まかなインタフェースが統一されているだけだからである。そして、障害箇所を使用しないで済むように、使用するアクセスルートを手動か自動で変更している(例えば、特許文献1参照)。
しかし、手動で使用するアクセスルートを変更する場合は、オペレータが接続ミスを発生させやすい。
また、自動で使用するアクセスルートを変更する場合、障害箇所が存在することしか分かっていないので、後述するように機能的に何の問題も無い活性箇所を停止させることがあり、コンピュータシステムの運用効率を低下させている。例えば、中継器が存在するネットワークの場合、障害箇所の特定が困難であり、関係する構成要素を全て交換する等の悪い運用効率になっている。しかも、活性箇所を停止させてしまうと、復旧に時間がかかる。具体的には、図30を参照して説明する。
However, when manually changing the access route to be used, the operator tends to cause a connection error.
In addition, when changing the access route to be used automatically, it is only known that there is a faulty part, so the active part that has no functional problem may be stopped as described later, and the operation of the computer system may be stopped. It is reducing efficiency. For example, in the case of a network in which a repeater is present, it is difficult to identify a fault location, resulting in poor operational efficiency such as exchanging all related components. Moreover, if the active location is stopped, it takes time to recover. Specifically, this will be described with reference to FIG.
図30は、従来のシステム構成図における障害への対応の例を示す図である。
従来のシステム構成図は、第1のコンピュータ110と第2のコンピュータ210と中継器310、410と記憶装置530と伝送路L31、L32、L33、L34、L35、L36、L37、L38とから構成される。第1のコンピュータ110と第2のコンピュータ210とは、ユーザの端末装置であり、ユーザのサービス要求に応答するか、ユーザのサービス要求をサーバに送信する。中継器310、410は、第1のコンピュータ110と第2のコンピュータ210と記憶装置530とを互いに接続する。記憶装置530は、第1のコンピュータ110と第2のコンピュータ210とから、データを記憶させられる。第1のコンピュータ110と第2のコンピュータ210と中継器310、410と記憶装置530とは、伝送路L31、L32、L33、L34、L35、L36、L37、L38を介して、互いに通信している。
FIG. 30 is a diagram illustrating an example of handling a failure in a conventional system configuration diagram.
A conventional system configuration diagram includes a first computer 110, a second computer 210,
第1のコンピュータ110は、アダプタ111、112とから構成される。アダプタ111、112は、第1のコンピュータ110をネットワークに接続する。アダプタ111、112とは、互いに通信している。
The first computer 110 includes
第2のコンピュータ210は、アダプタ211、212とから構成される。第1のコンピュータ110と第2のコンピュータ210との関係において、同じ名称の構成要素ならば、構成要素の機能も同じである。
The second computer 210 includes
記憶装置530は、コントローラ531、532と記憶装置本体533とから構成される。コントローラ531、532は、記憶装置530をネットワークに接続する。記憶装置本体533は、記憶装置530の本体である。コントローラ531、532と記憶装置本体533とは、互いに通信している。
The storage device 530 includes
従来では、第1のコンピュータ110と第2のコンピュータ210との環境を統一するために、第1のコンピュータ110におけるアダプタ111と伝送路L31と中継器310と伝送路L35とコントローラ531とのアクセスルートに障害が検出されると、第2のコンピュータ210におけるアダプタ211と伝送路L33と中継器310と伝送路L35とコントローラ531とのアクセスルートも使用しないようにしている。
Conventionally, in order to unify the environment of the first computer 110 and the second computer 210, access routes between the
ここで、障害箇所がアダプタ111の場合、第2のコンピュータ210での冗長性が失われ、信頼性が低下する。
本発明は、このような点に鑑みてなされたものであり、利用しているアクセスルートに関して、自動で、アクセスルートの障害箇所を正確に特定し、障害の無いアクセスルートに切り替える障害解析装置及び障害解析方法を提供することを目的とする。
Here, when the failure point is the
The present invention has been made in view of the above points, and relates to an access route that is used, a failure analysis device that automatically identifies a failure location of an access route and switches to an access route without a failure, and The object is to provide a failure analysis method.
本発明では、上記課題を解決するために、図1に示すように、複数の装置間の通常アクセスにおいて障害を検出すると、通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする障害検出手段11aと、障害検出手段11aで障害が検出されると、障害箇所候補へテスト用アクセスを実行し、テスト用アクセスで障害を検出しなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補から除外し、テスト用アクセスで障害を検出した場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を障害箇所候補から除外する障害診断手段11bと、障害診断手段11bにおいて、1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素を障害箇所とする障害特定手段11cと、複数の装置間の通常アクセス用のアクセスルートを、障害特定手段11cで障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるアクセスルート切替手段11dとを提供する。
In the present invention, in order to solve the above-described problem, as shown in FIG. 1, when a failure is detected in a normal access between a plurality of devices, all the components on the access route that has executed the normal access are regarded as failure location candidates. If a failure is detected by the failure detection means 11a and the failure detection means 11a, a test access is executed to the failure location candidate, and if no failure is detected by the test access, the access route that executed the test access If all the above components are excluded from the failure location candidates and a failure is detected by the test access, a failure that excludes all the components that are not placed on the access route that performed the test access from the failure location candidates As a result of the test access being executed by one or more access routes in the
このようにすると、複数の装置間の通常アクセスにおいて障害が検出された場合、障害検出手段11aにより、通常アクセスを実行したアクセスルート上の全ての構成要素が、障害箇所候補とされる。障害検出手段11aで障害が検出されると、障害箇所候補へテスト用アクセスが実行される。障害診断手段11bにより、テスト用アクセスで障害が検出されなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素が、障害箇所候補から除外される。障害診断手段11bにより、テスト用アクセスで障害が検出された場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素が、障害箇所候補から除外される。障害特定手段11cにより、障害診断手段11bにおいて1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素が、障害箇所とされる。アクセスルート切替手段11dにより、複数の装置間の通常アクセス用のアクセスルートが、障害特定手段11cで障害箇所として特定された構成要素を経由しないアクセスルートに切り替えられる。
In this way, when a failure is detected in a normal access between a plurality of devices, the
本発明では、通常アクセスにおいて障害を検出すると、テスト用アクセスを繰り返すようにした。そして、障害箇所を特定し、障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるようにした。 In the present invention, when a failure is detected in normal access, the test access is repeated. Then, the fault location is specified, and the access route is switched to not via the component specified as the fault location.
これにより、障害箇所を正確に特定することができ、障害箇所を容易に交換できるようになる。 As a result, the fault location can be accurately identified, and the fault location can be easily replaced.
以下、本発明の実施の形態を図面を参照して説明する。
まず、本発明の概念について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、本発明の概念図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
First, the concept of the present invention will be described, and then the specific contents of the embodiment will be described.
FIG. 1 is a conceptual diagram of the present invention.
本発明の障害解析装置が使用される障害解析システムは、コンピュータ10と中継器20、30と装置40と伝送路L1、L2、L3、L4、L5、L6、L7、L8とから構成される。コンピュータ10は、ユーザの端末装置であり、ユーザのサービス要求に応答するか、ユーザのサービス要求をサーバに送信する。中継器20、30は、コンピュータ10と装置40とを互いに接続する。装置40は、コンピュータ10から、データを記憶させられる。コンピュータ10と中継器20、30と装置40とは、伝送路L1、L2、L3、L4、L5、L6、L7、L8を介して、互いに通信している。
The failure analysis system in which the failure analysis device of the present invention is used includes the computer 10, the
コンピュータ10は、障害解析装置11とアダプタ12、13とから構成される。障害解析装置11は、利用しているアクセスルートに関して、アクセスルートの障害箇所を特定し、障害の無いアクセスルートに切り替える。アダプタ12、13は、コンピュータ10をネットワークに接続する。障害解析装置11とアダプタ12、13とは、互いに通信している。
The computer 10 includes a failure analysis device 11 and
装置40は、コントローラ41、42と装置本体43とから構成される。コントローラ41、42は、装置40をネットワークに接続する。装置本体43は、装置40の本体である。コントローラ41、42と装置本体43とは、互いに通信している。
The device 40 includes
障害解析装置11は、障害検出手段11aと障害診断手段11bと障害特定手段11cとアクセスルート切替手段11dとから構成される。
障害検出手段11aは、複数の装置間の通常アクセスにおいて障害を検出すると、通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする。
The failure analysis device 11 includes a
When the
障害診断手段11bは、障害検出手段11aで障害が検出されると、障害箇所候補へテスト用アクセスを実行し、テスト用アクセスで障害を検出しなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補から除外する。さらに障害診断手段11bは、テスト用アクセスで障害を検出した場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を障害箇所候補から除外する。
When a failure is detected by the
障害特定手段11cは、障害診断手段11bにおいて、1以上のアクセスルートでテスト用アクセスが実行された結果、最後の1つとなった障害箇所候補の構成要素を障害箇所とする。
The
アクセスルート切替手段11dは、複数の装置間の通常アクセス用のアクセスルートを、障害特定手段11cで障害箇所として特定された構成要素を経由しないアクセスルートに切り替える。
The access
障害検出手段11aと障害診断手段11bと障害特定手段11cとアクセスルート切替手段11dとは、互いに通信している。
例えば、コンピュータ10と装置40との通信が、伝送路L1、L5を利用して実現されている。そして、伝送路L1、L5にエラーが発生すると、伝送路L3、L5に切り替えて、エラーが無い場合、伝送路L1もしくはアダプタ12が故障箇所である。さらに、伝送路L2、L7に切り替えて、エラーが無い場合、伝送路L1が故障箇所である。その後、伝送路L1、L5を、エラーの無い伝送路L2、L7に切り替える。
The
For example, communication between the computer 10 and the device 40 is realized using the transmission lines L1 and L5. When an error occurs in the transmission lines L1 and L5, the transmission line is switched to the transmission lines L3 and L5. If there is no error, the transmission line L1 or the
このようにすると、障害を発生させた構成要素を正確に自動で把握でき、容易に交換できる。
以下、実施の形態の具体的な内容を説明する。
If it does in this way, the component which generated the fault can be grasped automatically automatically, and can be exchanged easily.
Hereinafter, specific contents of the embodiment will be described.
[第1の実施の形態]
図2は、第1の実施の形態のシステム構成図である。第1のコンピュータ100と第2のコンピュータ200とは、利用しているアクセスルートに関して、アクセスルートの障害箇所を特定し、障害の無いアクセスルートに切り替える。
[First Embodiment]
FIG. 2 is a system configuration diagram of the first embodiment. The first computer 100 and the second computer 200 identify the faulty part of the access route with respect to the access route being used, and switch to the access route without a fault.
第1の実施の形態のシステム構成図は、第1のコンピュータ100と第2のコンピュータ200と中継器300、400と記憶装置500と伝送路L11、L12、L13、L14、L15、L16、L17、L18とから構成される。第1のコンピュータ100と第2のコンピュータ200とは、データを記憶装置500に書き込んだり、データを記憶装置500から引き出したりする。中継器300、400は、第1のコンピュータ100と第2のコンピュータ200と記憶装置500とを互いに接続する。記憶装置500は、第1のコンピュータ100と第2のコンピュータ200とから送られるデータを記憶する。第1のコンピュータ100と第2のコンピュータ200と中継器300、400と記憶装置500とは、伝送路L11、L12、L13、L14、L15、L16、L17、L18を介して、互いに通信している。
The system configuration diagram of the first embodiment includes a first computer 100, a second computer 200,
第1のコンピュータ100は、障害特定部103とアクセスルート切替部104とアダプタ101、102とから構成される。
障害特定部103は、記憶装置500への通常アクセスにおいて、障害を検出した場合、通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする。そして、障害箇所候補へテスト用アクセスを実行する。テスト用アクセスで障害を検出しなかった場合、テスト用アクセスを実行したアクセスルート上の全ての構成要素を、障害箇所候補から除外する。テスト用アクセスで障害を検出した場合、テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、障害箇所候補から除外する。最後に、1以上のアクセスルートでテスト用アクセスを実行した結果として、最後の1つとなった障害箇所候補の構成要素を障害箇所とする。
The first computer 100 includes a
When a failure is detected in the normal access to the storage device 500, the
アクセスルート切替部104は、記憶装置500への通常アクセスが実行されて障害が検出されたアクセスルートを、障害箇所として特定された構成要素を経由しないアクセスルートに切り替える。
The access
アダプタ101、102は、第1のコンピュータ100をネットワークに接続する。
障害特定部103とアクセスルート切替部104とアダプタ101、102とは、互いに通信している。
The
The
第2のコンピュータ200は、障害特定部203とアクセスルート切替部204とアダプタ201、202とから構成される。第1のコンピュータ100と第2のコンピュータ200との関係において、同じ名称の構成要素ならば、構成要素の機能も同じである。
The second computer 200 includes a
記憶装置500は、コントローラ501、502と記憶装置本体503とから構成される。コントローラ501、502は、記憶装置500をネットワークに接続する。記憶装置本体503は、記憶装置500の本体である。コントローラ501、502と記憶装置本体503とは、互いに通信している。
The storage device 500 includes
また、第1のコンピュータ100の障害特定部103と第2のコンピュータ200の障害特定部203とは、互いに通信し、連帯して動作する。
図3は、障害特定部の例を示す図である。障害特定部103は、全てのアクセスルート上において各構成要素に対する障害確認部を複数有している。障害特定部103は、デーモンを利用して各構成要素を監視している。デーモンから各構成要素に命令が出て、障害特定部103は、各構成要素からの応答を取得する。
Further, the
FIG. 3 is a diagram illustrating an example of the failure identification unit. The
障害特定部103は、各構成要素に対する障害確認部として、記憶装置本体に対する障害確認部103a、アダプタに対する障害確認部103b、コントローラ(自経路)に対する障害確認部103c、コントローラ(他経路)に対する障害確認部103d、中継器及び中継器前伝送路に対する障害確認部103e及び中継器及び中継器後伝送路に対する障害確認部103fから構成される。記憶装置本体に対する障害確認部103a、アダプタに対する障害確認部103b、コントローラ(自経路)に対する障害確認部103c、コントローラ(他経路)に対する障害確認部103d、中継器及び中継器前伝送路に対する障害確認部103e及び中継器及び中継器後伝送路に対する障害確認部103fは、互いに通信している。
The
以下に、各構成要素に対する障害確認部について説明する。
図4は、記憶装置本体に対する障害確認部の処理の例を示す図である。
記憶装置本体に対する障害確認部103aが、図4に太字で示されるアクセスルートを確認すると、正常なら、記憶装置本体503へのアクセスルートは正常である。異常なら、記憶装置本体503へのアクセスルートは異常であり、アダプタ101と伝送路L11と中継器300と伝送路L15とコントローラ501と記憶装置本体503との中で、何れかが異常である。
Hereinafter, the failure confirmation unit for each component will be described.
FIG. 4 is a diagram illustrating an example of processing of the failure confirmation unit for the storage device body.
When the
なお、原則的に、記憶装置本体503の自らの障害を管理する機能により、記憶装置本体503そのものが異常な場合は、明確に異常であることを外部に通知する。つまり、記憶装置本体503へのアクセスルートが異常な場合と記憶装置本体503そのものが異常な場合とが存在するが、後者については明確になる。
Note that, in principle, when the storage device
図5は、アダプタに対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。
アダプタに対する障害確認部103bが、図5に太字で示されるアクセスルートを確認すると、正常なら、アダプタ101へのアクセスルートは正常である。異常なら、アダプタ101へのアクセスルートは異常であり、アダプタ101は異常である。
FIG. 5 is a diagram illustrating an example of processing of the failure confirmation unit for the adapter. Here, the test access is executed via a part of the access route that has executed the normal access.
When the
図6は、コントローラ(自経路)に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。 FIG. 6 is a diagram illustrating an example of processing of the failure confirmation unit for the controller (own route). Here, the test access is executed via a part of the access route that has executed the normal access.
コントローラ(自経路)に対する障害確認部103cが、図6に太字で示されるアクセスルートを確認すると、正常なら、コントローラ501へのアクセスルートは正常である。異常なら、コントローラ501へのアクセスルートは異常であり、アダプタ101と伝送路L11と中継器300と伝送路L15とコントローラ501との中で、何れかが異常である。
When the
図7は、コントローラ(他経路)に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートと異なるアクセスルートを経由したテスト用アクセスを実行する。 FIG. 7 is a diagram illustrating an example of processing of the failure confirmation unit for the controller (other route). Here, a test access via an access route different from the access route that executed the normal access is executed.
コントローラ(他経路)に対する障害確認部103dが、図7に太字で示されるアクセスルートを確認すると、正常なら、コントローラ501へのアクセスルートは正常である。異常なら、コントローラ501へのアクセスルートは異常である。
When the
ここで、自経路と他経路との両方が異常な場合、コントローラ501は異常である。
なお、コントローラ(他経路)に対する障害確認部103dは、記憶装置500の内部の処理を伴う。この場合において、例えば、UNIX(登録商標)のUSCSIコマンドのSEND DIAGNOSTIC/RECEIVE DIAGNOSTICを利用して、コントローラ501とコントローラ502との間を互いに通信している。
Here, when both the own route and the other route are abnormal, the
It should be noted that the
図8は、中継器及び中継器前伝送路に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。そして、通常アクセスを実行したアクセスルートと異なるアクセスルートを経由したテスト用アクセスを実行する。 FIG. 8 is a diagram illustrating an example of processing of the failure confirmation unit for the repeater and the pre-repeater transmission path. Here, the test access is executed via a part of the access route that has executed the normal access. Then, a test access via an access route different from the access route that executed the normal access is executed.
中継器及び中継器前伝送路に対する障害確認部103eが、図8に太字で示される2つのアクセスルートを確認すると、左側が正常なら、コントローラ501への左側のアクセスルートは正常である。左側が異常なら、コントローラ501への左側のアクセスルートは異常である。右側が正常なら、コントローラ501への右側のアクセスルートは正常である。右側が異常なら、コントローラ501への右側のアクセスルートは異常である。
When the
ここで、左側が正常で右側が異常なら、アダプタ201と伝送路L13との中で、何れかが異常である。右側が正常で左側が異常なら、アダプタ101と伝送路L11との中で、何れかが異常である。
Here, if the left side is normal and the right side is abnormal, one of the
図9は、中継器及び中継器後伝送路に対する障害確認部の処理の例を示す図である。ここで、通常アクセスを実行したアクセスルートの一部を経由したテスト用アクセスを実行する。そして、通常アクセスを実行したアクセスルートと異なるアクセスルートを経由したテスト用アクセスを実行する。 FIG. 9 is a diagram illustrating an example of processing of the failure confirmation unit for the repeater and the transmission path after the repeater. Here, the test access is executed via a part of the access route that has executed the normal access. Then, a test access via an access route different from the access route that executed the normal access is executed.
中継器及び中継器後伝送路に対する障害確認部103fが、図9に太字で示される2つのアクセスルートを確認すると、左側が正常なら、コントローラ501への左側のアクセスルートは正常である。左側が異常なら、コントローラ501への左側のアクセスルートは異常である。右側が正常なら、コントローラ502への右側のアクセスルートは正常である。右側が異常なら、コントローラ502への右側のアクセスルートは異常である。
When the
ここで、左側が正常で右側が異常なら、伝送路L16とコントローラ502との中で、何れかが異常である。右側が正常で左側が異常なら、伝送路L15とコントローラ501との中で、何れかが異常である。
Here, if the left side is normal and the right side is abnormal, one of the transmission lines L16 and the
以上において、例えば、コントローラ(他経路)に対する障害確認部103d以外の他の障害確認部は、UNIXのUSCSIコマンドのTEST UNIT READYを利用している。
以下に、上述した各障害確認部を利用して、障害箇所の特定の処理を説明する。
In the above, for example, the failure confirmation unit other than the
Below, the specific process of a failure location is demonstrated using each failure confirmation part mentioned above.
図10は、第1の実施の形態の処理の例を示すフローチャートの前半である。
[S11]障害特定部103が、初期設定として既に記憶しているアクセスルート情報を取得する。なお、アクセスルート情報は、設定ファイルに指定できる。ここで、アクセスルート情報とは、スタートポイントからエンドポイントまでのアクセスルートに、何が存在するかの情報である。
FIG. 10 is the first half of a flowchart illustrating an example of processing according to the first embodiment.
[S11] The
[S12]障害特定部103が、初期設定として既に記憶している各構成要素に対する障害確認部を取得する。なお、実行する順番に、各構成要素に対する障害確認部を後述する設定ファイルに記載できる。
[S12] The
[S13]障害特定部103の中の記憶装置本体に対する障害確認部103aが、記憶装置本体503までの障害の有無を判断する。障害が存在する場合、他の構成要素を確認するため、S15へ進む。障害が存在しない場合、次のアクセスルートを確認するため、S11へ進む。
[S13] The
[S15]記憶装置本体503自体の障害の場合、障害特定部103が、アクセスルート切替部104に、障害の存在を通知する。
[S16]障害特定部103の中のアダプタに対する障害確認部103bが、アダプタ101までの障害の有無を判断する。障害が存在する場合、アダプタ101の障害が発見されたため、S17へ進む。障害が存在しない場合、他の構成要素を確認するため、S18へ進む。
[S15] In the case of a failure in the
[S16] The
[S17]障害特定部103が、アダプタ101の障害を確認する。そして、次のアクセスルートを確認するため、S11へ進む。
[S18]障害特定部103の中の自経路でのコントローラに対する障害確認部103cが、コントローラ501までの障害の有無を判断する。障害が存在する場合、他の構成要素を確認するため、S20へ進む。障害が存在しない場合、記憶装置本体503の障害が発見されたため、S19へ進む。
[S17] The
[S18] The
[S19]障害特定部103が、記憶装置本体503の障害を確認する。そして、次のアクセスルートを確認するため、S11へ進む。
[S20]障害特定部103が、伝送路L11、L15と中継器300とコントローラ501との中の何れかの障害を確認する。そして、図11のAへ進む。
[S19] The
[S20] The
図11は、第1の実施の形態の処理の例を示すフローチャートの後半である。
[S21]図10のAから、障害特定部103の中の他経路でのコントローラに対する障害確認部103dが、コントローラ501までの障害の有無を判断する。障害が存在する場合、コントローラ501の障害が発見されたため、S22へ進む。障害が存在しない場合、他の構成要素を確認するため、S23へ進む。
FIG. 11 is the second half of the flowchart illustrating an example of processing according to the first embodiment.
[S21] From FIG. 10A, the
[S22]障害特定部103が、コントローラ501の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S23]障害特定部103が、伝送路L11、L15と中継器300との中の何れかの障害を確認する。
[S22] The
[S23] The
[S24]障害特定部103の中の中継器及び中継器前伝送路に対する障害確認部103eが、伝送路L13までの障害の有無を判断する。障害が存在する場合、他の構成要素を確認するため、S26へ進む。障害が存在しない場合、伝送路L11の障害が発見されたため、S25へ進む。
[S24] The
[S25]障害特定部103が、伝送路L11の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S26]障害特定部103が、伝送路L15と中継器300との中の何れかの障害を確認する。
[S25] The
[S26] The
[S27]障害特定部103の中の中継器及び中継器後伝送路に対する障害確認部103fが、伝送路L16までの障害の有無を判断する。障害が存在する場合、中継器300の障害が発見されたため、S28へ進む。障害が存在しない場合、伝送路L15の障害が発見されたため、S29へ進む。
[S27] The
[S28]障害特定部103が、中継器300の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S29]障害特定部103が、伝送路L15の障害を確認する。そして、次のアクセスルートを確認するため、図10のBを介してS11へ進む。
[S28] The
[S29] The
このようにすると、障害箇所の特定を自動で正確に実行できる。これによって、コンピュータシステムの保守者による障害箇所の特定ミスを未然に防止できる。そして、保守に対する大幅な効率化を図ることができる。 In this way, the fault location can be automatically and accurately identified. As a result, it is possible to prevent an error in identifying a fault location by a computer system maintainer. In addition, the efficiency of maintenance can be greatly improved.
以下に、障害箇所を含むアクセスルートを障害箇所を含まないアクセスルートへ変更する場合について説明する。
図12は、通信テーブルの例を示す図である。
The case where an access route including a failure location is changed to an access route not including a failure location will be described below.
FIG. 12 is a diagram illustrating an example of a communication table.
通信テーブル60は、名称と使用伝送路と通信状況とから構成される。名称は、アクセスルートの名称である。使用伝送路は、名称に関係するアクセスルートが使用する伝送路である。通信状況は、名称に関係するアクセスルートの状況である。なお、通信状況は、アクセスルートが運用されている場合運用用となり、アクセスルートが待機している場合待機用となり、アクセスルートがアクセスルートを診断する目的の場合診断用となる。 The communication table 60 includes a name, a used transmission path, and a communication status. The name is the name of the access route. The used transmission line is a transmission line used by the access route related to the name. The communication status is the status of the access route related to the name. The communication status is for operation when the access route is operated, for standby when the access route is waiting, and for diagnosis when the access route is for the purpose of diagnosing the access route.
ここで、運用用と診断用と待機用との図12の記載は、第1の実施の形態の初期値である。通信1は、伝送路L11、L15を使用し、運用用である。通信2は、伝送路L11、L16を使用し、診断用である。通信3は、伝送路L12、L17を使用し、診断用である。通信4は、伝送路L12、L18を使用し、待機用である。通信5は、伝送路L13、L15を使用し、運用用である。通信6は、伝送路L13、L16を使用し、診断用である。通信7は、伝送路L14、L17を使用し、診断用である。通信8は、伝送路L14、L18を使用し、待機用である。
Here, the descriptions of FIG. 12 for operation, diagnosis, and standby are initial values of the first embodiment.
アクセスルート切替部104、204は、第1のコンピュータ100と第2のコンピュータ200と記憶装置500とが接続された場合、通信テーブル60を作成する。記憶装置500に対し入出力が始まると、障害特定部103、203の障害情報により、障害箇所交換時に障害箇所が存在するアクセスルートにコンピュータがアクセスしないように、障害箇所が存在するアクセスルートを障害箇所が存在しないアクセスルートに切り替える。
The access
図13は、アクセスルート情報の例を示す図である。
アクセスルート情報80は、第1のコンピュータ表現部81と第2のコンピュータ表現部82とから表現される。第1のコンピュータ表現部81は、第1のコンピュータ100に関係するアクセスルートを表現する。第2のコンピュータ表現部82は、第2のコンピュータ200に関係するアクセスルートを表現する。
FIG. 13 is a diagram illustrating an example of access route information.
The
さらに、存在するアクセスルート情報80は、アダプタ表現部83と中継器表現部84とコントローラ表現部85とから表現される。アダプタ表現部83は、アクセスルートが利用しているアダプタを表現する。中継器表現部84は、アクセスルートが利用している中継器を表現する。コントローラ表現部85は、アクセスルートが利用しているコントローラを表現する。
Further, the existing
これらのアクセスルート情報80は、OS(Operating System)内で定義されている。
なお、障害情報は、図13の情報を利用する。
図14は、アクセスルート選択情報の例を示す図である。もともと複数存在するアクセスルートを1つの仮想デバイスとして見せている。
The
The failure information uses the information in FIG.
FIG. 14 is a diagram illustrating an example of access route selection information. Originally, a plurality of access routes are shown as one virtual device.
アクセスルート選択情報90は、仮想デバイス名91と仮想デバイス番号92と第1の名称93と第2の名称94とユーザ用名称95と第1の予備の名称96と第2の予備の名称97とから表現される。
The access
仮想デバイス名91は、仮想デバイスの名称である。仮想デバイス番号92は、仮想デバイス名91に関係する仮想デバイスの番号である。第1の名称93は、仮想デバイス名91に関係する仮想デバイスにされるアクセスルートの名称である。第2の名称94は、仮想デバイス名91に関係する仮想デバイスにされるアクセスルートの名称である。なお、通常は第1の名称93に関係するアクセスルートが仮想デバイスになる。ユーザ用名称95は、仮想デバイスにされるアクセスルートのユーザ用の名称である。第1の予備の名称96は、仮想デバイスを利用しない場合において、第1の名称93に関係するアクセスルートのユーザ用の名称である。第2の予備の名称97は、仮想デバイスを利用しない場合において、第2の名称94に関係するアクセスルートのユーザ用の名称である。
The
図15は、障害情報の表現の例を示す図である。
障害情報600は、障害名称601と障害説明開始部602と第1の障害説明部603と第2の障害説明部604と障害説明終了部605とから表現される。
FIG. 15 is a diagram illustrating an example of expression of failure information.
The
障害名称601は、障害が検出されたアクセスルートの名称である。障害説明開始部602は、障害の説明の開始を宣言する。第1の障害説明部603において、cmd_flag=3の場合アダプタ101以外の障害であり、cmd_flag=1の場合アダプタ101の障害である。第2の障害説明部604において、es_key=0x4の場合記憶装置500以外の障害であり、es_key=0x3の場合記憶装置500の障害である。es_key=0x4、es_key=0x3の場合、記憶装置500のコントローラが障害特定部103へ報告する。なお、この機能はそもそも記憶装置500が有している。障害説明終了部605は、障害の説明の終了を宣言する。
The
図16は、アダプタに対するアクセスルート切替部の処理の例を示す図である。
障害特定部103によりアダプタ101が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信2である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信2を停止させる。
FIG. 16 is a diagram illustrating an example of processing of the access route switching unit for the adapter.
When the
図17は、コントローラに対するアクセスルート切替部の処理の例を示す図である。
障害特定部103によりコントローラ501が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1、通信3、通信5及び通信7である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信3を停止させる。アクセスルート切替部104、204は、通信5を停止させ、通信8を運用用にする。アクセスルート切替部104、204は、通信7を停止させる。
FIG. 17 is a diagram illustrating an example of processing of the access route switching unit for the controller.
When the
図18は、中継器前の伝送路に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により伝送路L11が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信2である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信2を停止させる。
FIG. 18 is a diagram illustrating an example of processing of the access route switching unit for the transmission path before the repeater.
When the transmission path L11 is specified as a failure location by the
図19は、中継器に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により中継器300が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1、通信2、通信5及び通信6である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信2を停止させる。アクセスルート切替部104、204は、通信5を停止させ、通信8を運用用にする。アクセスルート切替部104、204は、通信6を停止させる。
FIG. 19 is a diagram illustrating an example of processing of an access route switching unit for a repeater.
When the
図20は、中継器後の伝送路に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により伝送路L15が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信5である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信4を運用用にする。アクセスルート切替部104、204は、通信5を停止させ、通信8を運用用にする。
FIG. 20 is a diagram illustrating an example of processing of the access route switching unit for the transmission path after the repeater.
When the transmission path L15 is specified as a failure location by the
このようにすると、構成要素の交換の際、コンピュータシステムに対する操作が不要となるため、操作ミスが起こり得ない。また、コンピュータシステムの知識が少ない人でも、構成要素の交換を実行しやすい。 This eliminates the need for an operation on the computer system when replacing the constituent elements, so that an operation error cannot occur. In addition, even a person with little knowledge of a computer system can easily exchange components.
そして、通常業務において、処理性能を落とすことのない継続運用可能な高信頼性のコンピュータシステムを実現できる。
[第2の実施の形態]
以下に、第1の実施の形態と比較して、各構成要素に対する障害確認部の起動の順序が記憶されている設定ファイルを利用する場合について説明する。
Further, it is possible to realize a highly reliable computer system that can be continuously operated without degrading the processing performance in normal business.
[Second Embodiment]
Hereinafter, a case will be described in which a setting file in which the order of activation of the failure confirmation unit for each component is stored is used as compared with the first embodiment.
図21は、第2の実施の形態のシステム構成図である。
第2の実施の形態のシステム構成図は、第1の実施の形態と比較して、第1のコンピュータ100が第1のコンピュータ100zに変化し、第2のコンピュータ200が第2のコンピュータ200zに変化し、障害特定部103が障害特定部103zに変化し、障害特定部203が障害特定部203zに変化している。そして、第1のコンピュータ100zと第2のコンピュータ200zとに設定ファイル50が追加されている。
FIG. 21 is a system configuration diagram of the second embodiment.
In the system configuration diagram of the second embodiment, the first computer 100 is changed to the first computer 100z, and the second computer 200 is changed to the second computer 200z, compared to the first embodiment. The
第1の実施の形態と第2の実施の形態との関係において、障害特定部103z、203zを除いた構成要素の名称が同一の場合は構成要素の機能も同一である。設定ファイル50は、各構成要素に対する障害確認部の起動の順序を記憶する。そして、障害特定部103z、203zにより参照される。
In the relationship between the first embodiment and the second embodiment, when the names of the constituent elements excluding the
図22は、設定ファイルの例を示す図である。各構成要素に対する障害確認部の起動の順序を設定ファイルに指定する。
設定ファイル50は、構成要素名と障害確認部の略称と異常応答時の障害箇所と正常応答時の障害箇所とから構成される。構成要素名は、構成要素の名称である。障害確認部の略称は、構成要素名に関係する構成要素の障害を確認する手段の略称である。異常応答時の障害箇所は、構成要素名に関係する構成要素が異常である場合、障害を発生させている構成要素である。正常応答時の障害箇所は、構成要素名に関係する構成要素が正常である場合、障害を発生させている構成要素である。
FIG. 22 is a diagram illustrating an example of a setting file. The order of starting the failure confirmation unit for each component is specified in the configuration file.
The setting
具体的には、実行する順番に、各構成要素に対する障害確認部の起動の順序を設定ファイル50に記載する。図10と図11との処理を設定ファイル50に記載すると、図22のようになる。
Specifically, the order of activation of the failure confirmation unit for each component is described in the
設定ファイル50は、記憶装置本体に対する障害確認部51、アダプタに対する障害確認部52、コントローラ(自経路)に対する障害確認部53、コントローラ(他経路)に対する障害確認部54、中継器及び中継器前伝送路に対する障害確認部55、中継器及び中継器後伝送路に対する障害確認部56から構成される。
The setting
記憶装置本体に対する障害確認部51は、記憶装置本体503という構成要素に対して障害確認を実行し、(a)と略称される。
アダプタに対する障害確認部52は、アダプタ101という構成要素に対して障害確認を実行し、(b)と略称され、異常応答時にはアダプタ101を障害箇所とする。
The
The
コントローラ(自経路)に対する障害確認部53は、コントローラ501という構成要素に対して障害確認を実行し、(c)と略称され、正常応答時には記憶装置本体503を障害箇所とする。
The
コントローラ(他経路)に対する障害確認部54は、コントローラ501という構成要素に対して障害確認を実行し、(d)と略称され、異常応答時にはコントローラ501を障害箇所とし、正常応答時には伝送路L11、L15及び中継器300を障害箇所とする。
The
中継器及び中継器前伝送路に対する障害確認部55は、中継器300という構成要素に対して障害確認を実行し、(e)と略称され、異常応答時には中継器300を障害箇所とし、正常応答時には伝送路L11を障害箇所とする。
The
中継器及び中継器後伝送路に対する障害確認部56は、伝送路L16という構成要素に対して障害確認を実行し、(f)と略称され、異常応答時には中継器300を障害箇所とし、正常応答時には伝送路L15を障害箇所とする。
The
このように、設定ファイル50を使用すれば、テスト用アクセスを自由に実行でき、構成要素の構成が複雑なコンピュータシステムの場合でも、障害箇所の細かい特定が容易になる。そして、構成要素の障害の原因も特定しやすくなる。
As described above, by using the
具体的には、既存のコンピュータシステムにHub等の中継器を追加した場合、その構成要素がコンピュータから障害確認可能な機能を有していれば、その構成要素を設定ファイル50に追加することで、障害箇所の自動特定が可能になる。
Specifically, when a repeater such as a Hub is added to an existing computer system, if the component has a function that allows the computer to confirm a failure, the component can be added to the
[第3の実施の形態]
以下に、第1の実施の形態と比較して、記憶装置が1つから2つに増加した場合について説明する。
[Third Embodiment]
Hereinafter, a case where the number of storage devices is increased from one to two as compared with the first embodiment will be described.
図23は、第3の実施の形態のシステム構成図である。
第3の実施の形態のシステム構成図は、第1のコンピュータ100と第2のコンピュータ200と中継器300、400と第1の記憶装置510と第2の記憶装置520と伝送路L11、L12、L13、L14、L15、L16、L17、L18、L19、L20、L21、L22とから構成される。第1のコンピュータ100と第2のコンピュータ200とは、ユーザの端末装置であり、ユーザのサービス要求に応答するか、ユーザのサービス要求をサーバに送信する。中継器300、400は、第1のコンピュータ100と第2のコンピュータ200と第1の記憶装置510と第2の記憶装置520とを、互いに接続する。第1の記憶装置510は、第1のコンピュータ100と第2のコンピュータ200とから、データを記憶させられる。第2の記憶装置520は、第1のコンピュータ100と第2のコンピュータ200とから、データを記憶させられる。第1のコンピュータ100と第2のコンピュータ200と中継器300、400と第1の記憶装置510と第2の記憶装置520とは、伝送路L11、L12、L13、L14、L15、L16、L17、L18、L19、L20、L21、L22を介して、互いに通信している。
FIG. 23 is a system configuration diagram of the third embodiment.
The system configuration diagram of the third embodiment includes a first computer 100, a second computer 200,
第1のコンピュータ100については、第1の実施の形態で示した通りである。
第2のコンピュータ200については、第1の実施の形態で示した通りである。
第1の記憶装置510は、コントローラ511、512と記憶装置本体513とから構成される。コントローラ511、512は、第1の記憶装置510をネットワークに接続する。記憶装置本体513は、第1の記憶装置510の本体である。コントローラ511、512と記憶装置本体513とは、互いに通信している。
The first computer 100 is as described in the first embodiment.
The second computer 200 is as described in the first embodiment.
The first storage device 510 includes
第2の記憶装置520は、コントローラ521、522と記憶装置本体523とから構成される。コントローラ521、522は、第2の記憶装置520をネットワークに接続する。記憶装置本体523は、第2の記憶装置520の本体である。コントローラ521、522と記憶装置本体523とは、互いに通信している。
The second storage device 520 includes
図24は、通信テーブルの例を示す図である。
通信テーブル70は、名称と使用伝送路と通信状況とから構成される。名称は、アクセスルートの名称である。使用伝送路は、名称に関係するアクセスルートが使用する伝送路である。通信状況は、名称に関係するアクセスルートの状況である。なお、通信状況は、アクセスルートが運用されている場合運用用となり、アクセスルートが待機している場合待機用となり、アクセスルートがアクセスルートを診断する目的の場合診断用となる。
FIG. 24 is a diagram illustrating an example of a communication table.
The communication table 70 includes a name, a used transmission path, and a communication status. The name is the name of the access route. The used transmission line is a transmission line used by the access route related to the name. The communication status is the status of the access route related to the name. The communication status is for operation when the access route is operated, for standby when the access route is waiting, and for diagnosis when the access route is for the purpose of diagnosing the access route.
ここで、運用用と診断用と待機用との図24の記載は、第3の実施の形態の初期値である。通信1は、伝送路L11、L15を使用し、運用用である。通信2は、伝送路L11、L16を使用し、診断用である。通信3は、伝送路L11、L17を使用し、運用用である。通信4は、伝送路L11、L18を使用し、診断用である。通信5は、伝送路L12、L19を使用し、診断用である。通信6は、伝送路L12、L20を使用し、待機用である。通信7は、伝送路L12、L21を使用し、診断用である。通信8は、伝送路L12、L22を使用し、待機用である。通信9は、伝送路L13、L15を使用し、運用用である。通信10は、伝送路L13、L16を使用し、診断用である。通信11は、伝送路L13、L17を使用し、運用用である。通信12は、伝送路L13、L18を使用し、診断用である。通信13は、伝送路L14、L19を使用し、診断用である。通信14は、伝送路L14、L20を使用し、待機用である。通信15は、伝送路L14、L21を使用し、診断用である。通信16は、伝送路L14、L22を使用し、待機用である。
Here, the descriptions in FIG. 24 for operation, diagnosis, and standby are initial values of the third embodiment.
アクセスルート切替部104、204は、第1のコンピュータ100と第2のコンピュータ200と第1の記憶装置510と第2の記憶装置520とが接続された場合、通信テーブル70を作成する。第1の記憶装置510と第2の記憶装置520とに対し入出力が始まると、障害特定部103、203の障害情報により、障害箇所交換時に障害箇所が存在するアクセスルートにコンピュータがアクセスしないように、障害箇所が存在するアクセスルートを障害箇所が存在しないアクセスルートに切り替える。
The access
図25は、中継器後の伝送路に対するアクセスルート切替部の処理の例を示す図である。
障害特定部103により伝送路L15が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1及び通信9である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信6を運用用にする。アクセスルート切替部104、204は、通信9を停止させ、通信14を運用用にする。
FIG. 25 is a diagram illustrating an example of processing of the access route switching unit for the transmission path after the repeater.
When the transmission path L15 is specified as a failure location by the
図26は、図25の場合による通信テーブルの変化を示す図である。
通信テーブル70において、通信1が停止に、通信6が運用用に、通信9が停止に、通信14が運用用に変化する。
FIG. 26 is a diagram illustrating changes in the communication table in the case of FIG.
In the communication table 70, the
図27は、コントローラに対するアクセスルート切替部の処理の例を示す図である。
障害特定部103によりコントローラ511が障害箇所として特定された場合、影響を受けるアクセスルートは、通信1、通信5、通信9及び通信13である。この場合、アクセスルート切替部104、204は、通信1を停止させ、通信6を運用用にする。アクセスルート切替部104、204は、通信5を停止させる。アクセスルート切替部104、204は、通信9を停止させ、通信14を運用用にする。アクセスルート切替部104、204は、通信13を停止させる。
FIG. 27 is a diagram illustrating an example of processing of the access route switching unit for the controller.
When the
図28は、図27の場合による通信テーブルの変化を示す図である。
通信テーブル70において、通信1が停止に、通信6が運用用に、通信5が停止に、通信9が停止に、通信14が運用用に、通信13が停止に変化する。
FIG. 28 is a diagram showing changes in the communication table in the case of FIG.
In the communication table 70,
このようにすると、構成要素の交換の際、コンピュータシステムに対する操作が不要となるため、操作ミスが起こり得ない。また、コンピュータシステムの知識が少ない人でも、構成要素の交換を実行しやすい。 This eliminates the need for an operation on the computer system when replacing the constituent elements, so that an operation error cannot occur. In addition, even a person with little knowledge of a computer system can easily exchange components.
そして、通常業務において、処理性能を落とすことのない継続運用可能な高信頼性のコンピュータシステムを実現できる。
図29は、コンピュータのハードウェア構成の例を示す図である。コンピュータ800は、CPU(Central Processing Unit)801によって装置全体が制御されている。CPU801には、バス807を介してRAM(Random Access Memory)802、ハードディスクドライブ(HDD:Hard Disk Drive)803、グラフィック処理装置804、入力インタフェース805、および通信インタフェース806が接続されている。
Further, it is possible to realize a highly reliable computer system that can be continuously operated without degrading the processing performance in normal business.
FIG. 29 is a diagram illustrating an example of a hardware configuration of a computer. The
RAM802には、CPU801に実行させるOSのプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM802には、CPU801による処理に必要な各種データが格納される。HDD803には、OSやアプリケーションプログラムが格納される。
The
グラフィック処理装置804には、モニタ901が接続されている。グラフィック処理装置804は、CPU801からの命令に従って、画像をモニタ901の画面に表示させる。入力インタフェース805には、キーボード902とマウス903とが接続されている。入力インタフェース805は、キーボード902やマウス903から送られてくる信号を、バス807を介してCPU801に送信する。
A
通信インタフェース806は、ネットワーク904に接続されている。通信インタフェース806は、ネットワーク904を介して、他のコンピュータとの間でデータの送受信を行う。
The
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、障害解析装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
With the hardware configuration as described above, the processing functions of the present embodiment can be realized.
The above processing functions can be realized by a computer. In that case, a program describing the processing contents of the function that the failure analysis apparatus should have is provided. By executing the program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. Examples of the computer-readable recording medium include a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Examples of the magnetic recording device include a hard disk device (HDD), a flexible disk (FD), and a magnetic tape. Examples of the optical disc include a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only Memory), and a CD-R (Recordable) / RW (ReWritable). Magneto-optical recording media include MO (Magneto-Optical disk).
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When distributing the program, for example, a portable recording medium such as a DVD or a CD-ROM in which the program is recorded is sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. In addition, each time the program is transferred from the server computer, the computer can sequentially execute processing according to the received program.
(付記1) 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析装置において、
前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする障害検出手段と、
前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外する障害診断手段と、
前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とする障害特定手段と、
前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるアクセスルート切替手段と、
を有することを特徴とする障害解析装置。
(Supplementary note 1) In a failure analysis apparatus for analyzing a communication failure between a plurality of information devices and a plurality of devices capable of communicating with a plurality of access routes having one or more transmission paths connecting the information devices as constituent elements ,
When a failure is detected in normal access between the plurality of devices, failure detection means that sets all components on the access route that has executed the normal access as failure location candidates;
When a failure is detected by the failure detection means, a test access is executed to the failure location candidate, and if no failure is detected by the test access, all the access routes on which the test access is executed When a component is excluded from the failure location candidates and a failure is detected by the test access, all components that are not arranged on the access route that has executed the test access are excluded from the failure location candidates. Fault diagnosis means to
In the failure diagnosis unit, as a result of execution of the test access through one or more access routes, a failure identification unit that uses the component of the failure point candidate that is the last one as a failure point;
An access route switching unit that switches the access route for normal access between the plurality of devices to an access route that does not pass through a component identified as a failure location by the failure identifying unit;
A failure analysis apparatus characterized by comprising:
(付記2) 前記障害診断手段は、テスト用アクセスの起動の順序が記憶されている設定ファイルを参照し、前記設定ファイルで示される順序で前記テスト用アクセスを実行することを特徴とする付記1記載の障害解析装置。 (Additional remark 2) The said fault diagnosis means refers to the setting file in which the order of starting of the test access is stored, and executes the test access in the order indicated by the setting file. The failure analysis device described.
(付記3) 前記障害診断手段は、前記通常アクセスを実行したアクセスルートの一部の構成要素を経由したアクセスルートで前記テスト用アクセスを実行することを特徴とする付記1記載の障害解析装置。
(Supplementary note 3) The fault analysis device according to
(付記4) 前記障害診断手段は、前記通常アクセスを実行したアクセスルートと異なる構成要素を経由したアクセスルートで前記テスト用アクセスを実行することを特徴とする付記1記載の障害解析装置。
(Supplementary note 4) The fault analysis device according to
(付記5) 前記複数の装置は、記憶装置と前記記憶装置に対してネットワーク経由でアクセスするコンピュータであり、前記情報機器には、前記記憶装置内でデータを記憶する装置本体、前記装置本体を制御するコントローラ、前記ネットワーク上でデータを中継する中継器及び前記コンピュータにおいて通信を制御するアダプタが含まれることを特徴とする付記1記載の障害解析装置。
(Supplementary Note 5) The plurality of devices are a storage device and a computer that accesses the storage device via a network, and the information device includes a device main body that stores data in the storage device, and the device main body. The failure analysis apparatus according to
(付記6) コンピュータにより、複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析方法において、
障害検出手段が、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段が、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段が、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段が、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
ことを特徴とする障害解析方法。
(Additional remark 6) The failure which analyzes the failure of communication between several apparatuses which can communicate by several access route which makes a component a 1 or more transmission path which connects between several information devices and the said information devices with a computer In the analysis method,
When the failure detection means detects a failure in normal access between the plurality of devices, all the components on the access route that executed the normal access are set as failure location candidates,
If the failure diagnosis unit detects a failure by the failure detection unit, the failure diagnosis unit performs a test access to the failure location candidate, and if the failure is not detected by the test access, the access that has performed the test access When all the components on the route are excluded from the failure location candidates and a failure is detected by the test access, all the components not arranged on the access route that has executed the test access are Exclude from failure candidate,
As a result of the execution of the test access by one or more access routes in the failure diagnosis unit, the failure identification unit sets the component of the failure location candidate that is the last one as a failure location,
The access route switching means switches the access route for normal access between the plurality of devices to an access route that does not pass through a component identified as a failure location by the failure identification means.
A failure analysis method characterized by the above.
(付記7) 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析プログラムにおいて、
コンピュータに、
障害検出手段は、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段は、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段は、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段は、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
処理を実行させることを特徴とする障害解析プログラム。
(Supplementary note 7) In a failure analysis program for analyzing a communication failure between a plurality of information devices and a plurality of devices communicable by a plurality of access routes having one or more transmission paths connecting the information devices as constituent elements ,
On the computer,
When detecting a failure in normal access between the plurality of devices, the failure detection means sets all components on the access route that executed the normal access as failure location candidates,
When a failure is detected by the failure detection unit, the failure diagnosis unit executes a test access to the failure location candidate, and if the failure is not detected by the test access, the access that has executed the test access When all the components on the route are excluded from the failure location candidates and a failure is detected by the test access, all the components not arranged on the access route that has executed the test access are Exclude from failure candidate,
The failure identifying means uses the component of the failure location candidate that has become the last one as a result of the execution of the test access by one or more access routes in the failure diagnosis means as a failure location,
The access route switching means switches the access route for normal access between the plurality of devices to an access route that does not pass through a component identified as a failure location by the failure identifying means.
A failure analysis program characterized by causing a process to be executed.
(付記8) 複数の情報機器及び前記情報機器間を接続する1個以上の伝送路を構成要素とする複数のアクセスルートで通信可能な複数の装置間の通信の障害を解析する障害解析プログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータに、
障害検出手段は、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段は、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段は、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段は、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
処理を実行させることを特徴とする障害解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
(Supplementary Note 8) A failure analysis program for analyzing a communication failure between a plurality of information devices and a plurality of devices communicable by a plurality of access routes having one or more transmission paths connecting the information devices as constituent elements In a recorded computer-readable recording medium,
On the computer,
When detecting a failure in normal access between the plurality of devices, the failure detection means sets all components on the access route that executed the normal access as failure location candidates,
When a failure is detected by the failure detection unit, the failure diagnosis unit executes a test access to the failure location candidate, and if the failure is not detected by the test access, the access that has performed the test access When all the components on the route are excluded from the failure location candidates and a failure is detected by the test access, all the components not arranged on the access route that has executed the test access are Exclude from failure candidate,
The failure identifying means uses the component of the failure location candidate that has become the last one as a result of the execution of the test access by one or more access routes in the failure diagnosis means as a failure location,
The access route switching means switches the access route for normal access between the plurality of devices to an access route that does not pass through the component identified as the failure location by the failure identification means.
A computer-readable recording medium on which a failure analysis program is recorded.
10 コンピュータ
11 障害解析装置
11a 障害検出手段
11b 障害診断手段
11c 障害特定手段
11d アクセスルート切替手段
12 アダプタ
13 アダプタ
20 中継器
30 中継器
40 装置
41 コントローラ
42 コントローラ
43 装置本体
L1 伝送路
L2 伝送路
L3 伝送路
L4 伝送路
L5 伝送路
L6 伝送路
L7 伝送路
L8 伝送路
DESCRIPTION OF SYMBOLS 10 Computer 11
Claims (5)
前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とする障害検出手段と、
前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を前記障害箇所候補から除外する障害診断手段と、
前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とする障害特定手段と、
前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替えるアクセスルート切替手段と、
を有することを特徴とする障害解析装置。 In a failure analysis device that analyzes a failure in communication between a plurality of information devices and a plurality of devices that can communicate with a plurality of access routes having one or more transmission paths connecting the information devices as components,
When a failure is detected in normal access between the plurality of devices, failure detection means that sets all components on the access route that has executed the normal access as failure location candidates;
When a failure is detected by the failure detection means, a test access is executed to the failure location candidate, and if no failure is detected by the test access, all the access routes on which the test access is executed When a component is excluded from the failure location candidates and a failure is detected by the test access, all components that are not arranged on the access route that has executed the test access are excluded from the failure location candidates. Fault diagnosis means,
In the failure diagnosis unit, as a result of execution of the test access through one or more access routes, a failure identification unit that uses the component of the failure point candidate that is the last one as a failure point;
An access route switching unit that switches the access route for normal access between the plurality of devices to an access route that does not pass through a component identified as a failure location by the failure identifying unit;
A failure analysis apparatus characterized by comprising:
障害検出手段が、前記複数の装置間の通常アクセスにおいて障害を検出すると、前記通常アクセスを実行したアクセスルート上の全ての構成要素を障害箇所候補とし、
障害診断手段が、前記障害検出手段で障害が検出されると、前記障害箇所候補へテスト用アクセスを実行し、前記テスト用アクセスで障害を検出しなかった場合、前記テスト用アクセスを実行したアクセスルート上の全ての構成要素を、前記障害箇所候補から除外し、前記テスト用アクセスで障害を検出した場合、前記テスト用アクセスを実行したアクセスルート上に配置されていない全ての構成要素を、前記障害箇所候補から除外し、
障害特定手段が、前記障害診断手段において、1以上のアクセスルートで前記テスト用アクセスが実行された結果、最後の1つとなった前記障害箇所候補の構成要素を障害箇所とし、
アクセスルート切替手段が、前記複数の装置間の前記通常アクセス用のアクセスルートを、前記障害特定手段で障害箇所として特定された構成要素を経由しないアクセスルートに切り替える、
ことを特徴とする障害解析方法。
In a failure analysis method for analyzing a failure in communication between a plurality of devices capable of communicating with a plurality of access routes having a plurality of information devices and one or more transmission paths connecting the information devices as components, by a computer,
When the failure detection means detects a failure in normal access between the plurality of devices, all the components on the access route that executed the normal access are set as failure location candidates,
If the failure diagnosis unit detects a failure by the failure detection unit, the failure diagnosis unit performs a test access to the failure location candidate, and if the failure is not detected by the test access, the access that has performed the test access When all the components on the route are excluded from the failure location candidates and a failure is detected by the test access, all the components not arranged on the access route that has executed the test access are Exclude from failure candidate,
As a result of the execution of the test access by one or more access routes in the failure diagnosis unit, the failure identification unit sets the component of the failure location candidate that is the last one as a failure location,
The access route switching means switches the access route for normal access between the plurality of devices to an access route that does not pass through a component identified as a failure location by the failure identification means.
A failure analysis method characterized by the above.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004380071A JP2006185312A (en) | 2004-12-28 | 2004-12-28 | Failure analysis apparatus and failure analysis method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004380071A JP2006185312A (en) | 2004-12-28 | 2004-12-28 | Failure analysis apparatus and failure analysis method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006185312A true JP2006185312A (en) | 2006-07-13 |
Family
ID=36738368
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004380071A Withdrawn JP2006185312A (en) | 2004-12-28 | 2004-12-28 | Failure analysis apparatus and failure analysis method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006185312A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008114360A1 (en) * | 2007-03-16 | 2008-09-25 | Fujitsu Limited | Storage system, storage device, and hot-swap method for firmware |
-
2004
- 2004-12-28 JP JP2004380071A patent/JP2006185312A/en not_active Withdrawn
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008114360A1 (en) * | 2007-03-16 | 2008-09-25 | Fujitsu Limited | Storage system, storage device, and hot-swap method for firmware |
| US8010713B2 (en) | 2007-03-16 | 2011-08-30 | Fujitsu Limited | Storage system, storage apparatus, and method for hot swapping of firmware |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4107083B2 (en) | High-availability disk controller, its failure handling method, and high-availability disk subsystem | |
| JP4480756B2 (en) | Storage management device, storage system control device, storage management program, data storage system, and data storage method | |
| JP4319017B2 (en) | Storage system control method, storage system, and storage device | |
| JP2005326935A (en) | Management server for computer system with virtualized storage and failure avoidance recovery method | |
| US7302615B2 (en) | Method and system for analyzing loop interface failure | |
| US7315963B2 (en) | System and method for detecting errors in a network | |
| US20090235024A1 (en) | Volume Providing System Calling Two Processes Executing the Same Program Code and Exchanging Information Between the Two Processes | |
| US9075542B2 (en) | Storage system | |
| US7467241B2 (en) | Storage control method and storage control system | |
| WO2001029647A1 (en) | Storage area network system | |
| JP2008299481A (en) | Storage system and data copy method between multiple sites | |
| JP2006127217A (en) | Computer system and computer system control method | |
| JP2006139477A (en) | Computer system, management method, and storage network system | |
| JP2009026091A (en) | Connection management program, connection management method, and information processing apparatus | |
| KR100672885B1 (en) | Computer-readable recording media recording information processing systems, storage devices, and storage control programs | |
| JP2006185312A (en) | Failure analysis apparatus and failure analysis method | |
| US20230280938A1 (en) | Storage apparatus and control method | |
| US8347051B2 (en) | Storage apparatus, backup apparatus, and backup method | |
| JP5067075B2 (en) | Loosely coupled system, standby exclusive control device, loosely coupled system recovery method, program, and storage medium | |
| JP2006134207A (en) | Storage virtualization apparatus and computer system using the same | |
| JP5651004B2 (en) | Computer switching system, computer switching program, and computer switching method | |
| JP2007128551A (en) | Storage area network system | |
| US7409605B2 (en) | Storage system | |
| JP3781378B2 (en) | Storage subsystem | |
| US7509527B2 (en) | Collection of operation information when trouble occurs in a disk array device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080304 |