[go: up one dir, main page]

WO2018131147A1 - 管理システム、管理装置、および管理方法 - Google Patents

管理システム、管理装置、および管理方法 Download PDF

Info

Publication number
WO2018131147A1
WO2018131147A1 PCT/JP2017/001120 JP2017001120W WO2018131147A1 WO 2018131147 A1 WO2018131147 A1 WO 2018131147A1 JP 2017001120 W JP2017001120 W JP 2017001120W WO 2018131147 A1 WO2018131147 A1 WO 2018131147A1
Authority
WO
WIPO (PCT)
Prior art keywords
application
information
event
unit
event information
Prior art date
Application number
PCT/JP2017/001120
Other languages
English (en)
French (fr)
Inventor
翔太郎 田中
真希 津田
大樹 永樂
真吾 片野
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US16/081,057 priority Critical patent/US20190108082A1/en
Priority to JP2018561760A priority patent/JP6636656B2/ja
Priority to PCT/JP2017/001120 priority patent/WO2018131147A1/ja
Publication of WO2018131147A1 publication Critical patent/WO2018131147A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data

Definitions

  • the present invention relates to a management system, a management apparatus, and a management method, and is suitable for application to, for example, a management system, a management apparatus, and a management method that extract event information related to an analysis-origin application.
  • the presence or absence of the failure can be sequentially determined by monitoring the performance history of the hardware.
  • the other hardware connected to the hardware is extracted from the event that exceeded the threshold that occurred in the hardware, Search for hardware performance history and high correlation.
  • Patent Document 1 can narrow down physical nodes, logical nodes, physical components, and logical components, but cannot narrow down applications.
  • the analyzed application may be related to other applications, and the failure may be a failure caused by the analyzed application or a failure caused by another application, so a large number of failure events Of these, there is a problem that it is difficult to grasp which failure event should be confirmed, and it takes time to deal with the failure.
  • the present invention has been made in consideration of the above points, and intends to propose a highly maintainable management system that can quickly cope with failure recovery.
  • a management system for managing a plurality of applications, the event information of events occurring in each of the plurality of applications, and the relationship indicating the relationship between the applications in the plurality of applications
  • a storage unit that stores information, an input unit that inputs application information as an analysis start point among the plurality of applications, and an analysis start point application based on related information stored in the storage unit
  • An identifying unit that identifies a related application, and an extraction unit that extracts event information about the analysis starting application and event information about the related application from event information stored in the storage unit are provided. .
  • a management apparatus that manages a plurality of applications, stores event information of an event that has occurred in each of the plurality of applications, and related information that indicates a relationship between the applications in the plurality of applications.
  • an extracting unit that extracts event information of the application of the analysis starting point and event information of the related application from the event information stored in the storage unit.
  • a management method in a management system including a storage unit that stores event information of an event that has occurred in each of a plurality of applications, and related information that indicates a relationship between applications in the plurality of applications.
  • the present invention it is possible to narrow down the application related to the analysis starting application, and it is possible to narrow down the analysis starting application and the event information of the related application. It can be easily grasped, and failure recovery can be promptly handled.
  • FIG. 1 It is a figure which shows schematic structure of the management system and computer system by embodiment. It is a figure which shows the structure information table by embodiment. It is a figure which shows the performance information table by embodiment. It is a figure which shows the event information table by embodiment. It is a figure which shows the related information table by embodiment. It is a figure which shows the related degree information table by embodiment. It is a figure which shows the connection form of the computer network of the computer system by embodiment. It is a figure which shows the pre-processing by embodiment. It is a figure which shows the flowchart which concerns on the extraction process and display process of the analysis object by embodiment. It is a figure which shows the relationship of the application by embodiment. It is a figure which shows the display screen by embodiment.
  • FIG. 1 denotes a management system according to the first embodiment as a whole.
  • the management system 1 includes a management server 100 and one or more management clients 200 connected to the management server 100.
  • the management server 100 and the management client 200 are communicably connected via a communication network 901 (LAN (Local Area Network), WAN (World Area Network), the Internet, etc.).
  • LAN Local Area Network
  • WAN World Area Network
  • the Internet etc.
  • the management server 100 extracts event information 114 generated by an application at the analysis start point set by the user and an application related to the application from event information 114 collected from the computer system 2 described later. And displayed by the management client 200. According to the management system 1, it is possible to appropriately narrow down the event information 114 related to the analysis-origin application from among a large number of event information 114, so that it is possible to shorten the time until failure handling. Details will be described below.
  • the management server 100 includes a processor 101 (for example, a CPU (Central Processing Unit)) that performs various types of processing, and a storage resource 102 (for example, a random access memory (RAM), a read only memory (ROM)) that stores various types of information. HDD (Hard Disk Drive)) and an I / F (interface) 103 for communication with the outside.
  • processor 101 for example, a CPU (Central Processing Unit)
  • storage resource 102 for example, a random access memory (RAM), a read only memory (ROM)
  • HDD Hard Disk Drive
  • I / F interface
  • the processor 101 executes the management server program 111 stored in the storage resource 102.
  • the processor 101 receives, for example, an instruction according to a user operation from the management client 200 by executing the management server program 111, or generates information (screen information) drawn in the layout area and transmits the information to the management client 200.
  • the management server program 111 is stored in a recording medium (Compact Disc, Digital Versatile Disc, Magneto-Optical Disk, etc.), may be stored in the storage resource 102 from the recording medium, or stored in another information processing apparatus. Alternatively, it may be downloaded from another information processing apparatus and stored in the storage resource 102.
  • the storage resource 102 stores a computer program executed by the processor 101 and information used by the processor 101.
  • the storage resource 102 stores a management server program 111, configuration information 112, performance information 113, event information 114, related information 115, relevance information 116, and the like.
  • a part of information stored in the storage resource 102 may be directly acquired (collected) from the host 300 by the management server program 111 or accessed to another information processing apparatus that holds (manages) information of the host 300. It may be acquired by doing.
  • the I / F 103 is connected to the communication network 901, and the management server 100 communicates with the outside (management client 200, host 300, management server (not shown) that manages information of the host 300) via the I / F 103. .
  • the management server 100 receives an instruction according to a user operation or transmits screen information via the I / F 103.
  • the I / F 103 is an example of an I / O (Input / Output) interface device.
  • the management client 200 includes an input device 201 that performs various inputs, a display device 202 that performs various displays, a processor 203 that performs various processes, an I / F 204 that communicates with the outside, and a storage resource that stores various types of information 205.
  • the input device 201 is a pointing device, a keyboard, or the like.
  • the display device 202 is a display such as a liquid crystal display device having a physical screen on which information is displayed. Note that a touch screen in which the input device 201 and the display device 202 are integrated may be used.
  • the processor 203 is a CPU or the like, and various functions in the management client 200 are realized by executing the Web browser 211 and the management client program 212 stored in the storage resource 205. For example, the processor 203 executes the Web browser 211 and the management client program 212 to transmit an instruction according to a user operation to the management server 100 and receive screen information from the management server 100.
  • the I / F 204 is connected to the communication network 901, and the management client 200 communicates with the management server 100 via the I / F 204.
  • the storage resource 205 is a RAM, ROM, HDD or the like, and stores a computer program executed by the processor 203 and information used by the processor 203.
  • the storage resource 205 stores a Web browser 211 and a management client program 212.
  • the management client program 212 may be RIA (Rich Internet Application) or may not be RIA.
  • the management client program 212 is stored in a recording medium (Compact Disc, Digital Versatile Disc, Magneto-Optical Disk, etc.), may be stored in the storage resource 205 from the recording medium, stored in another information processing apparatus, and the like. May be downloaded from the information processing apparatus and stored in the storage resource 205.
  • a GUI screen display for accepting a user operation is realized by the cooperation of the management server program 111, the Web browser 211, and the management client program 212.
  • the management server program 111 receives an instruction in accordance with a user operation on the display screen from the web browser 211 or the management client program 212 (such as the web browser 211), and displays based on the instruction and information stored in the storage resource 102 Use information (for example, screen information) is created, and the display information is transmitted to the Web browser 211 or the like.
  • the web browser 211 or the like receives the display information and displays a screen according to the display information.
  • the computer system 2 includes one or more hosts 300 and one or more storage systems 400 connected to the one or more hosts 300.
  • the host 300 and the storage system 400 are communicably connected via a communication network 902 (SAN (Storage Area Network), LAN, etc.). Note that some or all of the communication network 901 and the communication network 902 may be common.
  • SAN Storage Area Network
  • LAN Local Area Network
  • the host 300 includes one or more application programs (APP301).
  • the host 300 may be a physical computer (physical machine) or a virtual computer (virtual machine).
  • the host 300 includes a processor 302, a storage resource 303, an I / F 303 that can communicate with the outside (management server 100, another host 300, etc.) via the communication network 901, and an external (others) via the communication network 902.
  • an I / F 304 that can communicate with the host 300, the storage system 400, and the like.
  • the APP 301 may operate on a physical machine or may operate on a virtual machine.
  • an I / O command specifying a logical volume is transmitted from the host 300 to the storage system 400.
  • the storage system 400 includes a controller 401, a physical storage device group 402, an I / F 403, and an I / F 404.
  • the controller 401 includes a port, an MPB (a blade (circuit board) having one or a plurality of microprocessors (MP)), a cache memory, and the like.
  • the port receives an I / O command (write command or read command) from the host 300, and the MP controls I / O of data according to the I / O command.
  • I / O command write command or read command
  • the physical storage device group 402 has one or more PG (Parity Group).
  • the PG may also be referred to as a RAID (Redundant Array of Independent (or Inexpensive) Disks) group.
  • the PG is composed of a plurality of physical storage devices, and stores data according to a predetermined RAID level.
  • the physical storage device is an HDD, SSD (Solid State Drive) or the like.
  • the storage system 400 has a plurality of logical volumes.
  • the logical volume may be a substantive logical volume (real volume) 411 based on the PG, or a virtual logical volume (virtual volume) 412 according to thin provisioning, storage virtualization technology, or the like.
  • FIG. 2 shows an example of the configuration information table 500 that stores the configuration information 112.
  • the configuration information table 500 stores information related to the configuration of the computer system 2. More specifically, the configuration information table 500 stores resource name and resource type information. For example, in the configuration information table 500, in addition to the resource names and resource types of hardware and logical elements (virtual machines, hypervisors, data stores, etc.), as shown in the row 501, the resource name and resource type of the application are displayed. Store.
  • various types of software such as job management software, application software, transaction processing software, application server software, DB (database) software, and OS (Operating System) are referred to as applications.
  • FIG. 3 shows an example of the performance information table 600 that stores the performance information 113.
  • the performance information table 600 stores information related to the performance of an infrastructure such as a physical machine or a virtual machine (VM). More specifically, the performance information table 600 stores resource name, metric, time, and value information.
  • FIG. 4 shows an example of an event information table 700 that stores the event information 114.
  • the event information table 700 stores information related to events that have occurred in resources such as applications. More specifically, the event information table 700 stores resource name, severity, time, and content information. A plurality of degrees (levels) are provided as the severity. In the present embodiment, emergency, emergency, critical, error, error, warning, notification, information, debug (in descending order of severity) Debug) is provided.
  • the severity is not limited to 8 levels, and may be less than 8 levels or more than 8 levels.
  • FIG. 5 shows an example of the related information table 800 that stores the related information 115.
  • the related information table 800 stores information related to the relationship between used resources and used resources. More specifically, the related information table 800 stores information on used resource names and used resource names.
  • the related information table 800 includes, in addition to the names of used resources and used resources between hardware, between logical elements (virtual machine, hypervisor, data store, etc.), between hardware and logical elements. As shown in 801, used resource names and used resource names between applications are stored, and as shown in a row 802, applications and infrastructure (physical machine (such as “Host1”), virtual machine (such as “VM21”)) are stored. Used resource name and used resource name are stored.
  • FIG. 6 shows an example of a relevance information table 900 that stores relevance information 116.
  • the relevance information table 900 stores information related to the relevance between applications. More specifically, the relevance information table 900 stores application type and application hierarchy information.
  • the first hierarchy “Job”, the second hierarchy “Service ⁇ Response ”, the third hierarchy“ Enterprise ”, the fourth hierarchy“ Transaction Processing ”, the fifth hierarchy“ Application Server ”, the first hierarchy Six layers “Database” and a seventh layer “Platform” are provided, and applications are automatically or manually classified into any layer. Note that the number of application layers is not limited to seven, and may be less than seven or more than seven. A plurality of hierarchies are provided as application hierarchies.
  • an application (application in the (n-1) th hierarchy or application in the (n + 1) th hierarchy) having a high degree of association is defined in advance.
  • FIG. 7 shows an example of the connection form (topology configuration) of the computer network of the computer system 2 to be managed.
  • the topology configuration of the computer system 2 to be managed can be created based on the configuration information 112 and the related information 115.
  • Element types belonging to the first layer (top layer) “Server” include “VM”, “HV”, “DS”, and “Host”.
  • An element belonging to the element type “VM” is “VM” (virtual machine executed on the host 300).
  • An element belonging to the element type “HV” is “HV” (a hypervisor that controls one or a plurality of virtual machines and is executed on the host 300).
  • the element belonging to the element type “DS” is “DS” (data store).
  • the data store is an element recognized as a storage device by the hypervisor.
  • the element belonging to the element type “Host” is “Host” (host 300).
  • FC-SW The element type belonging to the second layer “SAN” is “FC-SW”, and the element belonging to the element type “FC-SW” is “FC-SW” (FC (FibreFiChannel) switch in SAN). .
  • the element type belonging to the third layer “Storage” is “Storage”, and the element belonging to the element type “Storage” is “Storage”.
  • the element types included in the element type “Storage” there are a plurality of element types in Storage, for example, “Port”, “LDEV”, “MP”, “Pool”, “PG”, and “Cache”.
  • An element belonging to the element type “Port” is “Port” (a communication port connected to the FC switch and receiving an I / O command from a virtual machine).
  • An element belonging to the element type “LDEV” is “LDEV” (logical volume (real volume or virtual volume)).
  • the element belonging to the element type “MP” is “MP” (microprocessor).
  • An element belonging to the element type “Pool” is “Pool” (a storage area including a real area allocated to a virtual volume according to thin provisioning).
  • An element belonging to the element type “PG” is “PG” (parity group).
  • An element belonging to the element type “Cache” is “Cache” (a cache memory in which data input to and output from the logical volume is temporarily stored).
  • one or more element types may belong to one layer.
  • one group may be composed of two or more elements of the same element type.
  • FIG. 8 shows an example of pre-processing related to extraction and display of the analysis target in the management system 1.
  • the user sets monitoring targets (addition of monitoring devices, monitoring applications, etc.) via the management client 200.
  • the monitoring target may be set individually, or another management server that manages the monitoring target may be set.
  • the management server 100 periodically sets the monitoring target configuration information 112, performance information 113, event information 114, and related information 115 at predetermined timing or based on an instruction from the user.
  • the relevance information 116 is updated automatically or manually based on the collected information.
  • the management server 100 receives a period (analysis period) to be analyzed from the user, determines the status of the event information collected based on the received analysis period, and identifies the status (status is identified for each application.
  • Possible information for example, words, symbols, pictures, etc.
  • a plurality of categories are provided as the status.
  • the severity of the event information is divided into three, the first status is for the severity of “error” or higher, the second status is for the severity of “warning”, the “notification” or less
  • the severity is determined to be the third status.
  • the status categories are not limited to three categories, but may be less than three categories, more than three categories, or the same number as the severity level.
  • FIG. 9 shows an example of a processing procedure related to the analysis target extraction processing and display processing in the management system 1.
  • the management server 100 extracts an application that the user has set as an analysis start point and an application related to the application (step S10). For example, when the related information 115 shown in the related information table 800 is stored, the application relationship is specified as shown in FIG.
  • Example 1 When “Application1” is Designated as Analysis Start Point> Based on the related information 115, it is specified that “Application2” and “Application3” that are used resources of “Application1” are related to “Application1”. In addition, “Application4” and “Application5”, which are used resources of “Application2”, are also identified as related to “Application1”. Therefore, when “Application1” is designated as the analysis starting point, “Application1”, “Application2”, “Application3”, “Application4”, and “Application5” are extracted.
  • Example 2 When “Application2” is Designated as Analysis Start Point> Based on the related information 115, it is specified that “Application4” and “Application5”, which are used resources of “Application2”, are related to “Application2”. In addition, “Application1”, which is a resource used by “Application2”, is also identified as related to “Application2”. If there is a resource used for “Application1”, it is specified that the resource used (application) is related to the resource used retroactively, but the resource used for “Application1” is not specified to be related. That is, after tracing the used resource, the used resource is not traced. Also, after following the used resource, the used resource is not traced. Therefore, when “Application2” is designated as the analysis starting point, “Application1”, “Application2”, “Application4”, and “Application5” are extracted.
  • Example 3 When “Application6” is designated as an analysis starting point> Based on the related information 115, it is specified that there are no used resources and used resources for “Application6”, so only “Application6” is extracted. .
  • the management server 100 increases the weighting of the applications with similar relevance (step S20). More specifically, the management server 100 calculates a hierarchy difference for the application extracted in step S10 based on the configuration information 112 and the relevance information 116, and calculates a relevance score. For example, when “Application1” is specified as the analysis starting point, the hierarchy difference between “Application1” and “Application2” is “1” in “Application1” and “3” in “Application2”. Therefore, the hierarchy difference is “2”. Further, for example, the hierarchy difference between “Application1” and “Application5” is “1” in “Application1” and “5” in “Application5”, so the hierarchy difference is “4”. Become.
  • the management server 100 considers that the analysis starting application is the most relevant, sets the score to “1”, and sets the score higher as the application has a larger hierarchical difference.
  • the same score is set for the hierarchy difference due to the same hierarchy, and a different predefined score is set for the hierarchy difference due to a different hierarchy.
  • the user can proceed with analysis from an application with a close degree of relevance, and can efficiently analyze factors such as failures.
  • the management server 100 increases the weight of the event near the current time (step S30). More specifically, with respect to the event information 114 of the application extracted in step S10, the management server 100 sets the score of the occurrence time as event information 114 whose event information 114 time (for example, event occurrence time) is farther from the current time. Set the value higher. In the case of the same time, the same score is set.
  • the user can grasp event information in time series and can efficiently analyze factors such as failures.
  • the management server 100 increases the weight of the application in which the high severity event has occurred (step S40). More specifically, the management server 100 calculates a severity score used for displaying the application and a severity score used for displaying the event based on the event information 114 of the application extracted in step S10.
  • the management server 100 identifies the highest severity of the event information 114 for each application, sets a higher score for an application with a lower identified severity, and calculates a severity score used for displaying the application. For example, in “Application1”, since the severity is “Information” and “Alert”, “Alert” is specified as the highest severity. Note that the management server 100 does not display an application whose calculated score is greater than or equal to a threshold value (an application with low severity).
  • the user can proceed with the analysis from a high-severity application, and can efficiently analyze a factor such as a failure.
  • the user can narrow down the analysis range.
  • the management server 100 specifies the highest severity of the event information 114 for each application and every predetermined time interval, and sets a higher score for an application with a lower specified severity to display events. Calculate the severity score to use. For example, the management server 100 does not display events whose calculated score is greater than or equal to a threshold (low severity events).
  • a threshold low severity events
  • an arbitrary value may be set as the predetermined time interval, but a value obtained by dividing the analysis period specified by the user into a plurality of equal parts (6 equal parts, 7 equal parts, etc.) due to screen display limitations. Is preferably used.
  • the user can grasp event information having a high severity and can efficiently analyze a factor such as a failure. Also, by not displaying event information with low severity, the user can narrow down the analysis range.
  • the management server 100 increases the weight of an application having a large number of events per unit time (step S50). More specifically, the management server 100 calculates the score of the number of occurrences used for displaying the application and the score of the number of occurrences used for displaying the event based on the event information 114 of the application extracted in step S10.
  • the management server 100 counts the number of events that have occurred for each application (the number of event information 114), sets a higher score for an application with a smaller number of events that have occurred, and scores the number of occurrences used to display the application. Is calculated.
  • the user can proceed with analysis from an application with a large number of occurrences, and can efficiently analyze factors such as failures.
  • the management server 100 counts the number of events that have occurred for each event display (for each application and for each predetermined time interval), and sets a higher score for a display target that has a smaller number of events. The score of the number of occurrences used to display the event is calculated.
  • the user can grasp the display of events with a large number of occurrences, and can efficiently analyze factors such as failures.
  • the management server 100 outputs application and event information based on the scores calculated in steps S20 to S50 (step S60).
  • display is described as an example of output, but the present invention is not limited to this.
  • it may be output as a file (data), printed on a medium such as paper, output as sound, or other output.
  • the management server 100 determines the display order of applications based on the relevance score, the severity score, and the occurrence count score. More specifically, the management server 100 sorts the applications extracted in step S10 in the order of relevance score. If there is a score of the same relevance level, the management server 100 further sorts in order of severity score. If the score is the same, the application display order is determined by further sorting in the order of score of the number of occurrences.
  • the priority of the relevance score, the severity score, and the score of the number of occurrences is used, but other priorities may be used.
  • the applications are sorted using all the scores of the relevance score, the severity score, and the number of occurrences. However, it is not necessary to use all the scores. It may be used.
  • Each of the priority setting and the score setting to be used may be defined in advance or may be changed (customized) by the user.
  • the management server 100 determines a display event based on the score of the occurrence time, the score of the severity, and the score of the number of occurrences. More specifically, the management server 100 identifies the event with the highest severity based on the severity score for each application and for each display section (predetermined time interval). If there is, the event that occurred most recently is further identified based on the score of the occurrence time, and if the score of the occurrence time is also the same, the event is further identified based on the score of the number of occurrences, and information on the identified event (event information 114) is determined as a display event.
  • the priority order of the severity score, the occurrence time score, and the occurrence number score is used, but other priority orders may be used.
  • the event to be displayed is specified using all the scores of the occurrence time score, the severity score, and the occurrence number score, but it is not necessary to use all the scores.
  • a score may be used.
  • Each of the priority setting and the score setting to be used may be defined in advance or may be changed (customized) by the user.
  • the management server 100 displays information (for example, resource name) related to the application in the determined display order, and information related to the event (for example, information indicating the severity of the identified event) in association with the application and the display section. Screen information for display is generated and displayed on the management client 200.
  • the management server 100 displays an application related to the analysis starting application having a high degree of relevance (low score) closer to the analysis starting application. At this time, if there are items with the same relevance level, those with high severity (low scores) are displayed closer. Furthermore, when there is a thing with the same severity, a thing with a large number of occurrences (a thing with a low score) is displayed closer.
  • the management server 100 does not display information related to an application having a severity score equal to or higher than a threshold (for example, scores corresponding to “Information” and “Debug”) among related applications.
  • the threshold value may be set in advance or set (customized) by the user.
  • the management server 100 collectively displays information related to the event for each application and for each display section.
  • the management server 100 displays information indicating the severity of the identified event and the number of occurrences of the event.
  • the management server 100 does not display information related to events for which the severity score of the identified event is equal to or greater than a threshold (for example, a score corresponding to “Information” and “Debug”). According to such a configuration, it becomes possible to quickly grasp an event that needs to be dealt with.
  • the threshold value may be set in advance or set (customized) by the user.
  • FIG. 11 shows a display example (display screen 1000) of information related to the application and information related to the event.
  • the display screen 1000 is generated by the management server 100 and displayed on the management client 200.
  • the display screen 1000 displays an event related display area 1100 that can display information related to an event for each application.
  • an event information display area 1200 that can display details of the information related to the selected event (event information 114) is displayed on the display screen 1000.
  • the performance information 113 of the infrastructure (physical machine or virtual machine) related to the event information 114 selected in the event information display area 1200 is displayed on the display screen 1000.
  • a displayable performance information display area 1300 is displayed.
  • Event related display area In the event related display area 1100, period information 1101 indicating an analysis period, and application information 1110 of an application related to the analysis starting point (an icon indicating the highest severity in an application, an icon indicating an application type, a resource name, etc.) are displayed. Is displayed.
  • the application information 1110 is not limited to the above-described content, and the display name (application name or the like) of the application may be stored in the storage resource 102 for each application, and the display name may be displayed instead of the resource name. Other information may be displayed.
  • the application information 1110 the application information 1110 of the application as the analysis starting point is displayed at the top, and the application information 1110 of the application having a high degree of relevance based on the score relating to the degree of association, the score relating to the severity, and the score relating to the number of occurrences.
  • the event related display area 1100 is divided for each predetermined time interval, and the event information 114 is mapped for each time interval and displayed as one event icon 1120.
  • the event icon 1120 is provided in such a manner that the severity information 1121 indicating the highest severity in the event in the time interval and the occurrence number information 1122 indicating the number of occurrences of the event in the time interval can be grasped.
  • a selection button 1130 is provided for each time interval in which the event information 114 is mapped. By pressing the selection button 1130, all event information 114 (all event icons 1120) mapped to the time interval corresponding to the selection button 1130 is selected.
  • a time interval line 1140 is provided for each predetermined time interval.
  • an application having a high degree of relevance with the analysis-origin application and a large number of serious events is displayed closer to the analysis-origin application, and the event is displayed at predetermined time intervals. Since the event icon 1120 capable of grasping the severity and the number of occurrences is displayed, it is possible to easily grasp the range of influence of the application at the analysis starting point and the priority for handling the failure.
  • the management server 100 outputs details of information relating to the event selected by the user (step S70). For example, when the event icon 1120 is selected based on a user operation in the event related display area 1100, the management server 100 displays details (for example, event information 114) of the selected event icon 1120 on the display screen 1000. Screen information for displaying a possible event information display area 1200 is generated.
  • the event information 114 of the event icon 1120 selected in the event related display area 1100 is displayed in a list format.
  • event information 114 with higher severity is displayed higher and event information 114 closer to the current time is displayed higher.
  • items to be displayed in the event information 114 are “Event ID”, “Status (severity)”, “Date Time (time)”, “Application Name (resource name)”, and “Message (content)”.
  • Event ID “Status (severity)”
  • Date time
  • Application Name “resource name”
  • Message content
  • event information 114 with higher severity is displayed higher, and event information 114 with the same severity is displayed higher with event information 114 closer to the current time.
  • the user can quickly grasp the event information 114 of the event that needs to be dealt with.
  • the user can change the setting (Filter) of the condition of the event information 114 to be displayed in the event information display area 1200, change the item to be displayed in the event information display area 1200 (Column Settings), or change a desired item. By selecting, the items can be sorted (sorted) with priority.
  • the event information display area 1200 is provided with a selection box 1211 for selecting event information 114 for each event information 114.
  • the event information display area 1200 is provided with a display button 1212 (Show Performance) for displaying the infrastructure performance information 113 related to the event information 114 corresponding to the selected selection box 1211.
  • the management server 100 outputs the infrastructure performance history and the time when the event occurred (step S80). For example, when the event information 114 is selected in the event information display area 1200, the management server 100 can display the infrastructure performance information 113 related to the event information 114 selected in the event information display area 1200 on the display screen 1000. Screen information for displaying the various performance information display areas 1300 is generated.
  • performance information display area 1300 physical machine or virtual machine performance information 113 related to the event information 114 selected in the event information display area 1200 is displayed as a performance graph 1310.
  • the performance type (Metric) information exceeding the threshold during the analysis period is displayed among the physical machine or virtual machine performance information 113 related to the event information 114.
  • the performance type is determined according to the priority order of the performance types set in advance or set by the user. Note that the initial display is not limited to the above-described content, and the performance type (metric) information set by the user may be initially displayed.
  • CPU usage rate CPU usage rate
  • memory usage rate network port average packet reception amount
  • network port average packet transmission amount network port average packet transmission amount
  • HBA average frame reception amount HBA average frame transmission amount
  • disk transfer processing average examples include time, disk reading speed, disk writing speed, and free disk space.
  • the CPU usage rate the ratio of the CPU dispatch waiting time, the CPU usage amount, the memory usage rate, the memory balloon, the memory usage amount, the virtual port average packet reception amount, the virtual port average packet transmission amount, Percentage of discarded average packet of virtual port, Percentage of discarded average packet of virtual port, Average of virtual port received data, Average of virtual port data transmission, Virtual disk average read request, Virtual disk average write Request, virtual disk average read / write request, virtual disk read wait time, virtual disk write wait time, virtual disk read speed, virtual disk write speed, and the like.
  • the performance graph 1310 is provided with time interval lines 1311 at the same time interval as the event related display area 1100.
  • a time interval line 1311 for the last one hour of the analysis period is displayed.
  • the display range of the performance graph 1310 can be specified from the drop-down list 1320 by the user.
  • the time interval line 1311 includes at least a time interval line 1311 of a time interval (event occurrence time interval) including the selected event information 114 among the time intervals of the event related display area 1100. That is, the time interval of the performance graph 1310 may be only the event occurrence time interval, may include the time interval immediately before the event occurrence time interval, or may be the time interval immediately after the event occurrence time interval. May be included.
  • the performance graph 1310 is provided with an event time icon 1312 indicating the time when the event of the event information 114 has occurred. According to the event time icon 1312, the infrastructure performance information 113 can be grasped in association with the event information 114.
  • the user can quickly grasp the entire application and event to be analyzed. Become.
  • the display screen 1000 can display a list of event information displayed together, and the user can easily confirm the contents of the event whose details are to be confirmed.
  • the performance information of the infrastructure related to the selected event information is displayed. According to the infrastructure performance information, the user can grasp the problem resource on the infrastructure side, so whether the failure of the selected event information is an application side failure or an infrastructure side failure. Can be separated.
  • the event information can be appropriately narrowed down by specifying the application related to the analysis starting application, so that it is possible to shorten the time until failure handling. Further, since the performance information of the infrastructure of the narrowed event information can be displayed, it becomes possible to quickly determine whether the failure of the event information is a failure on the application side or a failure on the infrastructure side.
  • the applications are sorted in the order of relevance score. If there is a score with the same relevance level, the applications are further sorted in the order of severity score.
  • the present invention is not limited to this, and after calculating the relevance score, the severity score, and the score of the number of occurrences, a value obtained by summing these scores (total score) May be calculated and sorted in the order of the total score. In this case, by enabling customization by the user such as increasing the weight of a specific score, the display order of applications can be determined and displayed with higher accuracy.
  • it is not necessary to use all the scores of the relevance score, the severity score, and the occurrence score, and a part of the scores may be used.
  • events are specified in the order of severity score, and when there is a score of the same severity, further specified in the order of score of occurrence time, and the same in the score of occurrence time, the number of occurrences
  • the present invention is not limited to this, and a value obtained by calculating the severity score, the occurrence time score, and the occurrence number score and then summing these scores (total score) is described. And the event having the highest total score may be specified.
  • by enabling customization by the user such as increasing the weight of a specific score, it becomes possible to specify (extract) and display an event with higher accuracy.
  • it is not necessary to use all the scores of the severity score, the occurrence time score, and the occurrence number score, and a part of the scores may be used.
  • the present invention is not limited to this, and the score related to the score is higher than the threshold (for example, an application having a hierarchy difference of “5” or higher may not be displayed, or a score related to the number of occurrences is greater than or equal to a threshold (for example, a score corresponding to the occurrence number of “2” or less). ) May not be displayed.
  • the management server program 111 generates screen information for drawing a display object in the layout area, and the Web browser 211 (or the management client program 212) performs a user operation on the GUI screen.
  • the management server program 111 transmits at least part of the information stored therein to the Web browser 211 (or To the management client program 212), and the Web browser 211 (or management client program 212) stores it in the storage resource 205 as temporary information, and the Web browser 211 (or management client program 212) performs the user operation.
  • Based on the instructions and temporary information according renders a display object in the layout area may be (for example, a display object new drawing, enlarged or reduced) so.
  • a part of the function of the management server 100 may be realized by the management client 200, a part of the function of the management client 200 may be realized by the management server 100, All functions of the management client 200 may be realized by the management server 100 and the management client 200 may not be provided.
  • step S20 the case where the processing is performed in the order of step S20, step S30, step S40, and step S50 has been described.
  • the present invention is not limited to this, and the weight may be increased in an arbitrary order.
  • 1 ... Management system, 2 ... Computer system, 100 ... Management server, 200 ... Management client, 300 ... Host, 400 ... Storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】障害復旧を迅速に対応可能な保守性の高い管理システムを提供する。 【解決手段】複数のアプリケーションの各々で発生したイベントのイベント情報と、複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部と、複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する入力部と、記憶部に記憶される関連情報に基づいて、分析起点のアプリケーションに関連するアプリケーションを特定する特定部と、記憶部に記憶されるイベント情報から、分析起点のアプリケーションのイベント情報、および関連するアプリケーションのイベント情報を抽出する抽出部と、を設けるようにした。

Description

管理システム、管理装置、および管理方法
 本発明は管理システム、管理装置、および管理方法に関し、例えば分析起点のアプリケーションに係るイベント情報を抽出する管理システム、管理装置、および管理方法に適用して好適なものである。
 情報システムの大規模化が進み、ハードウェアおよびソフトウェアが多数組み合わされて動作するようになり、これらの関係が複雑化している。このような状況のもと、情報システムに障害が発生すると、障害箇所を特定することが困難となり、情報システムを迅速に復旧できなくなる。例えば、情報システムに障害が発生した場合、障害イベントが表示されるイベントコンソール画面にて、障害イベントを1つ1つ確認し、事前設計された保守書に従って、機器の状態を確認し、原因を特定し、対処した障害イベントに対処済みのラベルを付けるというような作業が行われる。
 ここで、ハードウェアの障害を確認したい場合、当該ハードウェアが有する性能履歴を監視することで、その障害有無を逐次判定できる。また、障害発生時の影響範囲の確認、要因の分析などを行う場合、ハードウェアで発生した閾値を超過したイベントを起点に、当該ハードウェアが接続されている他のハードウェアを抽出し、当該ハードウェアの性能履歴と相関度の高いものを探索する。
 近年、原因の分からない障害が発生した場合にどのような条件で絞り込めば良いかの見当をつけるために、表示対象のエレメント(計算機システムの構成要素)を絞り込む技術が開示されている(特許文献1参照)。
特許第5957570号
 しかしながら、特許文献1に記載の技術では、物理的なノード、論理的なノード、物理的なコンポーネント、および論理的なコンポーネントを絞り込むことはできるが、アプリケーションを絞り込むことはできない。
 また、アプリケーションについては、ハードウェアの性能履歴のような障害イベントを逐次判定できる情報が存在しないため、アプリケーションで障害イベントが発生した場合、ハードウェアのように、その障害イベントを起点に、障害有無を判定し、影響範囲の確認、要因の分析などを行うことができない。
 つまり、分析対象のアプリケーションが他のアプリケーションと関連していることもあり、その障害が分析対象のアプリケーションに起因する障害かもしれないし、他のアプリケーションに起因する障害かもしれないので、多数の障害イベントのうちどの障害イベントを確認すべきかが把握できず、障害対応までに時間がかかってしまうという問題がある。
 また、アプリケーションの障害イベントは、性能履歴のような情報を持たないため、単純な相関分析は適用できず、事前設計された保守書に従って、関係する障害イベントを抽出する必要があるため、障害対応までに時間がかかってしまうという問題がある。
 本発明は以上の点を考慮してなされたもので、障害復旧を迅速に対応可能な保守性の高い管理システムを提案しようとするものである。
 かかる課題を解決するため本発明においては、複数のアプリケーションを管理する管理システムであって、前記複数のアプリケーションの各々で発生したイベントのイベント情報と、前記複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部と、前記複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する入力部と、前記記憶部に記憶される関連情報に基づいて、前記分析起点のアプリケーションに関連するアプリケーションを特定する特定部と、前記記憶部に記憶されるイベント情報から、前記分析起点のアプリケーションのイベント情報、および前記関連するアプリケーションのイベント情報を抽出する抽出部と、を設けるようにした。
 また本発明においては、複数のアプリケーションを管理する管理装置であって、前記複数のアプリケーションの各々で発生したイベントのイベント情報と、前記複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部と、前記複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する入力部と、前記記憶部に記憶される関連情報に基づいて、前記分析起点のアプリケーションに関連するアプリケーションを特定する特定部と、前記記憶部に記憶されるイベント情報から、前記分析起点のアプリケーションのイベント情報、および前記関連するアプリケーションのイベント情報を抽出する抽出部と、を設けるようにした。
 また本発明においては、複数のアプリケーションの各々で発生したイベントのイベント情報と、前記複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部を備える管理システムにおける管理方法であって、入力部が、前記複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する第1のステップと、特定部が、前記記憶部に記憶される関連情報に基づいて、前記分析起点のアプリケーションに関連するアプリケーションを特定する第2のステップと、抽出部が、前記記憶部に記憶されるイベント情報から、前記分析起点のアプリケーションのイベント情報、および前記関連するアプリケーションのイベント情報を抽出する第3のステップと、を設けるようにした。
 本発明によれば、分析起点のアプリケーションに関連するアプリケーションを絞り込むことができ、かつ、分析起点のアプリケーションおよび関連するアプリケーションのイベント情報を絞り込むことができるので、障害などのイベントの影響範囲および要因を容易に把握することができ、障害復旧を迅速に対応可能となる。
 本発明によれば、障害復旧を迅速に対応可能な保守性の高い管理システムを実現することができる。
実施の形態による管理システムおよび計算機システムの概略構成を示す図である。 実施の形態による構成情報テーブルを示す図である。 実施の形態による性能情報テーブルを示す図である。 実施の形態によるイベント情報テーブルを示す図である。 実施の形態による関連情報テーブルを示す図である。 実施の形態による関連度情報テーブルを示す図である。 実施の形態による計算機システムのコンピュータネットワークの接続形態を示す図である。 実施の形態による事前処理を示す図である。 実施の形態による分析対象の抽出処理および表示処理に係るフローチャートを示す図である。 実施の形態によるアプリケーションの関係を示す図である。 実施の形態による表示画面を示す図である。
 以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
(管理システム)
 図1において、1は全体として第1の実施の形態による管理システムを示す。この管理システム1は、管理サーバ100と、管理サーバ100に接続された1以上の管理クライアント200とを備える。管理サーバ100と管理クライアント200とは、通信ネットワーク901(LAN(Local Area Network)、WAN(World Area Network)、インターネット等)を介して通信可能に接続される。
 本管理システム1では、後述の計算機システム2から収集されたイベント情報114の中から、ユーザにより設定された分析起点のアプリケーションおよび当該アプリケーションに関連するアプリケーションで発生したイベント情報114が管理サーバ100により抽出され、管理クライアント200により表示される。かかる管理システム1によれば、多数のイベント情報114の中から、分析起点のアプリケーションに関連するイベント情報114を適切に絞り込むことができるため、障害対応までの時間を短縮できるようになる。以下、詳細に説明する。
(管理サーバ(管理装置))
 管理サーバ100は、各種の処理を行うプロセッサ101(例えば、CPU(Central Processing Unit))と、各種の情報を記憶する記憶資源102(例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive))と、外部との通信を行うI/F(interface)103とを備える。
 プロセッサ101が記憶資源102に記憶される管理サーバプログラム111を実行することで、管理サーバ100における各種の機能が実現される。プロセッサ101は、例えば、管理サーバプログラム111を実行することにより、ユーザ操作に従う指示を管理クライアント200から受信したり、レイアウト領域に描画される情報(画面情報)を生成して管理クライアント200に送信したりする。ここで、管理サーバプログラム111は、記録媒体(Compact Disc、Digital Versatile Disc、Magneto-Optical disk等)に記憶され、記録媒体から記憶資源102に記憶されてもよいし、他の情報処理装置に記憶され、他の情報処理装置からダウンロードされて記憶資源102に記憶されてもよい。
 記憶資源102は、プロセッサ101で実行されるコンピュータプログラム、プロセッサ101に使用される情報を記憶する。記憶資源102は、管理サーバプログラム111、構成情報112、性能情報113、イベント情報114、関連情報115、関連度情報116等を記憶する。記憶資源102に記憶される一部の情報は、管理サーバプログラム111により、ホスト300から直接取得(収集)されてもよいし、ホスト300の情報を保有(管理)する他の情報処理装置にアクセスすることで取得されてもよい。
 I/F103は、通信ネットワーク901に接続され、管理サーバ100は、外部(管理クライアント200、ホスト300、ホスト300の情報を管理する管理サーバ(図示しない)等)とI/F103を介して通信する。管理サーバ100は、I/F103を介して、ユーザ操作に従う指示を受信したり、画面情報を送信したりする。なお、I/F103は、I/O(Input / Output)インターフェースデバイスの一例である。
(管理クライアント)
 管理クライアント200は、各種の入力を行う入力デバイス201、各種の表示を行う表示デバイス202、各種の処理を行うプロセッサ203、外部との通信を行うI/F204、および各種の情報を記憶する記憶資源205を備える。入力デバイス201は、ポインティングデバイス、キーボードなどである。表示デバイス202は、情報が表示される物理画面を有する液晶表示装置などのディスプレイである。なお、入力デバイス201および表示デバイス202が一体となったタッチスクリーンが用いられてもよい。
 プロセッサ203は、CPU等であり、記憶資源205に記憶されるWebブラウザ211および管理クライアントプログラム212を実行することで、管理クライアント200における各種の機能が実現される。プロセッサ203は、例えば、Webブラウザ211および管理クライアントプログラム212を実行することにより、ユーザ操作に従う指示を管理サーバ100に送信したり、画面情報を管理サーバ100から受信したりする。I/F204は、通信ネットワーク901に接続され、管理クライアント200は、I/F204を介して管理サーバ100と通信する。
 記憶資源205は、RAM、ROM、HDD等であり、プロセッサ203で実行されるコンピュータプログラム、プロセッサ203に使用される情報を記憶する。例えば、記憶資源205は、Webブラウザ211および管理クライアントプログラム212を記憶する。管理クライアントプログラム212は、RIA(Rich Internet Application)であってもよいし、RIAでなくてもよい。管理クライアントプログラム212は、記録媒体(Compact Disc、Digital Versatile Disc、Magneto-Optical disk等)に記憶され、記録媒体から記憶資源205に記憶されてもよいし、他の情報処理装置に記憶され、他の情報処理装置からダウンロードして記憶資源205に記憶されてもよい。
 本実施の形態では、管理サーバプログラム111とWebブラウザ211と管理クライアントプログラム212との協働によって、ユーザ操作を受け付けるGUI画面表示が実現される。例えば、管理サーバプログラム111が、表示画面に対するユーザ操作に従う指示をWebブラウザ211または管理クライアントプログラム212(Webブラウザ211等)から受け、その指示と記憶資源102に記憶された情報とに基づいて、表示用情報(例えば、画面情報)を作成し、その表示用情報をWebブラウザ211等に送信する。Webブラウザ211等は、表示用情報を受信し、その表示用情報に従って画面を表示する。
(計算機システム)
 計算機システム2は、1以上のホスト300と、1以上のホスト300に接続された1以上のストレージシステム400とを備える。ホスト300とストレージシステム400とは、通信ネットワーク902(SAN(Storage Area Network)、LAN等)を介して通信可能に接続される。なお、通信ネットワーク901と通信ネットワーク902とは、一部または全てが共通であってもよい。
(ホスト(物理計算機または仮想計算機))
 ホスト300は、1以上のアプリケーションプログラム(APP301)を備える。ホスト300は、物理計算機(物理マシン)でもあってもよいし、仮想計算機(仮想マシン)であってもよい。例えば、ホスト300は、プロセッサ302、記憶資源303、通信ネットワーク901を介して外部(管理サーバ100、他のホスト300等)と通信可能なI/F303、および通信ネットワーク902を介して外部(他のホスト300、ストレージシステム400等)と通信可能なI/F304を備える。付言するならば、APP301は、物理マシン上で動作するものであってもよいし、仮想マシン上で動作するものであってもよい。ホスト300では、APP301が実行されることにより、例えば、論理ボリュームを指定したI/Oコマンドがホスト300からストレージシステム400に送信される。
(ストレージシステム)
 ストレージシステム400は、コントローラ401、物理記憶デバイス群402、I/F403、およびI/F404を備える。
 コントローラ401は、ポート、MPB(1又は複数のマイクロプロセッサ(MP)を有するブレード(回路基板))、キャッシュメモリなどを備える。例えば、ポートが、ホスト300からI/Oコマンド(ライトコマンドまたはリードコマンド)を受信し、MPが当該I/Oコマンドに従うデータのI/Oを制御する。
 物理記憶デバイス群402は、1以上のPG(Parity Group)を有する。PGは、RAID(Redundant Array of Independent(or Inexpensive) Disks)グループと称することもある。PGは、複数の物理記憶デバイスで構成され、所定のRAIDレベルに従ってデータを記憶する。物理記憶デバイスは、HDD、SSD(Solid State Drive)等である。また、ストレージシステム400は、複数の論理ボリュームを有する。論理ボリュームとしては、PGに基づく実体的な論理ボリューム(実ボリューム)411であってもよいし、シンプロビジョニング、ストレージ仮想化技術等に従う仮想的な論理ボリューム(仮想ボリューム)412であってもよい。
(管理システムにおける各種の情報を格納するテーブル)
 図2~図6を用いて管理システム1における各種の情報を格納するテーブルについて説明する。図2は、構成情報112を格納する構成情報テーブル500の一例を示す。構成情報テーブル500は、計算機システム2の構成に係る情報を格納する。より具体的には、構成情報テーブル500は、リソース名およびリソース種別の情報を格納する。例えば、構成情報テーブル500は、ハードウェアおよび論理的なエレメント(仮想マシン、ハイパーバイザ、データストア等)のリソース名およびリソース種別に加え、行501に示すように、アプリケーションのリソース名およびリソース種別を格納する。本実施の形態では、ジョブ管理ソフト、アプリケーションソフト、トランザクション処理ソフト、アプリケーションサーバソフト、DB(database)ソフト、OS(Operating System)など、各種のソフトウェアをアプリケーションと称する。
 図3は、性能情報113を格納する性能情報テーブル600の一例を示す。性能情報テーブル600は、物理マシン、仮想マシン(VM)などのインフラ(infrastructure)の性能に係る情報を格納する。より具体的には、性能情報テーブル600は、リソース名、メトリック、時刻、および値の情報を格納する。
 図4は、イベント情報114を格納するイベント情報テーブル700の一例を示す。イベント情報テーブル700は、アプリケーション等のリソースで発生したイベントに係る情報を格納する。より具体的には、イベント情報テーブル700は、リソース名、重大度、時刻、および内容の情報を格納する。重大度としては、複数の度合い(レベル)が設けられる。本実施の形態では、重大度が高い順に、緊急(Emergency)、警戒(Alert)、致命的(Critical)、エラー(Error)、警告(Warning)、通知(Notice)、情報(Information)、デバッグ(Debug)が設けられる。なお、重大度は、8段階に限られるものではなく、8段階より少なくてもよいし、8段階より多くてもよい。
 図5は、関連情報115を格納する関連情報テーブル800の一例を示す。関連情報テーブル800は、使用リソースと被使用リソースとの関係に係る情報を格納する。より具体的には、関連情報テーブル800は、使用リソース名および被使用リソース名の情報を格納する。例えば、関連情報テーブル800は、ハードウェア間、論理的なエレメント(仮想マシン、ハイパーバイザ、データストア等)間、ハードウェアおよび論理的なエレメント間の使用リソース名および被使用リソース名に加え、行801に示すように、アプリケーション間の使用リソース名および被使用リソース名を格納し、行802に示すように、アプリケーションおよびインフラ(物理マシン(「Host1」等)、仮想マシン(「VM21」等))間の使用リソース名および被使用リソース名を格納する。
 図6は、関連度情報116を格納する関連度情報テーブル900の一例を示す。関連度情報テーブル900は、アプリケーション間の関連度に係る情報を格納する。より具体的には、関連度情報テーブル900は、アプリケーションの種別、およびアプリケーションの階層の情報を格納する。本実施の形態では、第1の階層「Job」、第2の階層「Service Response」、第3の階層「Enterprise」、第4の階層「Transaction Processing」、第5の階層「Application Server」、第6の階層「Database」、および第7の階層「Platform」が設けられ、アプリケーションは、何れかの階層に自動または手動で分類される。なお、アプリケーションの階層は、7階層に限られるものではなく、7階層より少なくてもよいし、7階層より多くてもよい。アプリケーションの階層としては、複数の階層が設けられる。
 基本的には、アプリケーション間の階層が近い(階層差が小さい)ほど、アプリケーション間の関連度が高いことを示す。ただし、一のアプリケーション(第nの階層のアプリケーション)に対する同じ階層差については、関連度が高いアプリケーション(第n-1の階層のアプリケーションまたは第n+1の階層のアプリケーション)が予め規定されている。
(管理対象の計算機システムのトポロジー構成例)
 図7は、管理対象の計算機システム2のコンピュータネットワークの接続形態(トポロジー構成)の一例を示す。管理対象の計算機システム2のトポロジー構成は、構成情報112および関連情報115に基づいて作成可能である。
 複数のレイヤとして、例えば、上位レイヤから順に、Server、SAN、Storageがある。1番目のレイヤ(最上位レイヤ)「Server」に属するエレメントタイプは、「VM」、「HV」、「DS」、および「Host」がある。エレメントタイプ「VM」に属するエレメントは、「VM」(ホスト300で実行される仮想マシン)である。エレメントタイプ「HV」に属するエレメントは、「HV」(1又は複数の仮想マシンを制御しホスト300で実行されるハイパーバイザ)である。エレメントタイプ「DS」に属するエレメントは、「DS」(データストア)である。データストアは、ハイパーバイザから記憶デバイスとして認識されるエレメントである。エレメントタイプ「Host」に属するエレメントは、「Host」(ホスト300)である。
 2番目のレイヤ「SAN」に属するエレメントタイプは、「FC-SW」であり、エレメントタイプ「FC-SW」に属するエレメントは、「FC-SW」(SANにおけるFC(Fibre Channel)スイッチ)である。
 3番目のレイヤ「Storage」に属するエレメントタイプは、「Storage」であり、エレメントタイプ「Storage」に属するエレメントは、「Storage」である。エレメントタイプ「Storage」に含まれるエレメントタイプとして、Storageにおける複数のエレメントタイプ、例えば、「Port」、「LDEV」、「MP」、「Pool」、「PG」および「Cache」がある。エレメントタイプ「Port」に属するエレメントは、「Port」(FCスイッチに接続され仮想マシンからI/Oコマンドを受け付ける通信ポート)である。エレメントタイプ「LDEV」に属するエレメントは、「LDEV」(論理ボリューム(実ボリュームまたは仮想ボリューム))である。エレメントタイプ「MP」に属するエレメントは、「MP」(マイクロプロセッサ)である。エレメントタイプ「Pool」に属するエレメントは、「Pool」(仮想ボリュームにシンプロビジョニングに従い割り当てられる実領域を含んだ記憶領域)である。エレメントタイプ「PG」に属するエレメントは、「PG」(パリティグループ)である。エレメントタイプ「Cache」に属するエレメントは、「Cache」(論理ボリュームに入出力されるデータが一時的に記憶されるキャッシュメモリ)である。
 図7に示すトポロジー構成は、一例であり、1または複数のエレメントタイプが1つのレイヤに属してもよい。また、同一エレメントタイプの2以上のエレメントにより1つのグループが構成されてもよく、その場合、1つのエレメントタイプについて異なる複数のグループが存在し、グループ毎に、そのエレメントタイプの1以上のエレメントが存在してもよい。つまり、「レイヤ」は、異なるエレメントタイプの集約であり、「グループ」は、同一エレメントタイプでの異なるエレメントの集約である。レイヤおよびグループのうちの少なくとも一方がユーザにより定義されてもよい。
(管理システムにおける分析対象の抽出および表示に係る事前処理)
 図8は、管理システム1における分析対象の抽出および表示に係る事前処理の一例を示す。
 事前処理Aでは、管理クライアント200を介してユーザにより監視対象の設定(監視機器、監視アプリケーション等の追加)が行われる。この際、監視対象が個々に設定されてもよいし、監視対象を管理する他の管理サーバが設定されてもよい。
 事前処理Bでは、管理サーバ100は、定期的に、予め定められたタイミングで、またはユーザによる指示に基づいて、設定された監視対象の構成情報112、性能情報113、イベント情報114および関連情報115をホスト300、ホスト300の情報を保有する他の情報処理装置などから収集して登録する。なお、関連度情報116については、収集された情報に基づいて自動または手動で更新される。
 ここで、バッチ処理などにおいて、あるアプリケーションから別のアプリケーションが呼び出され、管理サーバ100がこのような関係を認識できない場合、このようなケース(自動で収集できないケース)については、アプリケーション間の関係がユーザにより定義されることで、関連情報115として登録される。また、管理サーバ100がアプリケーションおよびインフラの関係を認識できないケースについても、アプリケーションおよびインフラ間の関係がユーザにより定義されることで、関連情報115として登録される。
 事前処理Cでは、管理サーバ100は、分析の対象とする期間(分析期間)をユーザから受け付け、受け付けた分析期間に基づいて収集したイベント情報のステータスを判定し、アプリケーションごとにステータス(ステータスを識別可能な情報、例えば文言、記号、絵など)を管理クライアント200に表示させる。ここで、ステータスとしては、区分が複数設けられる。本実施の形態では、イベント情報の重大度を3つに区分し、「エラー」以上の重大度については第1のステータス、「警告」の重大度については第2のステータス、「通知」以下の重大度については第3のステータスであると判定される。なお、ステータスの区分は、3区分に限られるものではなく、3区分より少なくてもよいし、3区分より多くてもよし、重大度のレベルと同じ数であってもよい。このように、アプリケーションごとに、分析期間において最も高い重大度が属するステータスを表示することで、ユーザは、分析起点とするアプリケーションを選定し易くなる。
(管理システムにおける分析対象の抽出処理および表示処理)
 図9は、管理システム1における分析対象の抽出処理および表示処理に係る処理手順の一例を示す。
 まず、管理サーバ100は、構成情報112および関連情報115に基づいて、ユーザが分析起点としたアプリケーションと当該アプリケーションに関連するアプリケーションとを抽出する(ステップS10)。例えば、関連情報テーブル800に示す関連情報115が格納されている場合、図10に示すように、アプリケーションの関係が特定される。
<例1:「Application1」が分析起点として指定された場合>関連情報115に基づいて、「Application1」の被使用リソースである「Application2」および「Application3」が「Application1」に関連すると特定される。また、「Application2」の被使用リソースである「Application4」および「Application5」も「Application1」に関連すると特定される。したがって、「Application1」が分析起点として指定された場合、「Application1」、「Application2」、「Application3」、「Application4」、および「Application5」が抽出される。
<例2:「Application2」が分析起点として指定された場合>関連情報115に基づいて、「Application2」の被使用リソースである「Application4」および「Application5」が「Application2」に関連すると特定される。また、「Application2」の使用リソースである「Application1」も「Application2」に関連すると特定される。なお、「Application1」の使用リソースがある場合は、使用リソースを遡って当該使用リソース(アプリケーション)も関連すると特定されるが、「Application1」の被使用リソースについては関連するとは特定されない。つまり、被使用リソースを辿った後は、使用リソースを辿らない。また、使用リソースを辿った後は、被使用リソースを辿らない。したがって、「Application2」が分析起点として指定された場合、「Application1」、「Application2」、「Application4」、および「Application5」が抽出される。
<例3:「Application6」が分析起点として指定された場合>関連情報115に基づいて、「Application6」について使用リソースおよび被使用リソースが存在しないと特定されるので、「Application6」のみが抽出される。
 このように、分析起点のアプリケーションに関連するアプリケーションを抽出することで、分析範囲(例えば、障害による影響範囲)を容易に把握できるようになる。
 続いて、管理サーバ100は、関連度の近いアプリケーションの重み付けを上げる(ステップS20)。より具体的には、管理サーバ100は、ステップS10で抽出したアプリケーションについて、構成情報112および関連度情報116に基づいて階層差を算出し、関連度のスコアを算出する。例えば、「Application1」が分析起点として指定された場合、「Application1」と「Application2」との階層差は、「Application1」の階層が「1」であり、「Application2」の階層が「3」であるので、階層差は、「2」となる。また、例えば、「Application1」と「Application5」との階層差は、「Application1」の階層が「1」であり、「Application5」の階層が「5」であるので、階層差は、「4」となる。
 本実施の形態では、管理サーバ100は、分析起点のアプリケーションが最も関連が高いとみなし、スコアを「1」とし、階層差が大きいアプリケーションほど、スコアを高く設定する。なお、同じ階層差の場合、同じ階層による階層差については同じスコアを設定し、異なる階層による階層差については予め規定された異なるスコアを設定する。
 このように、関連度の重み付けをすることで、ユーザは、関連度の近いアプリケーションから分析を進めることができ、障害等の要因を効率よく分析できるようになる。
 続いて、管理サーバ100は、現在時刻に近いイベントの重み付けを上げる(ステップS30)。より具体的には、管理サーバ100は、ステップS10で抽出したアプリケーションのイベント情報114について、イベント情報114の時刻(例えば、イベントの発生時刻)が現在時刻に遠いイベント情報114ほど、発生時刻のスコアを高く設定する。なお、同じ時刻の場合は、同じスコアを設定する。
 このように、発生時刻の重み付けをすることで、ユーザは、時系列でイベント情報を把握することができ、障害等の要因を効率よく分析できるようになる。
 続いて、管理サーバ100は、重大度の高いイベントが発生したアプリケーションの重み付けを上げる(ステップS40)。より具体的には、管理サーバ100は、ステップS10で抽出したアプリケーションのイベント情報114に基づいて、アプリケーションの表示に用いる重大度のスコア、およびイベントの表示に用いる重大度のスコアを算出する。
 管理サーバ100は、アプリケーションごとにイベント情報114の最も高い重大度を特定し、特定した重大度が低いアプリケーションほど、スコアを高く設定し、アプリケーションの表示に用いる重大度のスコアを算出する。例えば、「Application1」においては重大度が「Information」および「Alert」であるので、最も高い重大度として「Alert」が特定される。なお、管理サーバ100は、算出したスコアが閾値以上のアプリケーション(重大度の低いアプリケーション)については表示しない。
 このように、重大度の重み付けをすることで、ユーザは、重大度の高いアプリケーションから分析を進めることができ、障害等の要因を効率よく分析できるようになる。また、重大度の低いアプリケーションを表示しないことで、ユーザは、分析範囲を絞ることができるようになる。
 また、管理サーバ100は、アプリケーションごと、かつ、所定の時間間隔ごとに、イベント情報114の最も高い重大度を特定し、特定した重大度が低いアプリケーションほど、スコアを高く設定し、イベントの表示に用いる重大度のスコアを算出する。例えば、管理サーバ100は、算出したスコアが閾値以上のイベント(重大度の低いイベント)については表示しない。ここで、所定の時間間隔としては、任意の値を設定してもよいが、画面表示の制限上、ユーザが指定した分析期間を複数に等分(6等分、7等分など)した値を用いることが好適である。
 このように、重大度の重み付けをすることで、ユーザは、重大度の高いイベント情報を把握することができ、障害等の要因を効率よく分析できるようになる。また、重大度の低いイベント情報を表示しないことで、ユーザは、分析範囲を絞ることができるようになる。
 続いて、管理サーバ100は、単位時間当たりのイベントの発生件数が多いアプリケーションの重み付けを上げる(ステップS50)。より具体的には、管理サーバ100は、ステップS10で抽出したアプリケーションのイベント情報114に基づいて、アプリケーションの表示に用いる発生件数のスコア、およびイベントの表示に用いる発生件数のスコアを算出する。
 管理サーバ100は、アプリケーションごとに、イベントが発生した件数(イベント情報114の数)を計数し、イベントが発生した件数が少ないアプリケーションほど、スコアを高く設定し、アプリケーションの表示に用いる発生件数のスコアを算出する。
 このように、発生件数の重み付けをすることで、ユーザは、発生件数の多いアプリケーションから分析を進めることができ、障害等の要因を効率よく分析できるようになる。
 また、管理サーバ100は、イベント表示ごと(アプリケーションごと、かつ、所定の時間間隔ごと)に、イベントが発生した件数を計数し、イベントが発生した件数が少ない表示対象ほど、スコアを高く設定し、イベントの表示に用いる発生件数のスコアを算出する。
 このように、発生件数の重み付けをすることで、ユーザは、発生件数の多いイベント表示を把握することができ、障害等の要因を効率よく分析できるようになる。
 続いて、管理サーバ100は、ステップS20~ステップS50で算出したスコアに基づいて、アプリケーションおよびイベントの情報を出力する(ステップS60)。本実施の形態では、出力として表示を例に挙げて説明するが、これに限られるものではない。例えば、ファイル(データ)として出力してもよいし、紙などの媒体に印刷してもよいし、音声として出力してもよいし、その他の出力としてもよい。
(アプリケーションの表示順序の決定)
 管理サーバ100は、関連度のスコア、重大度のスコア、および発生件数のスコアに基づいて、アプリケーションの表示順序を決定する。より具体的には、管理サーバ100は、ステップS10で抽出したアプリケーションを、関連度のスコア順でソートし、同じ関連度のスコアがある場合、重大度のスコア順で更にソートし、重大度のスコアでも同じ場合、発生件数のスコア順で更にソートしてアプリケーションの表示順序を決定する。
 上述の例では、関連度のスコア、重大度のスコア、発生件数のスコアの優先順位としたが、その他の優先順位としてもよい。また、上述の例では、関連度のスコア、重大度のスコア、および発生件数のスコアの全てのスコアを用いてアプリケーションをソートしたが、全てのスコアを用いなくてもよく、一部のスコアを用いてもよい。また、優先順位の設定および使用するスコアの設定の各々については、予め規定されていてもよいし、ユーザにより変更(カスタマイズ)されてもよい。
(表示イベントの決定)
 また、管理サーバ100は、発生時刻のスコア、重大度のスコア、および発生件数のスコアに基づいて、表示イベントを決定する。より具体的には、管理サーバ100は、アプリケーションごと、かつ、表示区間(所定の時間間隔)ごとに、重大度のスコアに基づいて最も重大度の高いイベントを特定し、同じ重大度のイベントがある場合、発生時刻のスコアに基づいて最も直近に発生したイベントを更に特定し、発生時刻のスコアでも同じ場合、発生件数のスコアに基づいてイベントを更に特定し、特定したイベントの情報(イベント情報114など)を表示イベントとして決定する。
 上述の例では、重大度のスコア、発生時刻のスコア、発生件数のスコアの優先順位としたが、その他の優先順位としてもよい。また、上述の例では、発生時刻のスコア、重大度のスコア、および発生件数のスコアの全てのスコアを用いて表示するイベントを特定したが、全てのスコアを用いなくてもよく、一部のスコアを用いてもよい。また、優先順位の設定および使用するスコアの設定の各々については、予め規定されていてもよいし、ユーザにより変更(カスタマイズ)されてもよい。
(アプリケーションに係る情報およびイベントに係る情報の表示)
 管理サーバ100は、決定した表示順序でアプリケーションに係る情報(例えば、リソース名)を表示し、アプリケーションおよび表示区間に対応付けてイベントに係る情報(例えば、特定したイベントの重大度を示す情報)を表示するための画面情報を生成し、管理クライアント200に表示させる。
 より具体的には、管理サーバ100は、分析起点のアプリケーションに関連するアプリケーションのうち関連度の高いもの(スコアの低いもの)を分析起点のアプリケーションに対してより近くに表示する。この際、関連度が同じものがある場合、重大度の高いもの(スコアが低いもの)をより近くに表示する。更に、重大度が同じものがあるとき、発生件数が多いもの(スコアが低いもの)をより近くに表示する。また、管理サーバ100は、関連するアプリケーションのうち重大度のスコアが閾値以上(例えば、「Information」、「Debug」に対応するスコアなど)のアプリケーションに係る情報を表示しない。なお、閾値については、予め設定されてもよいし、ユーザにより設定(カスタマイズ)されてもよい。
 また、管理サーバ100は、アプリケーションごと、かつ、表示区間ごとに、イベントに係る情報をまとめて表示する。まとめての表示においては、管理サーバ100は、特定したイベントの重大度を示す情報を表示すると共に、イベントの発生件数を表示する。ただし、管理サーバ100は、特定したイベントの重大度のスコアが閾値以上(例えば、「Information」、「Debug」に対応するスコアなど)のイベントに係る情報を表示しない。かかる構成によれば、障害対応が必要なイベントを迅速に把握できるようになる。なお、閾値については、予め設定されてもよいし、ユーザにより設定(カスタマイズ)されてもよい。
 図11に、アプリケーションに係る情報およびイベントに係る情報の表示例(表示画面1000)を示す。表示画面1000は、管理サーバ100で生成され、管理クライアント200で表示される。表示画面1000には、アプリケーションごとにイベントに係る情報を表示可能なイベント関連表示領域1100が表示される。また、イベント関連表示領域1100でイベントに係る情報が選択されると、表示画面1000には、選択されたイベントに係る情報の詳細(イベント情報114)を表示可能なイベント情報表示領域1200が表示される。また、イベント情報表示領域1200でイベント情報114が選択されると、表示画面1000には、イベント情報表示領域1200で選択されたイベント情報114に係るインフラ(物理マシンまたは仮想マシン)の性能情報113を表示可能な性能情報表示領域1300が表示される。
(イベント関連表示領域)
 イベント関連表示領域1100には、分析期間を示す期間情報1101、および分析起点に関連するアプリケーションのアプリケーション情報1110(アプリケーションにおける最高の重大度を示すアイコン、アプリケーションの種別を示すアイコン、リソース名など)が表示される。アプリケーション情報1110は、上述の内容に限られるものではなく、アプリケーションごとにアプリケーションの表示名(アプリケーション名など)を記憶資源102に記憶し、リソース名に替えて表示名を表示してもよいし、その他の情報を表示してもよい。
 アプリケーション情報1110は、分析起点のアプリケーションのアプリケーション情報1110が最も上位に表示され、関連度に係るスコア、重大度に係るスコア、発生件数に係るスコアに基づいて、関連度が高いアプリケーションのアプリケーション情報1110ほど上位に、重大度が高いアプリケーションのアプリケーション情報1110ほど上位に、発生件数が多いアプリケーションのアプリケーション情報1110ほど上位に表示される。
 また、イベント関連表示領域1100は、所定の時間間隔ごとに区分けされ、時間間隔ごとにイベント情報114がマッピングされて1つのイベントアイコン1120として表示される。イベントアイコン1120は、当該時間間隔におけるイベントにおいて最高の重大度を示す重大度情報1121と当該時間間隔におけるイベントの発生件数を示す発生件数情報1122とが把握可能な態様で設けられる。
 また、イベント関連表示領域1100には、イベント情報114がマッピングされた時間間隔ごとに選択ボタン1130が設けられる。選択ボタン1130が押下されることで、当該選択ボタン1130に対応する時間間隔にマッピングされた全てのイベント情報114(全てのイベントアイコン1120)が選択される。また、イベント関連表示領域1100には、所定の時間間隔ごとに時間間隔線1140が設けられる。
 かかるイベント関連表示領域1100によれば、分析起点のアプリケーションと関連度が高くかつ重大なイベントが多く発生したアプリケーションが分析起点のアプリケーションに対してより近くに表示され、所定の時間間隔ごとにイベントの重大度および発生件数を把握可能なイベントアイコン1120が表示されるので、分析起点のアプリケーションの影響範囲および障害対応の優先度を容易に把握可能となる。
(イベント情報表示領域)
 管理サーバ100は、ユーザが選択したイベントに係る情報の詳細を出力する(ステップS70)。例えば、管理サーバ100は、イベント関連表示領域1100でイベントアイコン1120がユーザ操作に基づいて選択されると、表示画面1000には、選択されたイベントアイコン1120の詳細(例えば、イベント情報114)を表示可能なイベント情報表示領域1200を表示するための画面情報を生成する。
 より具体的には、イベント情報表示領域1200では、イベント関連表示領域1100で選択されたイベントアイコン1120のイベント情報114が一覧形式で表示される。イベント情報114が複数ある場合、重大度が高いイベント情報114ほど上位に、現在時刻に近いイベント情報114ほど上位に表示される。
 図11では、イベント情報114において表示する項目については、「Event ID」、「Status(重大度)」、「Date Time(時刻)」、「Application Name(リソース名)」、および「Message(内容)」を例示したが、これらに限られるものではなく、適宜の項目を表示可能である。
 初期表示としては、重大度が高いイベント情報114ほど上位に表示され、同じ重大度のイベント情報114については、現在時刻に近いイベント情報114ほど上位に表示される。これにより、ユーザは、障害対応が必要なイベントのイベント情報114を迅速に把握できるようになる。なお、ユーザは、イベント情報表示領域1200に表示させるイベント情報114の条件の設定(Filter)を変更したり、イベント情報表示領域1200に表示させる項目を変更(Column Settings)したり、所望の項目を選択することにより当該項目で優先して並び替え(ソートし)たりすることができる。
 イベント情報表示領域1200には、イベント情報114ごとに、イベント情報114を選択可能な選択ボックス1211が設けられる。また、イベント情報表示領域1200には、選択された選択ボックス1211に対応するイベント情報114に係るインフラの性能情報113を表示させるための表示ボタン1212(Show Performance)が設けられる。
(性能情報表示領域)
 管理サーバ100は、イベントが発生したインフラの性能履歴とイベントが発生した時刻とを出力する(ステップS80)。例えば、管理サーバ100は、イベント情報表示領域1200でイベント情報114が選択されると、表示画面1000には、イベント情報表示領域1200で選択されたイベント情報114に係るインフラの性能情報113を表示可能な性能情報表示領域1300を表示するための画面情報を生成する。
 より具体的には、性能情報表示領域1300では、イベント情報表示領域1200で選択されたイベント情報114に係る物理マシンまたは仮想マシンの性能情報113が性能グラフ1310として表示される。
 性能グラフ1310の初期表示としては、イベント情報114に係る物理マシンまたは仮想マシンの性能情報113のうち、分析期間において閾値を超えた性能種別(Metric)の情報が表示される。閾値を超えた性能種別が複数ある場合、予め設定される、またはユーザにより設定される性能種別の優先順位に従って一の性能種別が決定される。なお、初期表示は、上述の内容に限られるものではなく、ユーザにより設定された性能種別(Metric)の情報が初期表示されるようにしてもよい。
 ここで、物理マシンの性能種別としては、CPU使用率、メモリ使用率、ネットワークポート平均パケット受信量、ネットワークポート平均パケット送信量、HBA平均フレーム受信量、HBA平均フレーム送信量、ディスク転送処理の平均時間、ディスク読み込み速度、ディスク書き込み速度、ディスク空き容量等が挙げられる。
 また、仮想マシンの性能種別としては、CPU使用率、CPUディスパッチ待ち時間の割合、CPU使用量、メモリ使用率、メモリバルーン、メモリ使用量、仮想ポート平均パケット受信量、仮想ポート平均パケット送信量、仮想ポートの破棄された平均パケット受信量の割合、仮想ポートの破棄された平均パケット送信量の割合、仮想ポート平均データ受信量、仮想ポート平均データ送信量、仮想ディスク平均読み込み要求、仮想ディスク平均書き込み要求、仮想ディスク平均読み込み書き込み要求、仮想ディスク読み込み待ち時間、仮想ディスク書き込み待ち時間、仮想ディスク読み込み速度、仮想ディスク書き込み速度等が挙げられる。
 性能グラフ1310には、イベント関連表示領域1100と同じ時間間隔で時間間隔線1311が設けられる。ここで、性能グラフ1310の初期表示では、分析期間の直近の1時間分の時間間隔線1311が表示される。性能グラフ1310の表示範囲については、ユーザは、ドロップダウンリスト1320から指定可能である。より広義には、時間間隔線1311は、イベント関連表示領域1100の時間間隔のうち、選択されたイベント情報114を含む時間間隔(イベント発生時間間隔)の時間間隔線1311を少なくとも含む。つまり、性能グラフ1310の時間間隔は、イベント発生時間間隔のみであってもよいし、イベント発生時間間隔の直前の時間間隔を含むものであってもよいし、イベント発生時間間隔の直後の時間間隔を含むのであってもよい。
 また、性能グラフ1310には、イベント情報114のイベントが発生した時間を示すイベント時間アイコン1312が設けられる。かかるイベント時間アイコン1312によれば、イベント情報114に対応付けてインフラの性能情報113を把握できるようになる。
 このように、表示画面1000では、分析起点のアプリケーションおよび当該アプリケーションに関連するアプリケーションごとにイベント情報がまとめて表示されるので、ユーザは、分析すべきアプリケーションおよびイベントの全体を迅速に把握できるようになる。また、表示画面1000では、まとめて表示されたイベント情報が一覧表示可能であり、ユーザは、詳細を確認したいイベントの内容を容易に確認できる。また、一覧表示において、一のイベント情報が選択された場合、選択されたイベント情報に係るインフラ(物理マシン、仮想マシンなど)の性能情報が表示される。かかるインフラの性能情報によれば、ユーザは、インフラ側に問題のあるリソースを把握できるようになるので、選択されたイベント情報の障害がアプリケーション側の障害であるのか、インフラ側の障害であるのかの切り分けができるようになる。
 上述したように、管理システム1によれば、分析起点のアプリケーションに関連するアプリケーションを特定してイベント情報を適切に絞り込むことができるので、障害対応までの時間を短縮できるようになる。また、絞り込んだイベント情報のインフラの性能情報を表示することができるので、イベント情報の障害がアプリケーション側の障害であるのか、インフラ側の障害であるのかの切り分けを迅速にできるようになる。
(2)他の実施の形態
 なお上述の実施の形態においては、本発明を複数のアプリケーションを管理する管理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の管理システムに広く適用することができる。
 また上述の実施の形態においては、アプリケーションについて、関連度のスコア順でソートし、同じ関連度のスコアがある場合、重大度のスコア順で更にソートし、重大度のスコアでも同じ場合、発生件数のスコア順で更にソートする場合について述べたが、本発明はこれに限らず、関連度のスコア、重大度のスコア、発生件数のスコアを算出後、これらのスコアを合計した値(合計スコア)を算出し、合計スコア順にソートするようにしてもよい。この場合、特定のスコアの重み付けを大きくする等のユーザによるカスタマイズを可能にすることで、より精度よく、アプリケーションの表示順序を決定して表示することが可能になる。付言するならば、関連度のスコア、重大度のスコア、および発生件数のスコアの全てのスコアを用いなくてもよく、一部のスコアを用いてもよい。
 また上述の実施の形態においては、イベントについて、重大度のスコア順で特定し、同じ重大度のスコアがある場合、発生時刻のスコア順で更に特定し、発生時刻のスコアでも同じ場合、発生件数のスコア順で更に特定する場合について述べたが、本発明はこれに限らず、重大度のスコア、発生時刻のスコア、発生件数のスコアを算出後、これらのスコアを合計した値(合計スコア)を算出し、合計スコアが最高値のイベントを特定するようにしてもよい。この場合、特定のスコアの重み付けを大きくする等のユーザによるカスタマイズを可能にすることで、より精度よく、イベントを特定(抽出)して表示することが可能になる。付言するならば、重大度のスコア、発生時刻のスコア、および発生件数のスコアの全てのスコアを用いなくてもよく、一部のスコアを用いてもよい。
 また上述の実施の形態においては、関連するアプリケーションのうち重大度に係るスコアが閾値以上のアプリケーションを表示しない場合について述べたが、本発明はこれに限らず、関連度に係るスコアが閾値以上(例えば、階層差が「5」以上に対応するスコアなど)のアプリケーションを表示しないようにしてもよいし、発生件数に係るスコアが閾値以上(例えば、発生件数が「2」以下に対応するスコアなど)のアプリケーションを表示しないようにしてもよい。
 また上述の実施の形態においては、管理サーバプログラム111が、レイアウト領域に表示オブジェクトを描画するための画面情報を生成し、Webブラウザ211(または管理クライアントプログラム212)が、GUI画面に対するユーザ操作がされたら、そのユーザ操作に従う指示を管理サーバプログラム111に送信する場合について述べたが、本発明はこれに限らず、管理サーバプログラム111は、自身が記憶する情報の少なくとも一部をWebブラウザ211(または管理クライアントプログラム212)に送信し、それを、Webブラウザ211(または管理クライアントプログラム212)が一時情報として記憶資源205に格納し、Webブラウザ211(または管理クライアントプログラム212)が、ユーザ操作に従う指示と一時情報とに基づいて、レイアウト領域に表示オブジェクトを描画する(例えば、表示オブジェクトを新規描画、拡大又は縮小する)ようにしてもよい。このように、管理システム1においては、管理サーバ100の機能の一部を管理クライアント200で実現してもよいし、管理クライアント200の機能の一部を管理サーバ100で実現してもよいし、管理クライアント200の機能の全てを管理サーバ100で実現して管理クライアント200を設けなくてもよい。
 また上述の実施の形態においては、ステップS20、ステップS30、ステップS40、ステップS50の順に処理を行う場合について述べたが、本発明はこれに限らず、任意の順序で重み付けを上げてもよい。
 1……管理システム、2……計算機システム、100……管理サーバ、200……管理クライアント、300……ホスト、400……ストレージシステム

Claims (13)

  1.  複数のアプリケーションを管理する管理システムであって、
     前記複数のアプリケーションの各々で発生したイベントのイベント情報と、前記複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部と、
     前記複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する入力部と、
     前記記憶部に記憶される関連情報に基づいて、前記分析起点のアプリケーションに関連するアプリケーションを特定する特定部と、
     前記記憶部に記憶されるイベント情報から、前記分析起点のアプリケーションのイベント情報、および前記関連するアプリケーションのイベント情報を抽出する抽出部と、
     を備えることを特徴とする管理システム。
  2.  前記分析起点のアプリケーションおよび前記関連するアプリケーションの各々に対応付けて前記抽出部で抽出されたイベント情報を出力する出力部を更に備える、
     ことを特徴とする請求項1に記載の管理システム。
  3.  前記記憶部は、前記複数のアプリケーションの各々に対応付けてアプリケーションの階層を示す階層情報を記憶し、
     前記記憶部に記憶されるイベント情報には、イベントの重大度を示す重大度情報、およびイベントの発生時間を示す時間情報が含まれ、
     前記記憶部に記憶される階層情報を参照して、前記分析起点のアプリケーションおよび前記関連するアプリケーションの各階層差を算出し、前記分析起点のアプリケーションとの階層差が小さいアプリケーションほど、前記出力部による出力の重み付けを上げ、前記抽出部で抽出されたイベント情報の重大度情報に基づいて、重大度の高いイベントが発生したアプリケーションほど、前記出力部による出力の重み付けを上げ、前記抽出部で抽出されたイベント情報に基づいて、単位時間当りにイベントが発生した件数が多いアプリケーションほど、前記出力部による出力の重み付けを上げ、前記抽出部で抽出されたイベント情報に基づいて、現在時間に近いイベントのイベント情報ほど、前記出力部による出力の重み付けを上げる重付部と、
     前記重付部による重み付けに従って、前記分析起点のアプリケーション、前記関連するアプリケーション、および前記抽出部で抽出されたイベント情報を前記出力部が表示するための画面情報を生成する生成部と、
     を更に備えることを特徴とする請求項2に記載の管理システム。
  4.  前記記憶部は、前記複数のアプリケーションの各々に対応付けてアプリケーションの階層を示す階層情報を記憶し、
     前記記憶部に記憶される階層情報を参照して、前記分析起点のアプリケーションおよび前記関連するアプリケーションの各階層差を算出し、前記分析起点のアプリケーションとの階層差が小さいアプリケーションほど、前記出力部による出力の重み付けを上げる重付部を更に備える、
     ことを特徴とする請求項2に記載の管理システム。
  5.  前記記憶部に記憶されるイベント情報には、イベントの重大度を示す重大度情報が含まれ、
     前記抽出部で抽出されたイベント情報の重大度情報に基づいて、重大度の高いイベントが発生したアプリケーションほど、前記出力部による出力の重み付けを上げる重付部を更に備える、
     ことを特徴とする請求項2に記載の管理システム。
  6.  前記抽出部で抽出されたイベント情報に基づいて、単位時間当りにイベントが発生した件数が多いアプリケーションほど、前記出力部による出力の重み付けを上げる重付部を更に備える、
     ことを特徴とする請求項2に記載の管理システム。
  7.  前記記憶部に記憶されるイベント情報には、イベントの発生時間を示す時間情報が含まれ、
     前記抽出部で抽出されたイベント情報に基づいて、現在時間に近いイベントのイベント情報ほど、前記出力部による出力の重み付けを上げる重付部を更に備える、
     ことを特徴とする請求項2に記載の管理システム。
  8.  前記記憶部は、前記複数のアプリケーションの各々が設けられるインフラの性能情報を記憶し、
     ユーザ操作に基づいて選択されたイベント情報のイベントが発生したアプリケーションが設けられるインフラの性能情報を前記出力部が表示するための画面情報を生成する生成部を更に備える、
     ことを特徴とする請求項2に記載の管理システム。
  9.  ユーザ操作に基づいて、所定の時間間隔ごとにまとめて表示されたイベント情報の一覧表示を前記出力部が行うための画面情報を生成する生成部を更に備える、
     ことを特徴とする請求項2に記載の管理システム。
  10.  前記記憶部に記憶されるイベント情報には、イベントの重大度を示す重大度情報が含まれ、
     前記抽出部は、前記重大度情報が閾値以上であるイベント情報を抽出する、
     ことを特徴とする請求項1に記載の管理システム。
  11.  前記記憶部に記憶されるイベント情報には、イベントの重大度を示す重大度情報が含まれ、
     前記記憶部に記憶されるイベント情報を前記複数のアプリケーションに対応付け、アプリケーションごとに最も高い重大度のイベントを示す情報を出力する出力部を更に備える、
     ことを特徴とする請求項1に記載の管理システム。
  12.  複数のアプリケーションを管理する管理装置であって、
     前記複数のアプリケーションの各々で発生したイベントのイベント情報と、前記複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部と、
     前記複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する入力部と、
     前記記憶部に記憶される関連情報に基づいて、前記分析起点のアプリケーションに関連するアプリケーションを特定する特定部と、
     前記記憶部に記憶されるイベント情報から、前記分析起点のアプリケーションのイベント情報、および前記関連するアプリケーションのイベント情報を抽出する抽出部と、
     を備えることを特徴とする管理装置。
  13.  複数のアプリケーションの各々で発生したイベントのイベント情報と、前記複数のアプリケーションにおけるアプリケーション間の関連を示す関連情報と、を記憶する記憶部を備える管理システムにおける管理方法であって、
     入力部が、前記複数のアプリケーションのうち、分析起点とするアプリケーションの情報を入力する第1のステップと、
     特定部が、前記記憶部に記憶される関連情報に基づいて、前記分析起点のアプリケーションに関連するアプリケーションを特定する第2のステップと、
     抽出部が、前記記憶部に記憶されるイベント情報から、前記分析起点のアプリケーションのイベント情報、および前記関連するアプリケーションのイベント情報を抽出する第3のステップと、
     を備えることを特徴とする管理方法。
PCT/JP2017/001120 2017-01-13 2017-01-13 管理システム、管理装置、および管理方法 WO2018131147A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/081,057 US20190108082A1 (en) 2017-01-13 2017-01-13 Management system, management apparatus, and management method
JP2018561760A JP6636656B2 (ja) 2017-01-13 2017-01-13 管理システム、管理装置、および管理方法
PCT/JP2017/001120 WO2018131147A1 (ja) 2017-01-13 2017-01-13 管理システム、管理装置、および管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/001120 WO2018131147A1 (ja) 2017-01-13 2017-01-13 管理システム、管理装置、および管理方法

Publications (1)

Publication Number Publication Date
WO2018131147A1 true WO2018131147A1 (ja) 2018-07-19

Family

ID=62839662

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/001120 WO2018131147A1 (ja) 2017-01-13 2017-01-13 管理システム、管理装置、および管理方法

Country Status (3)

Country Link
US (1) US20190108082A1 (ja)
JP (1) JP6636656B2 (ja)
WO (1) WO2018131147A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020101476A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad Identification, ranking and displaying of elements or components in computing environment with limited resources

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065668A (ja) * 2006-09-08 2008-03-21 Internatl Business Mach Corp <Ibm> 障害発生の原因箇所の発見を支援する技術
WO2010010621A1 (ja) * 2008-07-24 2010-01-28 富士通株式会社 トラブルシュート支援プログラム,トラブルシュート支援方法及びトラブルシュート支援装置
JP2010086099A (ja) * 2008-09-30 2010-04-15 Fujitsu Ltd ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3876692B2 (ja) * 2001-11-13 2007-02-07 株式会社日立製作所 ネットワークシステム障害分析支援方法およびその方式
US7603458B1 (en) * 2003-09-30 2009-10-13 Emc Corporation System and methods for processing and displaying aggregate status events for remote nodes
JP2005141663A (ja) * 2003-11-10 2005-06-02 Hitachi Ltd イベントログ解析支援装置、イベントログ表示方法
US9529890B2 (en) * 2013-04-29 2016-12-27 Moogsoft, Inc. System for decomposing events from managed infrastructures using a topology proximity engine, graph topologies, and k-means clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065668A (ja) * 2006-09-08 2008-03-21 Internatl Business Mach Corp <Ibm> 障害発生の原因箇所の発見を支援する技術
WO2010010621A1 (ja) * 2008-07-24 2010-01-28 富士通株式会社 トラブルシュート支援プログラム,トラブルシュート支援方法及びトラブルシュート支援装置
JP2010086099A (ja) * 2008-09-30 2010-04-15 Fujitsu Ltd ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020101476A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad Identification, ranking and displaying of elements or components in computing environment with limited resources

Also Published As

Publication number Publication date
JPWO2018131147A1 (ja) 2019-02-28
US20190108082A1 (en) 2019-04-11
JP6636656B2 (ja) 2020-01-29

Similar Documents

Publication Publication Date Title
US9910707B2 (en) Interface for orchestration and analysis of a computer environment
JP7565695B2 (ja) イベント管理システムおよびその方法
US20180307734A1 (en) Correlating performance data and log data using diverse data stores
JP5423904B2 (ja) 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
US20040172512A1 (en) Method, apparatus, and computer readable medium for managing back-up
JPWO2014033945A1 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
KR102176028B1 (ko) 실시간 통합 모니터링 시스템 및 그 방법
JP6094593B2 (ja) 情報システム構築装置、情報システム構築方法および情報システム構築プログラム
US8516097B2 (en) Server managing apparatus and server managing method
US9021078B2 (en) Management method and management system
US20210081229A1 (en) System and method for supporting optimization of usage efficiency of resources
US10552224B2 (en) Computer system including server storage system
WO2018131147A1 (ja) 管理システム、管理装置、および管理方法
US10521261B2 (en) Management system and management method which manage computer system
US10509678B2 (en) Management system for managing computer system
US10503577B2 (en) Management system for managing computer system
US10904113B2 (en) Insight ranking based on detected time-series changes
US12184521B2 (en) Framework for providing health status data
US12254207B2 (en) Method and system for health driven network slicing based data migration
JP6845657B2 (ja) 管理サーバ、管理方法及びそのプログラム
JP2018063518A5 (ja)
JP5737789B2 (ja) 仮想マシン運用監視システム
JP7027912B2 (ja) 順序制御プログラム、順序制御方法、及び情報処理装置
US12373497B1 (en) Dynamic generation of performance state tree
US20240031241A1 (en) Method and system for adaptive health driven network slicing based data migration

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018561760

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17891210

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17891210

Country of ref document: EP

Kind code of ref document: A1