KR102740357B1 - Managing system based on comprehensive performance monitoring - Google Patents
Managing system based on comprehensive performance monitoring Download PDFInfo
- Publication number
- KR102740357B1 KR102740357B1 KR1020240054940A KR20240054940A KR102740357B1 KR 102740357 B1 KR102740357 B1 KR 102740357B1 KR 1020240054940 A KR1020240054940 A KR 1020240054940A KR 20240054940 A KR20240054940 A KR 20240054940A KR 102740357 B1 KR102740357 B1 KR 102740357B1
- Authority
- KR
- South Korea
- Prior art keywords
- performance
- customer
- server system
- data
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
고객의 서버 시스템에 대하여 성능 데이터 및 관제 데이터를 수집하여 모니터링하고, 모니터링 결과에 따른 알람 메시지를 생성하여 전송하는 제어 서버;를 포함하는, 시스템을 개시한다.A system is disclosed, including a control server that collects and monitors performance data and control data for a customer's server system, and generates and transmits an alarm message based on the monitoring results.
Description
본 발명은 고객의 IT 시스템에 대하여 성능 중심 에이전트와 관제용 에이전트를 포함하여 종합 모니터링 서비스를 제공하는 시스템에 관한 것이다.The present invention relates to a system that provides a comprehensive monitoring service including a performance-oriented agent and a control agent for a customer's IT system.
서버는 한 대의 컴퓨터에 여러 대의 컴퓨터를 통신회선으로 연결하여 공동으로 사용하는 정보를 저장해 두거나 컴퓨터 자원을 많이 사용하는 프로그램을 모아 놓은 컴퓨터를 의미한다. 따라서, 서버는 많은 사용자가 이용하므로 서버 고장을 대비하기 위해 서버 성능을 주기적으로 모니터링하는 과정이 필요하다.A server is a computer that connects multiple computers to a single computer via communication lines to store information for common use or to collect programs that use a lot of computer resources. Therefore, since servers are used by many users, it is necessary to periodically monitor server performance to prepare for server failures.
종래의 시스템 성능 분석의 과거 데이터를 통한 성능 추세의 확인을 위한 기준선 설정 및 추이 분석은 주어진 모수(수집된 성능 데이터의 평균값)을 바탕으로 한 이동 평균법에 의한 신뢰 구간을 추정하였다. 즉, 종래의 대부분의 솔루션들의 수집 주기는 1분 이상으로 설정이 되어있어 자원 사용률이 실제 시스템이 사용했던 사용현황과 다르게 많은 부분 왜곡이 되어 완만하게 표현된다는 문제점이 있다. The baseline setting and trend analysis for confirming performance trends through past data of conventional system performance analysis estimated the confidence interval by moving average method based on given parameters (average value of collected performance data). That is, most of the conventional solutions have collection cycles set to 1 minute or more, so there is a problem that the resource utilization rate is distorted to a large extent and expressed smoothly, unlike the actual usage status of the system.
한국등록특허 제 10-0926362호는 서버 성능 관리 방법 및 시스템을 개시한다. 이러한 기술에 따르면, 구비된 복수의 하드웨어 및 설치된 어플리케이션에 대한 하나 이상의 로그 및 프로파일 정보들을 분석하여 미리 정해진 방법에 따라 펙터(factor) 데이터들을 생성하여 상기 데이터베이스에 저장하는 n(임의의 자연수)개의 서버; 및 임의의 보고서 생성을 위한 항목들에 상응하는 펙터 데이터들 중 상기 데이터베이스에 미저장된 펙터 데이터에 대한 수집 요청 정보를 생성하여 각각의 서버로 송신하는 성능 관리 웹서버를 포함하되, 상기 각각의 서버는 상기 수집 요청 정보에 상응하여 상기 로그 및 상기 프로파일 정보들을 분석하여 미리 정해진 방법에 따라 확장펙터 데이터를 생성하여 전송하며, 상기 성능 관리 웹서버는 상기 데이터베이스로부터 추출된 펙터 데이터 및 상기 수신된 확장 펙터 데이터를 이용하여 미리 정해진 방법에 따라 보고서를 생성하여 출력하는 것을 특징으로 하는 성능 관리 시스템이 제공될 수 있다. 따라서, 이기종의 서버에 대한 성능 및 이용 현황에 대한 보고서 생성을 용이하게 할 수 있다.Korean Patent Registration No. 10-0926362 discloses a server performance management method and system. According to this technology, a performance management system can be provided, which includes: n (any natural number) servers that analyze one or more logs and profile information for a plurality of equipped hardware and installed applications, generate factor data according to a predetermined method, and store the factor data in the database; and a performance management web server that generates collection request information for factor data not stored in the database among factor data corresponding to items for generating an arbitrary report and transmits the collected data to each server, wherein each server analyzes the log and the profile information according to the collected request information, generates and transmits extended factor data according to a predetermined method, and the performance management web server generates and outputs a report according to a predetermined method using the factor data extracted from the database and the received extended factor data. Therefore, it is possible to facilitate the generation of reports on performance and usage status of heterogeneous servers.
한국등록특허 제 10-0994310호는 웹 서버의 성능 지표 추정 방법 및 시스템에 대한 기술을 개시한다. 이러한 기술에 따르면, 웹 서버로부터 성능 지표 추정 모델을 선정하기 위한 샘플 데이터를 추출하는 단계, 상기 추출된 샘플 데이터의 분포를 이용하여 상기 웹 서버의 리소스에 따른 성능 지표에 대응하는 성능 지표 추정 모델을 선정하는 단계 및 상기 선정된 성능 지표 추정 모델을 최적화하는 상기 성능 지표 추정 모델의 파라미터를 결정하는 단계를 포함할 수 있다.Korean Patent Registration No. 10-0994310 discloses a technology for a method and system for estimating a performance index of a web server. According to this technology, the technology may include a step of extracting sample data for selecting a performance index estimation model from a web server, a step of selecting a performance index estimation model corresponding to a performance index according to a resource of the web server by using a distribution of the extracted sample data, and a step of determining parameters of the performance index estimation model for optimizing the selected performance index estimation model.
본 발명의 일측면은 고객의 서버 시스템에 대하여 성능 중심 에이전트와 관제용 에이전트를 포함하여 자료 수집, 분석 및 보고서를 제공하는 시스템을 개시한다.One aspect of the present invention discloses a system for providing data collection, analysis and reporting, including a performance-centric agent and a control agent, for a customer's server system.
본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the description below.
본 발명의 시스템은 고객의 서버 시스템에 대하여 성능 데이터 및 관제 데이터를 수집하여 모니터링하고, 모니터링 결과에 따른 알람 메시지를 생성하여 전송한다.The system of the present invention collects and monitors performance data and control data for a customer's server system, and generates and transmits an alarm message based on the monitoring results.
한편, 상기 제어 서버는, 고객의 서버 시스템에 설치된 성능 에이전트를 통해 CPU, 메모리, 디스크 및 네트워크 중 적어도 하나 이상의 자원 사용량을 포함하는 성능 데이터를 수집하는 성능 데이터 수집부; 고객의 서버 시스템에 설치된 관제 에이전트를 통해 하드웨어 장애, 소프트웨어 장애, 보안 문제, 자연 재해, 인프라 장애 및 인위적 오류 중 적어도 하나 이상의 장애 상황을 포함하는 관제 데이터를 수집하는 관제 데이터 수집부; 고객의 서버 시스템의 데이터 백업을 실행하는 백업 관리부; 및 상기 성능 데이터 수집부 및 상기 관제 데이터 수집부에서 수집하는 성능 데이터 및 관제 데이터의 실시간 확인이 가능하도록 하는 인터페이스를 생성하여 고객의 이동 단말로 제공하고, 상기 성능 데이터 및 상기 관제 데이터의 모니터링 결과 이슈가 발생한 것으로 판단하는 경우, SMS 또는 이메일 중 어느 하나의 알람 메시지를 상기 고객의 이동 단말로 전송하고, 상기 성능 데이터를 분석하여 추후 성능 데이터를 예측하고, 성능 데이터의 예측에 따라 발생할 수 있는 성능 이슈 해결 솔루션을 산출하는 종합 모니터링부;를 포함할 수 있다.Meanwhile, the control server may include a performance data collection unit that collects performance data including resource usage of at least one of CPU, memory, disk, and network through a performance agent installed in the customer's server system; a control data collection unit that collects control data including at least one failure situation of hardware failure, software failure, security issue, natural disaster, infrastructure failure, and human error through a control agent installed in the customer's server system; a backup management unit that executes a data backup of the customer's server system; and a comprehensive monitoring unit that generates an interface that enables real-time confirmation of performance data and control data collected by the performance data collection unit and the control data collection unit and provides the interface to the customer's mobile terminal, and if it is determined as a result of monitoring the performance data and the control data that an issue has occurred, transmits an alarm message of either SMS or email to the customer's mobile terminal, analyzes the performance data to predict future performance data, and derives a solution for resolving a performance issue that may occur according to the prediction of the performance data.
한편, 상기 종합 모니터링부는, 웹 사이트를 통해 서버 시스템의 성능 또는 장애 이슈 관련 기사 데이터를 수집하고, 기사의 개수, 기사에 포함되는 성능 또는 장애 이슈 관련 단어의 개수, 소정 기간 내에 상기 고객의 서버 시스템에서 성능 이슈의 발생 여부, 소정 기간 내에 상기 고객의 서버 시스템에서의 장애 상황 발생 여부에 따른 정기 점검 주기를 산출하고, 상기 정기 점검 주기에 따라 상기 고객의 서버 시스템에 대한 정기 점검을 실행할 수 있다.Meanwhile, the comprehensive monitoring department collects article data related to performance or failure issues of the server system through the website, calculates a regular inspection cycle based on the number of articles, the number of words related to performance or failure issues included in the articles, whether a performance issue occurs in the customer's server system within a given period, and whether a failure situation occurs in the customer's server system within a given period, and can perform regular inspections of the customer's server system according to the regular inspection cycle.
[수학식 1][Mathematical Formula 1]
(수학식 1에서 P는 정기 점검 주기, q는 웹 사이트에서 수집한 기사의 개수, wi는 i번째 기사에 포함되는 성능 또는 장애 이슈 관련 단어의 개수, I는 소정 기간 내에 고객의 서버 시스템에서 성능 이슈가 발생한 경우 1, 발생하지 않은 경우 0, P는 소정 기간 내에 고객의 서버 시스템(10)에서 장애가 발생한 경우 1, 발생하지 않은 경우 0, 는 보정 계수를 의미함.)(In mathematical expression 1, P is a regular inspection cycle, q is the number of articles collected from the website, wi is the number of words related to performance or failure issues included in the ith article, I is 1 if a performance issue occurs in the customer's server system within a given period, 0 if no issue occurs, P is 1 if a failure occurs in the customer's server system (10) within a given period, 0 if no issue occurs, ) stands for correction factor.)
상술한 본 발명의 일 측면에 따르면, 서버 시스템의 성능을 모니터링하여 성능 이슈를 사전에 예방할 수 있도록 하며, 서버 시스템의 실시간 장애 상황을 모니터링하여 장애 알림 서비스를 제공할 수 있다.According to one aspect of the present invention described above, it is possible to monitor the performance of a server system to prevent performance issues in advance, and to monitor real-time failure situations of the server system to provide a failure notification service.
도 1 및 도 2는 본 발명의 일 실시예에 따른 시스템의 개념도이다.
도 3은 본 발명의 일 실시예에 따른 제어 서버의 개념도이다.Figures 1 and 2 are conceptual diagrams of a system according to one embodiment of the present invention.
Figure 3 is a conceptual diagram of a control server according to one embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.The advantages and features of the present invention, and the methods for achieving them, will become clearer with reference to the embodiments described in detail below together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and these embodiments are provided only to make the disclosure of the present invention complete and to fully inform those skilled in the art of the scope of the invention, and the present invention is defined only by the scope of the claims. Like reference numerals refer to like elements throughout the specification.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계 및 동작은 하나 이상의 다른 구성요소, 단계 및 동작의 존재 또는 추가를 배제하지 않는다.The terminology used herein is for the purpose of describing embodiments only and is not intended to be limiting of the invention. In this specification, the singular also includes the plural unless the context clearly dictates otherwise. The terms "comprises" and/or "comprising" as used herein do not exclude the presence or addition of one or more other elements, steps, or operations.
도 1 및 도 2는 본 발명의 일 실시예에 따른 시스템의 개념도이다.Figures 1 and 2 are conceptual diagrams of a system according to one embodiment of the present invention.
도 1 및 2를 참조하면, 본 발명의 일 실시예에 따른 시스템(1)은 고객의 서버 시스템(10)에 대하여 종합 성능 모니터링 서비스를 제공할 수 있다.Referring to FIGS. 1 and 2, a system (1) according to one embodiment of the present invention can provide a comprehensive performance monitoring service for a customer's server system (10).
본 발명의 일 실시예에 따른 시스템(1)은 고객의 서버 시스템(10)에 대하여 성능 에이전트 및 관제 에이전트를 설치하여 종합 모니터링 서비스를 제공할 수 있다.A system (1) according to one embodiment of the present invention can provide a comprehensive monitoring service by installing a performance agent and a control agent on a customer's server system (10).
성능 에이전트는 고객의 서버 시스템(10)의 성능 데이터를 수집할 수 있으며, 관제 에이전트는 고객의 서버 시스템(10)의 관제 데이터를 수집할 수 있다.The performance agent can collect performance data of the customer's server system (10), and the control agent can collect control data of the customer's server system (10).
성능 에이전트 및 관제 에이전트는 큐(Queue)를 이용하여 text log file, URL, DB접속, TCP/IP 프로토콜 중 적어도 어느 하나의 형식을 갖는 성능 데이터 또는 관제 데이터를 고객의 서버 시스템(10)으로부터 주기적으로 수집할 수 있으며, 이를 실시간으로 모니터링할 수 있다.The performance agent and the control agent can periodically collect performance data or control data in at least one of the formats of text log file, URL, DB connection, and TCP/IP protocol from the customer's server system (10) using a queue, and can monitor the same in real time.
본 발명의 일 실시예에 따른 시스템(1)은 제어 서버(100) 및 이동 단말(200)을 포함할 수 있다.A system (1) according to one embodiment of the present invention may include a control server (100) and a mobile terminal (200).
제어 서버(100)는 본 발명에 따른 종합 성능 모니터링 서비스를 실행할 수 있다.The control server (100) can execute a comprehensive performance monitoring service according to the present invention.
제어 서버(100)는 본 발명에 따른 종합 성능 모니터링 서비스를 위한 자체 서버이거나 클라우드 서버일 수도 있고 분산된 노드들의 p2p(peer-to-peer) 집합일 수 있다.The control server (100) may be its own server for the comprehensive performance monitoring service according to the present invention, a cloud server, or a p2p (peer-to-peer) collection of distributed nodes.
제어 서버(100)는 일반적인 컴퓨터가 갖는 연산, 저장, 참조, 입출력, 제어 기능 중 어느 하나 이상을 수행할 수 있고, 입력 데이터를 바탕으로 후술할 인공 신경망을 포함할 수 있다.The control server (100) can perform one or more of the operations, storage, reference, input/output, and control functions of a general computer, and can include an artificial neural network, which will be described later, based on input data.
제어 서버(100)는 프로세서 및 메모리를 포함할 수 있다. 프로세서는 본 발명에 따른 스마트 인테리어 서비스를 수행할 수 있고, 이를 수행할 수 있는 장치들을 포함할 수 있다. 프로세서는 프로그램을 실행하거나 제어 서버(100)를 제어할 수도 있다. 프로세서에 의해 실행되는 프로그램 코드는 메모리에 저장될 수 있다. 메모리는 본 발명에 따른 서비스를 수행하기 위한 관련 정보들을 저장하거나 방법을 구현하기 위한 프로그램을 저장할 수 있다. 메모리는 휘발성 메모리거나 비휘발성 메모리일 수 있다.The control server (100) may include a processor and a memory. The processor may perform a smart interior service according to the present invention and may include devices capable of performing the same. The processor may execute a program or control the control server (100). The program code executed by the processor may be stored in the memory. The memory may store related information for performing the service according to the present invention or store a program for implementing a method. The memory may be a volatile memory or a nonvolatile memory.
제어 서버(100)는 네트워크를 이용하여 외부 장치에 데이터를 발신하거나 외부 장치로부터 데이터를 수신할 수 있다.The control server (100) can transmit data to an external device or receive data from an external device using a network.
제어 서버(100)는 인공 신경망을 학습시킬 수 있고, 학습이 완료된 인공 신경망을 이용할 수도 있다. 프로세서는 메모리에 저장된 인공 신경망을 학습시키거나 실행할 수 있고, 메모리는 학습 완료된 인공 신경망을 저장할 수 있다. 인공 신경망을 학습시키는 전자 장치와 이용하는 전자 장치는 동일할 수 있지만 별개일 수도 있다. The control server (100) can train an artificial neural network and can also use an artificial neural network that has completed training. The processor can train or execute an artificial neural network stored in the memory, and the memory can store an artificial neural network that has completed training. The electronic device that trains the artificial neural network and the electronic device that uses the artificial neural network may be the same, but may also be separate.
인공지능은 인간의 뇌의 기능을 일부 구현한 컴퓨터 시스템으로, 스스로 학습하고 추측하고 판단할 수 있다. 학습을 진행할수록 답을 추출할 확률이 높아질 수 있다. 인공지능은 학습과 그것을 이용한 요소 기술들로 구성될 수 있다. 인공지능의 학습은 입력 데이터를 바탕으로 특징을 분류와 학습을 하는 알고리즘 기술이고, 요소 기술들은 학습 알고리즘을 이용하여 인간의 뇌의 기능을 일부 구현하는 기술일 수 있다.Artificial intelligence is a computer system that implements some of the functions of the human brain, and can learn, guess, and judge on its own. As learning progresses, the probability of extracting an answer can increase. Artificial intelligence can be composed of learning and element technologies that utilize it. Artificial intelligence learning is an algorithm technology that classifies and learns features based on input data, and element technologies can be technologies that implement some of the functions of the human brain using learning algorithms.
인공지능은 확률적으로 여러 답이 나올 수 있는 문제에 접근하기 쉬운 기술로써 어떠한 입력 데이터에 따르는 최적의 주기와 방법, 계획 등을 논리적이고 확률적으로 추론할 수 있다. 인공지능의 추론 기술은 입력 데이터를 판단하고 최적화 예측, 지식과 확률 기반 추론, 선호 기반 계획 등을 포함할 수 있다.Artificial intelligence is a technology that can easily approach problems that can have multiple answers probabilistically, and can logically and probabilistically infer the optimal cycle, method, plan, etc. according to any input data. Artificial intelligence's inference technology can include judging input data, optimization prediction, knowledge and probability-based inference, and preference-based planning.
인공신경망은 기계학습 분야의 학습 알고리즘 중 하나로 뇌의 뉴런과 시냅스의 연결을 프로그램으로 구현한 것이다. 인공신경망은 프로그램으로 신경망의 구조를 만든 다음 학습시켜 원하는 기능을 가지게 할 수 있다. 오차가 존재할 수 있지만 거대한 데이터를 바탕으로 학습하여 입력 데이터를 가지고 적절한 출력 데이터를 출력할 수 있다. 통계적으로 좋은 결과를 얻었던 출력 데이터를 획득할 수 있고 인간의 추론과 유사하다는 장점이 있다.Artificial neural networks are one of the learning algorithms in the field of machine learning, and they are programs that implement the connections between neurons and synapses in the brain. Artificial neural networks can create a neural network structure with a program and then train it to have the desired function. There may be errors, but they can learn based on huge data and output appropriate output data with input data. They can obtain output data that has statistically good results, and they have the advantage of being similar to human reasoning.
네트워크는 대용량, 장거리 음성 및 데이터 서비스가 가능한 대형 통신망의 고속 기간 망인 통신망이며, 인터넷(Internet) 또는 고속의 멀티미디어 서비스를 제공하기 위한 차세대 유선 및 무선 망일 수 있다. A network is a high-speed backbone network of a large communications network capable of providing large-capacity, long-distance voice and data services, and may be a next-generation wired or wireless network to provide the Internet or high-speed multimedia services.
네트워크가 이동통신망일 경우 동기식 이동 통신망일 수도 있고, 비동기식 이동 통신망일 수도 있다. 비동기식 이동 통신망의 일 실시 예로서, WCDMA(Wideband Code Division Multiple Access) 방식의 통신망을 들 수 있다. 이 경우 도면에 도시되진 않았지만, 네트워크는 RNC(Radio Network Controller)을 포함할 수 있다. 한편, WCDMA망을 일 예로 들었지만, 3G LTE망, 4G망 그 밖의 5G 등 차세대 통신망, 그 밖의 IP를 기반으로 한 IP망일 수 있다. If the network is a mobile communication network, it may be a synchronous mobile communication network or an asynchronous mobile communication network. As an example of an asynchronous mobile communication network, a WCDMA (Wideband Code Division Multiple Access) communication network can be mentioned. In this case, although not shown in the drawing, the network can include an RNC (Radio Network Controller). Meanwhile, although a WCDMA network is mentioned as an example, it can be a 3G LTE network, a 4G network, a next-generation communication network such as another 5G network, or an IP network based on IP.
이동 단말(200)은 데스크탑 컴퓨터, 랩탑, 태블릿, 스마트폰 등 네트워크를 통해 데이터를 주고받을 수 있는 단말이면 모두 포함될 수 있다.The mobile terminal (200) may include any terminal capable of sending and receiving data over a network, such as a desktop computer, laptop, tablet, or smartphone.
이동 단말(200)은 본 발명에 따른 서비스를 수행하기 위하여 컴퓨터가 가지는 연산 기능, 저장 기능, 참조 기능, 입출력 기능, 제어 기능 중 어느 하나 이상을 포함할 수 있다.The mobile terminal (200) may include at least one of the computational function, storage function, reference function, input/output function, and control function of a computer to perform the service according to the present invention.
이동 단말(200)은 본 발명에 따른 서비스를 제공받기 위하여 웹사이트에 접속하거나 애플리케이션을 설치할 수 있다. 이동 단말(300)은 웹사이트 또는 애플리케이션을 통하여 데이터를 주고받을 수 있다.The mobile terminal (200) can access a website or install an application to receive a service according to the present invention. The mobile terminal (300) can send and receive data through a website or application.
이와 같은 본 발명의 일 실시예에 따른 시스템(1)은 서버 시스템(10)의 성능을 모니터링하여 성능 이슈를 사전에 예방할 수 있도록 하며, 서버 시스템(10)의 실시간 장애 상황을 모니터링하여 장애 알림 서비스를 제공할 수 있다.A system (1) according to one embodiment of the present invention can monitor the performance of a server system (10) to prevent performance issues in advance, and can provide a failure notification service by monitoring a real-time failure situation of the server system (10).
도 3은 본 발명의 일 실시예에 따른 제어 서버의 개념도이다.Figure 3 is a conceptual diagram of a control server according to one embodiment of the present invention.
도 3을 참조하면, 본 발명의 일 실시예에 따른 제어 서버(100)는 성능 데이터 수집부(110), 관제 데이터 수집부(120), 백업 관리부(130) 및 종합 모니터링부(140)를 포함할 수 있다.Referring to FIG. 3, a control server (100) according to one embodiment of the present invention may include a performance data collection unit (110), a control data collection unit (120), a backup management unit (130), and a comprehensive monitoring unit (140).
성능 데이터 수집부(110)는 고객의 서버 시스템(10)에 설치된 성능 에이전트를 통해 고객의 서버 시스템(10)의 성능 데이터를 실시간으로 수집할 수 있다.The performance data collection unit (110) can collect performance data of the customer's server system (10) in real time through a performance agent installed in the customer's server system (10).
예를 들면, 성능 데이터는 고객의 서버 시스템(10)의 CPU, 메모리, 디스크, 네트워크 등의 자원 사용량을 포함할 수 있다. For example, performance data may include resource usage such as CPU, memory, disk, and network of the customer's server system (10).
관제 데이터 수집부(120)는 고객의 서버 시스템(10)에 설치된 관제 에이전트를 통해 고객의 서버 시스템(10)의 관제 데이터를 실시간으로 수집할 수 있다.The control data collection unit (120) can collect control data of the customer's server system (10) in real time through the control agent installed in the customer's server system (10).
예를 들면, 관제 데이터는 고객의 서버 시스템(10)의 하드웨어 장애, 소프트웨어 장애, 보안 문제, 자연 재해, 인프라 장애, 인위적 오류 등의 장애 상황을 포함할 수 있으며, 관제 데이터 수집부(120)는 관제 오픈소스를 활용하여 관제 데이터를 실시간으로 수집할 수 있다.For example, control data may include failure situations such as hardware failure, software failure, security issue, natural disaster, infrastructure failure, and human error of the customer's server system (10), and the control data collection unit (120) may collect control data in real time by utilizing control open source.
백업 관리부(130)는 고객의 서버 시스템(10)의 데이터 백업을 실행할 수 있다.The backup management unit (130) can execute data backup of the customer's server system (10).
예를 들면, 백업 관리부(130)는 오픈소스 백업 솔루션을 활용하여 고객의 서버 시스템(10)의 데이터 백업뿐만 아니라 중요 어플리케이션, 운영 시스템에 대하여 정기적인 백업 관리를 실행할 수 있다.For example, the backup management unit (130) can perform regular backup management for important applications and operating systems as well as data backup of the customer's server system (10) by utilizing an open source backup solution.
종합 모니터링부(140)는 성능 데이터 수집부(110) 및 관제 데이터 수집부(120)에서 수집하는 성능 데이터 및 관제 데이터를 모니터링할 수 있다.The comprehensive monitoring unit (140) can monitor performance data and control data collected from the performance data collection unit (110) and the control data collection unit (120).
예를 들면, 종합 모니터링부(140)는 고객의 이동 단말(200)로 성능 데이터 및 관제 데이터의 실시간 확인이 가능하도록 하는 인터페이스를 제공할 수 있다.For example, the integrated monitoring unit (140) can provide an interface that enables real-time confirmation of performance data and control data using the customer's mobile terminal (200).
종합 모니터링부(140)는 성능 데이터 및 관제 데이터의 모니터링 결과 이슈가 발생한 것으로 판단한 경우, 고객의 이동 단말(200)로 알람 메시지를 전송할 수 있다.If the comprehensive monitoring unit (140) determines that an issue has occurred as a result of monitoring performance data and control data, it can transmit an alarm message to the customer's mobile terminal (200).
예를 들면, 알람 메시지는 SMS 또는 이메일 형태일 수 있다.For example, the alarm message could be in the form of SMS or email.
종합 모니터링부(140)는 성능 데이터를 분석하여 성능 데이터를 예측하고, 성능 데이터의 예측에 따라 발생할 수 있는 성능 이슈 해결 솔루션을 산출할 수 있다.The comprehensive monitoring unit (140) can analyze performance data to predict performance data and derive solutions to resolve performance issues that may arise based on the prediction of performance data.
한편, 종합 모니터링부(140)는 웹 사이트를 통해 서버 시스템의 성능 또는 장애 이슈 관련 기사 데이터를 수집하고, 기사 데이터를 분석하여 서버 이슈 점수를 산출하고, 서버 이슈 점수에 따라 서버 시스템(10)의 정기 점검 주기를 설정할 수 있다.Meanwhile, the comprehensive monitoring department (140) can collect article data related to performance or failure issues of the server system through the website, analyze the article data to calculate a server issue score, and set a regular inspection cycle for the server system (10) based on the server issue score.
[수학식 1][Mathematical Formula 1]
수학식 1에서 P는 정기 점검 주기, q는 웹 사이트에서 수집한 기사의 개수, wi는 i번째 기사에 포함되는 성능 또는 장애 이슈 관련 단어의 개수, I는 소정 기간 내에 고객의 서버 시스템(10)에서 성능 이슈가 발생한 경우 1, 발생하지 않은 경우 0, Ps는 소정 기간 내에 고객의 서버 시스템(10)에서 장애가 발생한 경우 1, 발생하지 않은 경우 0, 는 보정 계수를 의미한다.In mathematical expression 1, P is a regular inspection cycle, q is the number of articles collected from the website, wi is the number of words related to performance or failure issues included in the ith article, I is 1 if a performance issue occurs in the customer's server system (10) within a given period, 0 if no issue occurs, P s is 1 if a failure occurs in the customer's server system (10) within a given period, 0 if no issue occurs, stands for correction factor.
수학식 1에 따르면, 기사에 포함되는 서버 시스템의 성능 또는 장애 이슈 관련 단어의 개수가 많을수록 정기 점검 주기가 짧아지며, 이에 따라 최신 서버 이슈 동향을 반영하여 정기 점검이 이루어질 수 있도록 한다.According to mathematical expression 1, the more words related to server system performance or failure issues are included in an article, the shorter the regular inspection cycle becomes, thereby allowing regular inspections to be performed by reflecting the latest server issue trends.
예를 들면, 웹 사이트에서 수집한 기사의 개수가 5이고, 이고, I=1, Ps=0인 경우, 이를 수학식 1에 대입하면=2.26으로 산출될 수 있다.For example, if the number of articles collected from the website is 5, And, If I=1, P s =0, then substituting this into Equation 1, = can be calculated as 2.26.
종합 모니터링부(140)는 2일을 주기로 고객의 서버 시스템(10)에 대한 정기 점검을 실행하여 서버 시스템(10)에서 발생할 수 있는 문제를 미연에 방지할 수 있다.The comprehensive monitoring department (140) can prevent problems that may occur in the server system (10) in advance by performing regular inspections on the customer's server system (10) every two days.
한편, 종합 모니터링부(140)는 소정 주기로 수집하는 관제 데이터를 저장 및 분석하여 모니터링 레벨을 산출할 수 있다.Meanwhile, the comprehensive monitoring unit (140) can store and analyze control data collected at regular intervals to calculate the monitoring level.
[수학식 2][Mathematical formula 2]
수학식 2에서 L은 모니터링 레벨, S0는 관제 데이터의 종류수, s0는 관제 데이터에 따른 이슈 발생 횟수 평균, s는 해당 시스템의 관제 데이터에 따른 이슈 발생 횟수를 의미한다.In mathematical expression 2, L represents the monitoring level, S 0 represents the number of types of control data, s 0 represents the average number of occurrences of issues according to the control data, and s represents the number of occurrences of issues according to the control data of the corresponding system.
수학식 2에 따르면, 관제 데이터의 종류수가 많을수록 높은 값이 산출될 수 있으며, 평균적인 관제 테이터에 따른 이슈 발생 횟수가 많을수록 높은 값이 산출되도록 할 수 있다.According to mathematical expression 2, the more types of control data there are, the higher the value can be calculated, and the more number of issues occurring according to the average control data, the higher the value can be calculated.
예를 들면, 관제 데이터의 종류수가 6이고, 관제 데이터에 따른 이슈 발생 횟수 평균이 1회이고, 시스템의 관제 데이터에 따른 이슈 발생 횟수가 2회 인 경우, 로 산출될 수 있다.For example, if the number of types of control data is 6, the average number of occurrences of issues according to control data is 1, and the number of occurrences of issues according to system control data is 2, can be produced as
종합 모니터링부(140)는 모니터링 레벨에 따라 알람 메시지를 보낼 이동 단말(200)의 수를 설정할 수 있다. 예를 들면, 종합 모니터링부(140)는 모니터링 레벨 구간 별 이동 단말(200)의 수를 미리 설정할 수 있으며, 이를 이용하여 알람 메시지를 보낼 이동 단말(200)의 수를 설정할 수 있다.The comprehensive monitoring unit (140) can set the number of mobile terminals (200) to which alarm messages are to be sent according to the monitoring level. For example, the comprehensive monitoring unit (140) can set the number of mobile terminals (200) for each monitoring level section in advance, and can use this to set the number of mobile terminals (200) to which alarm messages are to be sent.
한편, 종합 모니터링부(140)는 서버 관리 점수를 산출하고, 서버 관리 점수에 따라 등급을 지정할 수 있다. 종합 모니터링부(140)는 소정 기간 동안의 알람 메시지를 전송한 뒤 평균 서버 시스템(10)의 복구 시간, 성능 데이터로부터의 이슈 발생 횟수, 관제 데이터로부터의 이슈 발생 횟수, 서버 시스템(10)의 복구 횟수를 수집하고, 이를 수학식 3에 적용하여 서버 관리 점수를 산출할 수 있다.Meanwhile, the comprehensive monitoring unit (140) can calculate a server management score and assign a grade based on the server management score. The comprehensive monitoring unit (140) can collect the average server system (10) recovery time, the number of issues occurring from performance data, the number of issues occurring from control data, and the number of server system (10) recovery times after transmitting an alarm message for a predetermined period of time, and can calculate the server management score by applying this to mathematical expression 3.
[수학식 3][Mathematical Formula 3]
수학식 3에서 S는 서버 관리 점수, Sc는 서버 관리 기본 점수, R은 알람 메시지를 전송한 뒤 평균 서버 시스템 복구 시간, c는 성능 데이터로부터의 이슈 발생 횟수, d는 서버 시스템(10)의 복구 횟수를 의미한다.In mathematical expression 3, S represents a server management score, Sc represents a server management basic score, R represents an average server system recovery time after sending an alarm message, c represents the number of occurrences of issues from performance data, and d represents the number of recovery times of the server system (10).
예를 들면, 서버 관리 기본 점수가 10점이고, R=0.5, c=1, d=2, d=1인 경우, =4.8로 산출될 수 있다.For example, if the server management base score is 10, and R=0.5, c=1, d=2, d=1, = can be calculated as 4.8.
종합 모니터링부(140)는 서버 관리 점수에 따른 등급을 지정하고, 서버 등급에 따라 서버 시스템(10)을 분류하여 관리할 수 있다. 종합 모니터링부(140)는 복수의 서버 시스템(10)에 있어서 등급 별로 그룹화하여 관리함으로써 알람 메시지의 텍스트, 성능 이슈 해결 솔루션 등을 공유할 수 있다.The comprehensive monitoring unit (140) can assign a grade based on the server management score and manage the server system (10) by classifying it according to the server grade. The comprehensive monitoring unit (140) can share the text of alarm messages, solutions for resolving performance issues, etc. by grouping and managing multiple server systems (10) by grade.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the attached drawings, those skilled in the art will understand that the present invention can be implemented in other specific forms without changing the technical idea or essential features thereof. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive.
1: 종합 성능 모니터링 기반 관제 시스템
10: 서버 시스템
100: 제어 서버
200: 이동 단말1: Comprehensive performance monitoring-based control system
10: Server System
100: Control Server
200: Mobile terminal
Claims (3)
상기 제어 서버는,
고객의 서버 시스템에 설치된 성능 에이전트를 통해 CPU, 메모리, 디스크 및 네트워크 중 적어도 하나 이상의 자원 사용량을 포함하는 성능 데이터를 수집하는 성능 데이터 수집부;
고객의 서버 시스템에 설치된 관제 에이전트를 통해 하드웨어 장애, 소프트웨어 장애, 보안 문제, 자연 재해, 인프라 장애 및 인위적 오류 중 적어도 하나 이상의 장애 상황을 포함하는 관제 데이터를 수집하는 관제 데이터 수집부;
고객의 서버 시스템의 데이터 백업을 실행하는 백업 관리부; 및
상기 성능 데이터 수집부 및 상기 관제 데이터 수집부에서 수집하는 성능 데이터 및 관제 데이터의 실시간 확인이 가능하도록 하는 인터페이스를 생성하여 고객의 이동 단말로 제공하고, 상기 성능 데이터 및 상기 관제 데이터의 모니터링 결과 이슈가 발생한 것으로 판단하는 경우, SMS 또는 이메일 중 어느 하나의 알람 메시지를 상기 고객의 이동 단말로 전송하고, 상기 성능 데이터를 분석하여 추후 성능 데이터를 예측하고, 성능 데이터의 예측에 따라 발생할 수 있는 성능 이슈 해결 솔루션을 산출하는 종합 모니터링부;를 포함하고,
상기 종합 모니터링부는,
웹 사이트를 통해 서버 시스템의 성능 또는 장애 이슈 관련 기사 데이터를 수집하고, 기사의 개수, 기사에 포함되는 성능 또는 장애 이슈 관련 단어의 개수, 소정 기간 내에 상기 고객의 서버 시스템에서 성능 이슈의 발생 여부, 소정 기간 내에 상기 고객의 서버 시스템에서의 장애 상황 발생 여부에 따른 정기 점검 주기를 산출하고, 상기 정기 점검 주기에 따라 상기 고객의 서버 시스템에 대한 정기 점검을 실행하는, 시스템.
[수학식 1]
(수학식 1에서 P는 정기 점검 주기, q는 웹 사이트에서 수집한 기사의 개수, wi는 i번째 기사에 포함되는 성능 또는 장애 이슈 관련 단어의 개수, I는 소정 기간 내에 고객의 서버 시스템에서 성능 이슈가 발생한 경우 1, 발생하지 않은 경우 0, Ps는 소정 기간 내에 고객의 서버 시스템(10)에서 장애가 발생한 경우 1, 발생하지 않은 경우 0, 는 보정 계수를 의미함.)
Includes a control server that collects and monitors performance data and control data for the customer's server system, and generates and transmits alarm messages based on the monitoring results;
The above control server,
A performance data collection unit that collects performance data including resource usage of at least one of CPU, memory, disk, and network through a performance agent installed in the customer's server system;
A control data collection unit that collects control data including at least one failure situation among hardware failure, software failure, security issue, natural disaster, infrastructure failure, and human error through a control agent installed on the customer's server system;
Backup management department that performs data backup of the customer's server system; and
A comprehensive monitoring unit that generates an interface that enables real-time confirmation of performance data and control data collected by the performance data collection unit and the control data collection unit and provides the interface to a customer's mobile terminal, and if it is determined that an issue has occurred as a result of monitoring the performance data and the control data, transmits an alarm message of either SMS or email to the customer's mobile terminal, analyzes the performance data to predict future performance data, and derives a solution for resolving performance issues that may occur based on the prediction of the performance data;
The above comprehensive monitoring department,
A system that collects article data related to performance or failure issues of a server system through a website, calculates a regular inspection cycle based on the number of articles, the number of words related to performance or failure issues included in the articles, whether a performance issue occurs in the customer's server system within a given period, and whether a failure occurs in the customer's server system within a given period, and performs regular inspections of the customer's server system according to the regular inspection cycle.
[Mathematical formula 1]
(In mathematical expression 1, P is a regular inspection cycle, q is the number of articles collected from the website, wi is the number of words related to performance or failure issues included in the ith article, I is 1 if a performance issue occurs in the customer's server system within a given period, 0 if no issue occurs, P s is 1 if a failure occurs in the customer's server system (10) within a given period, 0 if no issue occurs, ) stands for correction factor.)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020240054940A KR102740357B1 (en) | 2024-04-24 | 2024-04-24 | Managing system based on comprehensive performance monitoring |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020240054940A KR102740357B1 (en) | 2024-04-24 | 2024-04-24 | Managing system based on comprehensive performance monitoring |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR102740357B1 true KR102740357B1 (en) | 2024-12-10 |
Family
ID=93850221
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020240054940A Active KR102740357B1 (en) | 2024-04-24 | 2024-04-24 | Managing system based on comprehensive performance monitoring |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102740357B1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140281741A1 (en) * | 2013-03-15 | 2014-09-18 | Khushboo Shah Bohacek | Method, user interface and apparatus for cloud service confidence level generation and display |
| KR20230073469A (en) * | 2021-11-19 | 2023-05-26 | 주식회사 지니에이아이 | Server management system capable of responding to failure |
-
2024
- 2024-04-24 KR KR1020240054940A patent/KR102740357B1/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140281741A1 (en) * | 2013-03-15 | 2014-09-18 | Khushboo Shah Bohacek | Method, user interface and apparatus for cloud service confidence level generation and display |
| KR20230073469A (en) * | 2021-11-19 | 2023-05-26 | 주식회사 지니에이아이 | Server management system capable of responding to failure |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11169506B2 (en) | Predictive data capture with adaptive control | |
| US11200139B2 (en) | Automatic configuration of software systems for optimal management and performance using machine learning | |
| CN117931424A (en) | A network resource scheduling optimization system for cloud environment | |
| CN118967147B (en) | After-sales trigger management method and system based on multi-field analysis and fusion | |
| CN113542039A (en) | Method for positioning 5G network virtualization cross-layer problem through AI algorithm | |
| CN111597247A (en) | Data anomaly analysis method and device and storage medium | |
| CN114358106B (en) | System abnormality detection method, system abnormality detection device, computer program product and electronic equipment | |
| CN107872457B (en) | Method and system for network operation based on network flow prediction | |
| CN112769605A (en) | Heterogeneous multi-cloud operation and maintenance management method and hybrid cloud platform | |
| CN117560287B (en) | A concentrator optimization configuration method based on deep learning and concentrator | |
| CN118631873A (en) | A data management system for the Internet of Things platform based on cloud technology | |
| CN114091610A (en) | Intelligent decision method and device | |
| CN118631889A (en) | Distributed ERP platform portal reconstruction access method and system | |
| CN119603297A (en) | A real-time data analysis and decision-making system based on edge intelligent Internet of Things | |
| Wu et al. | Ai-native network digital twin for intelligent network management in 6g | |
| JP2024541847A (en) | Adaptive Power Grid Management System | |
| CN115208773B (en) | Network hidden fault monitoring method and device | |
| KR102740357B1 (en) | Managing system based on comprehensive performance monitoring | |
| CN117851195A (en) | Computer host operation risk monitoring management and control system based on data analysis | |
| Bilen | KDN-Driven zero-shot learning for intelligent self-healing in 6G small cell networks | |
| KR102793355B1 (en) | Artificial intelligence-based interior project management system | |
| KR102790128B1 (en) | Artificial Intelligence-Based Visualization and Prediction System for Monitoring the Progress of Indoor Construction | |
| KR102861408B1 (en) | AI-Based In-Campus Computer Equipment Failure Prediction and Maintenance System | |
| KR102732071B1 (en) | Fire Response Mobile Emergency Broadcasting Management System | |
| US20240244035A1 (en) | Categorizing a New User in an Information Technology System |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20240424 |
|
| PA0201 | Request for examination |
Patent event code: PA02011R01I Patent event date: 20240424 Comment text: Patent Application |
|
| PA0302 | Request for accelerated examination |
Patent event date: 20240424 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20240424 Patent event code: PA03021R01I Comment text: Patent Application |
|
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240705 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20241127 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20241204 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20241204 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration |