KR20190055314A

KR20190055314A - 웹데이터 추출분석처리 장치

Info

Publication number: KR20190055314A
Application number: KR1020170151911A
Authority: KR
Inventors: 강지형; 이단비
Original assignee: 강지형; 이단비
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2019-05-23

Abstract

본 발명은 하는 웹데이터 추출분석처리 장치에 관한 것으로 특정 기준에 따라 URL(Uniform Resource Locator) 리스트를 자동으로 생성하는 SeedURL 생성부, 웹데이터 정규화를 위해 사전에 정의된 파싱(Parsing) 정보를 웹데이터 단말에 제공하는 파싱 정보 제공부, 상기 URL 리스트의 적어도 일부를 상기 웹데이터 단말에 전송하고, 상기 웹데이터 단말이 해당 URL과 연관된 웹데이터를 추출하고 상기 파싱 정보를 기초로 상기 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 하는 웹데이터 단말 제어부 및 상기 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리하는 이벤트 처리부를 포함한다. 따라서, 본 발명은 사용자 단말을 이용하여 대규모 데이터 수집 및 모니터링의 분산처리를 수행할 수 있다.

Description

웹데이터 추출분석처리 장치{WEB DATA EXTRACTION ANALYSIS PROCESSING APPARATUS}

본 발명은 웹데이터 추출분석처리 기술에 관한 것으로, 보다 상세하게는 사용자 단말을 이용하여 대규모 데이터 수집 및 모니터링의 분산처리를 수행할 수 있는 웹데이터 추출분석처리 장치에 관한 것이다.

종래에는 웹페이지로부터 필요로 하는 데이터를 추출 및 수집하기 위해 크롤링(crawling) 서버 클러스터가 구축되어야 했다. 그러나, 이러한 방식은 대규모 데이터의 실시간 처리가 어렵고, 데이터 양의 증가에 따른 서버 리소스 부하가 발생하여 대량의 데이터를 지속적으로 수집하기 위해 소모되는 유지 관리 비용이 기하급수적으로 증가한다는 단점을 가지고 있다.

한국공개특허 제10-2001-0106666(2001.12.07)호는 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과 시스템, 그리고 추출된 데이터를 저장하는 저장매체에 관한 것으로, HTML문서의 비논리적인 구조 중에서 특정한 패턴(pattern)을 가진 부분을 처리함에 있어서 범용성을 가질 수 있으며, 패턴분석을 통하여 추출되는 정보를 논리적인 구조로 추출해 냄으로서 보다 유용하게 정보를 처리할 수 있으며, 데이터베이스와의 연동을 통하여 정보의 재활용을 용이하게 할 수 있다.

한국등록특허 제10-1708878(2017.02.15)호는 웹 페이지 정보 추출 장치 및 방법에 관한 것으로, 웹 페이지로부터 정보 추출 규칙을 기반으로 데이터를 추출할 때, 레이아웃이나 코드의 변경으로 인해 정보 추출 규칙을 매번 재생성할 필요가 없으며, 웹 페이지의 스타일 변경시 자동으로 이를 감지하고 이에 따른 정보 추출 규칙을 자동으로 생성할 수 있어 지속적인 웹 페이지 기반의 지식 정보의 생성이 가능하다.

한국공개특허 제10-2001-0106666(2001.12.07)호 한국등록특허 제10-1708878(2017.02.15)호

본 발명의 일 실시예는 사용자 단말을 이용하여 대규모 데이터 수집 및 모니터링의 분산처리를 수행할 수 있는 웹데이터 추출분석처리 장치를 제공하고자 한다.

본 발명의 일 실시예는 복수의 사용자 단말을 이용하여 특정 웹페이지의 데이터를 수집, 분석 및 처리할 수 있는 웹데이터 추출분석처리 장치를 제공하고자 한다.

본 발명의 일 실시예는 복수의 사용자 단말로부터 수집한 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리할 수 있는 웹데이터 추출분석처리 장치를 제공하고자 한다.

실시예들 중에서, 웹데이터 추출분석처리 장치는 특정 기준에 따라 URL(Uniform Resource Locator) 리스트를 자동으로 생성하는 SeedURL 생성부, 웹데이터 정규화를 위해 사전에 정의된 파싱(Parsing) 정보를 웹데이터 단말에 제공하는 파싱 정보 제공부, 상기 URL 리스트의 적어도 일부를 상기 웹데이터 단말에 전송하고, 상기 웹데이터 단말이 해당 URL과 연관된 웹데이터를 추출하고 상기 파싱 정보를 기초로 상기 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 하는 웹데이터 단말 제어부 및 상기 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리하는 이벤트 처리부를 포함한다.

상기 웹데이터 추출분석처리 장치는 상기 URL 리스트 및 상기 정규 데이터의 저장 및 검색을 지원하는 데이터베이스부를 더 포함할 수 있다.

상기 SeedURL 생성부는 사용자에 의해 입력된 주제어와 연관된 웹사이트에 관한 URL을 기초로 상기 URL 리스트를 생성할 수 있다.

상기 파싱 정보 제공부는 사용자에 의해 관심되는 적어도 하나의 키워드(Keyword)를 포함하는 키워드 리스트를 포함하고 상기 적어도 하나의 키워드 중 하나를 포함한 문서블록을 추출하는 스크립트(Script)로서 상기 파싱 정보를 제공할 수 있다.

상기 파싱 정보 제공부는 상기 문서블록에 관해 상기 적어도 하나의 키워드(Keyword)를 중심으로 상기 웹데이터 정규화를 수행하는 스크립트(Script)를 상기 파싱 정보로서 제공할 수 있다.

상기 웹데이터 단말 제어부는 중앙 관제를 통해 상기 웹데이터 단말이 다른 웹데이터 단말과 중복적으로 상기 해당 URL과 연관된 웹데이터를 추출하지 않도록 할 수 있다.

상기 웹데이터 단말 제어부는 자율분산 관제를 통해 상기 웹데이터 단말이 다른 웹데이터 단말과 연동하여 상기 해당 URL과 연관된 웹데이터를 추출하지 않도록 할 수 있다.

상기 웹데이터 단말 제어부는 상기 웹데이터 단말의 백그라운드 프로세스(Background Process)로서 상기 해당 URL의 서브 URL과 연관된 서브 웹데이터를 추출할 수 있다.

상기 이벤트 처리부는 상기 정규 데이터로부터 서비스 구독 단말에 의해 지정된 관심어가 검출되면 상기 관심어의 변동 사항을 확인하여 상기 이벤트를 상기 서비스 구독 단말에 제공할 수 있다.

상기 이벤트 처리부는 상기 관심어의 변동 사항을 추적하고 상기 추적에 따른 특정 패턴을 검출하여 상기 이벤트를 제공할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치는 복수의 사용자 단말을 이용하여 특정 웹페이지의 데이터를 수집, 분석 및 처리할 수 있다.

본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치는 복수의 사용자 단말로부터 수집한 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리할 수 있다.

도 1은 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 시스템을 설명하는 도면이다.
도 2는 도 1에 있는 웹데이터 추출분석처리 장치를 설명하는 블록도이다.
도 3은 도 1에 있는 웹데이터 추출분석처리 장치에서 웹데이터 추출분석처리를 수행하는 과정을 설명하는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치에서 수행되는 중앙 관제에 의한 웹데이터 추출분석처리를 설명하는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치에서 수행되는 자율분산 관제에 의한 웹데이터 추출분석처리를 설명하는 예시도이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

파싱(Parsing)은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 의미한다. 즉, 파싱(Parsing)은 많은 문자열 중에서 자신이 원하는 문자열을 추출해내는 것을 의미한다. 사용자 단말의 유휴 컴퓨팅 자원을 이용한다면 대규모 데이터 수집 및 모니터링의 분산처리를 저비용으로 수행할 수 있다.

도 1은 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 시스템을 설명하는 도면이다.

도 1을 참조하면, 웹데이터 추출분석처리 시스템(100)은 웹데이터 단말(110), 웹데이터 추출분석처리 장치(130) 및 서비스 구독 단말(150)을 포함할 수 있다.

웹데이터 단말(110)은 특정 웹페이지(WebPage)에 접속하여 해당 웹페이지의 데이터를 추출할 수 있는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 웹데이터 단말(110)은 웹데이터 추출분석처리 장치(130)와 네트워크를 통해 연결될 수 있고, 웹데이터 단말1(110a) 내지 웹데이터 단말n(110c)을 포함하는 웹데이터 단말(110)은 웹데이터 추출분석처리 장치(130)와 동시에 연결될 수 있다.

일 실시예에서, 웹데이터 단말(110)은 웹데이터 추출분석처리 장치(130)로부터 사전에 정의된 파싱(Parsing) 정보를 수신할 수 있다. 웹데이터 단말(110)은 수신받은 파싱 정보를 기반으로, 웹페이지를 방문하고 필요로 하는 데이터를 정규화하여 데이터베이스에 저장할 수 있다.

일 실시예에서, 웹데이터 단말(110)은 모바일 웹브라우저(Web browser) 상에서 브라우징(browsing) 하는 과정에서 데이터 추출을 수행할 수 있고, 또는 백그라운드(background)에서 수행할 수도 있다.

웹데이터 추출분석처리 장치(130)는 웹페이지에서 추출된 데이터를 기초로 분석 및 처리할 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 웹데이터 추출분석처리 장치(130)는 웹데이터 단말(110)과 블루투스, WiFi 등을 통해 무선으로 연결될 수 있고, 네트워크를 통해 웹데이터 단말(110)과 데이터를 주고 받을 수 있다.

웹데이터 추출분석처리 장치(130)는 데이터베이스(도 1에 미도시)를 포함하여 구현될 수 있고, 데이터베이스와 독립적으로 구현될 수 있다. 데이터베이스와 독립적으로 구현된 경우 웹데이터 추출분석처리 장치(130)는 데이터베이스와 유선 또는 무선으로 연결되어 데이터를 주고 받을 수 있다. 데이터베이스를 포함하여 구현된 경우에 관해서는 도2에서 보다 구체적으로 설명한다.

일 실시예에서, 웹데이터 추출분석처리 장치(130)는 웹페이지에서 추출된 데이터를 기초로 분석 및 처리한 결과를 웹데이터 단말(110) 또는 서비스 구독 단말(150)에 제공할 수 있다. 웹데이터 추출분석처리 장치(130)는 추출된 데이터를 실시간으로 재가공하여 웹데이터 단말(110)에 제공할 수 있고, 웹데이터 단말(110)을 통해 수집한 사용자 반응을 반영하여 추출된 데이터를 수정할 수 있다.

일 실시예에서, 웹데이터 추출분석처리 장치(130)는 중앙 집중식 분산처리 또는 P2P(Peer To Peer) 방식 분산처리를 통해 웹데이터 추출, 분석 및 처리를 수행할 수 있다. 여기에서, 중앙 집중식 분산처리는 웹데이터 추출분석처리 장치(130)에서 데이터 추출, 분석 및 처리를 제어하는 방식일 수 있고, P2P 방식 분산처리는 웹데이터 추출분석 처리 장치(130)의 제어없이 웹데이터 단말(110) 간의 상호 교신을 통해 데이터 추출을 처리하는 방식일 수 있다. 중앙 집중식 분산처리 및 P2P 방식 분산처리에 대해서는 도 4 및 5에서 보다 구체적으로 설명한다.

서비스 구독 단말(150)은 웹데이터 추출분석처리 장치(130)에서 제공하는 메타데이터(metadata) 서비스를 이용할 수 있는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 서비스 구독 단말(150)은 웹데이터 추출분석처리 장치(130)와 네트워크를 통해 연결될 수 있고, 서비스 구독 단말1(150a) 내지 서비스 구독 단말n(150c)을 포함하는 서비스 구독 단말(110)은 웹데이터 추출분석처리 장치(130)와 동시에 연결될 수 있다.

일 실시예에서, 서비스 구독 단말(150)은 웹데이터 단말(110)에 해당할 수 있다. 보다 구체적으로, 서비스 구독 단말(150)이 웹데이터 단말(110)의 역할을 동시에 수행할 수 있고, 웹데이터 단말(110)이 서비스 구독 단말(150)의 역할을 동시에 수행할 수 있다. 예를 들어, 웹데이터 단말(110)은 특정 웹페이지에 접속하여 브라우징(browsing)하는 과정에서 해당 웹페이지의 데이터를 추출할 수 있고, 추출된 데이터는 웹데이터 추출분석처리 장치(130)에 전송할 수 있다. 웹데이터 단말(110)은 웹데이터 추출분석처리 장치(130)로부터 데이터 분석 및 처리 결과를 제공받을 수 있고, 데이터 분석 및 처리 결과는 메타데이터 서비스를 포함할 수 있다.

도 2는 도 1에 있는 웹데이터 추출분석처리 장치를 설명하는 블록도이다.

도 2를 참조하면, 웹데이터 추출분석처리 장치(130)는 SeedURL 생성부(210), 파싱 정보 제공부(220), 웹데이터 단말 제어부(230), 이벤트 처리부(240), 데이터베이스부(250) 및 제어부(260)를 포함할 수 있다.

SeedURL 생성부(210)는 특정 기준에 따라 URL(Uniform Resource Locator) 리스트를 자동으로 생성할 수 있다. SeedURL 생성부(210)는 기 설정된 기본 URL을 기초로 특정 기준에 따라 URL 리스트를 생성할 수 있다. 여기에서, URL 리스트는 차례대로 방문할 웹페이지 URL 목록을 의미하며, 특정 기준은 URL 리스트 생성에 관한 기준으로서 방문할 URL이 복수인 경우 어느 URL을 먼저 방문할 것인지 우선순위를 부여하기 위한 기준일 수 있고, 특정 깊이 만큼 웹페이지를 방문한 경우 더 이상 방문하지 않도록 제한을 설정하기 위한 기준에 해당할 수 있다. 특정 깊이는 특정 웹페이지를 방문하고, 해당 웹페이지에 링크된 다른 웹페이지를 방문하는 방법으로 웹페이지를 연속해서 방문할 경우 특정 횟수만큼만 방문하도록 설정된 횟수를 의미한다.

SeedURL 생성부(210)는 기본 URL을 기초로 해당 웹페이지 상에 링크된 다른 웹페이지 URL을 URL 리스트에 추가하는 방법을 이용하여 URL 리스트를 생성할 수 있다. 일 실시예에서, SeedURL 생성부(210)는 특정 웹페이지에 링크된 URL이 복수인 경우 URL 리스트에 추가하는 URL의 수를 제한하거나 일정한 우선순위에 따라 순서대로 URL 리스트에 추가할 수 있다.

일 실시예에서, SeedURL 생성부(210)는 사용자에 의해 입력된 주제어와 연관된 웹사이트에 관한 URL을 기초로 URL 리스트를 생성할 수 있다. 보다 구체적으로, SeedURL 생성부(210)는 웹데이터 단말(110) 또는 서비스 구독 단말(150)을 통해 사용자로부터 특정 주제어를 입력받을 수 있다. SeedURL 생성부(210)는 사용자로부터 입력받은 주제어를 기초로 웹사이트를 검색할 수 있고, 검색된 웹사이트의 URL을 기본 URL로 결정할 수 있다. SeedURL 생성부(210)는 기본 URL을 기초로 URL 리스트를 생성할 수 있다. 이 경우, 사용자로부터 입력받은 주제어와 관련된 복수 개의 웹사이트가 검색될 수 있고, SeedURL 생성부(210)는 복수 개의 웹사이트 URL 각각을 기본 URL로 하여 URL 리스트를 생성할 수 있다.

일 실시예에서, SeedURL 생성부(210)는 URL 리스트를 생성하고 데이터베이스부(250)에 저장할 수 있다. SeedURL 생성부(210)는 URL 리스트 생성에 사용된 기본 URL 또는 특정 주제어를 해당 URL 리스트와 연관시켜 데이터베이스부(250)에 저장할 수 있다.

파싱 정보 제공부(220)는 웹데이터 정규화를 위해 사전에 정의된 파싱(Parsing) 정보를 웹데이터 단말(110)에 제공할 수 있다. 웹데이터 단말(110)은 파싱 정보 제공부(220)를 통해 제공받은 파싱(Parsing) 정보를 이용하여 웹사이트의 데이터를 추출할 수 있다. 일 실시예에서, 웹데이터 단말(110)과 서비스 구독 단말(150)이 동일한 사용자 단말에 해당하는 경우에는 파싱 정보 제공부(220)는 파싱(Parsing) 정보를 서비스 구독 단말(150)에 제공할 수 있다.

일 실시예에서, 파싱 정보 제공부(220)는 사용자에 의해 관심되는 적어도 하나의 키워드(Keyword)를 포함하는 키워드 리스트를 포함하고 적어도 하나의 키워드 중 하나를 포함한 문서블록을 추출하는 스크립트(Script)로서 파싱(Parsing) 정보를 제공할 수 있다. 여기에서, 스크립트(Script)는 일반적인 스크립트 언어(Scripting Language)를 이용하여 작성된 프로그램의 일종으로, 키워드 리스트에 포함된 키워드 중 하나를 포함하는 문서블록을 데이터로서 추출하는 동작을 수행하도록 작성될 수 있고, 웹데이터 단말(110)의 종류 및 유형에 영향받지 않고 독립적으로 수행가능하도록 작성될 수 있다.

파싱 정보 제공부(220)는 데이터베이스부(250)로부터 특정 웹데이터 단말(110)과 연관된 사용자에 의해 관심되는 키워드 리스트를 검색할 수 있고, 검색된 키워드 리스트와 파싱(Parsing)을 위한 스크립트(Script)를 포함하는 파싱(Parsing) 정보를 웹데이터 단말(110)에 제공할 수 있다.

일 실시예에서, 파싱 정보 제공부(220)는 웹데이터 단말(110)로부터 특정 키워드를 입력받을 수 있고, 데이터베이스부(250)로부터 특정 키워드와 연관된 유사 키워드를 검색할 수 있다. 파싱 정보 제공부(220)는 특정 키워드 및 유사 키워드를 포함하는 키워드 리스트를 생성하여 파싱(Parsing) 정보로서 웹데이터 단말(110)에 제공할 수 있다.

일 실시예에서, 파싱 정보 제공부(220)는 문서블록에 관해 적어도 하나의 키워드(Keyword)를 중심으로 웹데이터 정규화를 수행하는 스크립트(Script)를 파싱(Parsing) 정보로서 제공할 수 있다. 파싱 정보 제공부(220)는 웹데이터 단말(110)에 제공되는 스크립트(Script)를 통해 웹데이터 단말(110)이 특정 웹페이지로부터 정규화된 데이터를 추출할 수 있도록 할 수 있다.

보다 구체적으로, 웹데이터 단말(110)은 파싱(Parsing) 정보에 포함되어 있는 스크립트(Script)를 통해 특정 키워드를 포함하는 문서블록에 대해 특정 키워드와 연관된 데이터를 추출할 수 있고, 데이터를 정규화하여 웹데이터 추출분석처리 장치(130)로 전송할 수 있다.

웹데이터 단말 제어부(230)는 URL 리스트의 적어도 일부를 웹데이터 단말(110)에 전송하고, 웹데이터 단말(110)이 해당 URL과 연관된 웹데이터를 추출하고 파싱(Parsing) 정보를 기초로 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 할 수 있다.

일 실시예에서, 웹데이터 단말 제어부(230)는 데이터베이스부(250)를 통해 데이터베이스에 저장된 URL 리스트를 획득한 후 분할하여 적어도 하나의 URL 그룹을 생성할 수 있다. 웹데이터 단말 제어부(230)는 분할된 URL 그룹 각각을 독립된 웹데이터 단말(110)에 분배할 수 있다.

웹데이터 단말 제어부(230)는 적어도 하나의 웹데이터 단말(110)이 각각 수신한 URL 그룹 내의 웹페이지들을 방문하여 웹데이터를 추출하고 파싱(Parsing) 정보를 기초로 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 제어하는 역할을 수행할 수 있다. 웹데이터 단말 제어부(230)가 적어도 하나의 웹데이터 단말(110)을 제어하는 방식은 중앙 관제와 자율분산 관제로 나눌 수 있다. 여기에서, 중앙 관제 방식은 중앙 집중식 분산 처리에 해당할 수 있고, 자율분산 관제는 P2P 방식 분산처리에 해당할 수 있다.

일 실시예에서, 웹데이터 단말 제어부(230)는 중앙 관제를 통해 웹데이터 단말(110)이 다른 웹데이터 단말(110)과 중복적으로 특정 URL과 연관된 웹데이터를 추출하지 않도록 할 수 있다. 보다 구체적으로, 웹데이터 단말 제어부(230)는 웹데이터 단말(110)로 전송하는 URL 그룹을 생성하는 과정에서 분할된 URL 그룹 각각이 중복된 URL을 포함하지 않도록 중복 URL을 제거하는 과정을 수행할 수 있다.

또한, 웹데이터 단말 제어부(230)는 웹데이터 단말(110)이 특정 URL을 방문하기 전에 반드시 방문 요청하도록 제어할 수 있고, 웹데이터 단말(110)로부터 방문 요청을 받은 경우 해당 URL에 대해 이미 방문한 웹데이터 단말(110)이 존재하는지 검사하여 방문 요청에 대한 응답을 할 수 있다.

일 실시예에서, 웹데이터 단말 제어부(230)는 자율분산 관제를 통해 웹데이터 단말(110)이 다른 웹데이터 단말(110)과 연동하여 특정 URL과 연관된 웹데이터를 추출하지 않도록 제어할 수 있다. 보다 구체적으로, 웹데이터 단말 제어부(230)는 자율분산 관제를 통해 웹데이터 단말(110) 간의 상호 교신을 통해 URL 리스트를 분할하여 URL 그룹을 생성하면서 URL 그룹 간에 중복된 URL을 포함하지 않도록 제어할 수 있다.

또한, 웹데이터 단말 제어부(230)는 자율분산 관제를 통해 특정 웹데이터 단말(110)이 특정 URL을 방문하기 전에 반드시 나머지 웹데이터 단말(110)들로부터 해당 URL 방문 여부를 확인하도록 제어할 수 있다. 웹데이터 단말 제어부(230)는 웹데이터 단말(110) 중 어느 하나가 특정 URL을 방문한 기록을 가지고 있는 경우에는 나머지 웹데이터 단말(110)이 해당 URL을 방문하지 않도록 제어할 수 있다.

일 실시예에서, 웹데이터 단말 제어부(230)는 웹데이터 단말(110)의 백그라운드 프로세스(Background Process)로서 특정 URL의 서브 URL과 연관된 서브 웹데이터를 추출할 수 있다. 여기에서, 특정 URL의 서브 URL은 특정 URL과 연관된 웹페이지 상에서 링크로 연결된 웹페이지에 관한 URL에 해당할 수 있다. 따라서, 특정 URL의 서브 URL은 1개 이상이 동시에 존재할 수 있다.

웹데이터 단말 제어부(230)는 웹데이터 단말(110) 상에서 모바일 웹 브라우저(Web browser)를 통해 특정 URL과 연관된 웹페이지를 브라우징(browsing)하는 중에 해당 URL에 대한 웹데이터를 추출할 수 있고, 해당 URL의 서브 URL에 대해서는 백그라운드 프로세스(background process)를 통해 웹데이터를 추출할 수 있다.

일 실시예에서, 웹데이터 단말 제어부(230)는 웹데이터 단말(110)이 웹데이터 단말 제어부(230)로부터 전달받은 URL 그룹에 포함된 모든 URL에 대하여 백그라운드 프로세스(background process)를 통해 웹데이터를 추출하도록 제어할 수 있다.

이벤트 처리부(240)는 웹데이터 단말(110)에 의해 생성된 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리할 수 있다. 보다 구체적으로, 이벤트 처리부(240)는 데이터베이스에 저장된 정규 데이터를 기초로 특정 조건을 만족하는지를 검사할 수 있고, 특정 조건을 만족하는 정규 데이터가 존재하는 경우 해당 조건과 연관된 이벤트를 처리할 수 있다.

여기에서, 특정 조건 및 해당 조건과 연관된 이벤트에 관한 정보는 데이터베이스에 저장될 수 있고, 웹데이터 추출분석처리 장치(130)는 웹데이터 단말(110) 또는 서비스 구독 단말(150)을 통해 특정 조건을 수신하여 데이터베이스에 저장할 수 있다.

일 실시예에서, 이벤트 처리부(240)는 정규 데이터로부터 서비스 구독 단말(150)에 의해 지정된 관심어가 검출되면 해당 관심어의 변동 사항을 확인하여 특정 이벤트를 서비스 구독 단말(150)에 제공할 수 있다. 예를 들어, 서비스 구독 단말(150)에 의해 '특정 시계 브랜드명'이 관심어로 지정된 경우, 정규 데이터로부터 '특정 시계 브랜드명'이 검출되면 '특정 시계 브랜드명'을 가진 시계에 대해 '신상품' 출시여부 또는 '가격' 변동여부 등 특정 항목에 대한 변동 사항을 확인하여 서비스 구독 단말(150)에 이벤트를 제공할 수 있다.

여기에서, 이벤트는 푸시(Push) 메시지, 진동 알람 및 문자 메시지 중 적어도 하나에 해당할 수 있고, 반드시 이에 한정되지 않고, 서비스 구독 단말(150)의 종류와 유형에 따라 다양한 형태로 해당 관심어의 변동 사항을 알릴 수 있는 방법에 해당할 수 있다.

일 실시예에서, 이벤트 처리부(240)는 관심어의 변동 사항을 추적하고 추적에 따른 특정 패턴을 검출하여 특정 이벤트를 제공할 수 있다. 예를 들어, 서비스 구독 단말(150)에 의해 '특정 시계 브랜드명'이 관심어로 지정된 경우, 정규 데이터로부터 '특정 시계 브랜드명'이 검출되면 '특정 시계 브랜드명'을 가진 시계 상품에 대해 '가격' 항목에 대한 변동 사항을 추적할 수 있고, '가격' 변동 사항이 미리 설정된 특정 패턴에 해당하는 경우 해당 패턴과 연관된 이벤트를 서비스 구독 단말(150)에 제공할 수 있다.

여기에서, 특정 패턴은 '가격' 항목의 경우 '특정 가격 이하로 하락한 경우', '특정 가격 이상으로 상승한 경우', '특정 범위 내에서 일정 기간이상 유지된 경우', '일정 기간이상 하락세를 보인 경우' 및 '일정 기간이상 상승세를 보인 경우' 등을 포함할 수 있고, 반드시 이에 한정되지 않고, 서비스 구독 단말(150)로부터 다양한 형태로 입력받아 데이터베이스에 저장할 수 있다.

일 실시예에서, 이벤트 처리부(240)는 서비스 구독 단말(150)에 관심어 및 해당 관심어와 연관된 변동 사항 항목을 입력할 수 있는 인터페이스(Interface)를 제공할 수 있고, 서비스 구독 단말(150)로부터 입력받은 관심어 및 변동 사항 항목을 해당 서비스 구독 단말(150)과 연관시켜 데이터베이스부(250)를 통해 데이터베이스에 저장할 수 있다.

일 실시예에서, 이벤트 처리부(240)는 서비스 구독 단말(150)에 특정 조건을 자유롭게 생성하고 특정 조건과 연관된 적어도 하나의 변동 사항 항목을 추가, 삭제 및 수정할 수 있는 인터페이스(Interface)를 제공할 수 있다.

이벤트 처리부(240)는 '가격' 항목에 대한 변동 사항의 추적을 실시간 또는 일정 시간 간격을 두고 주기적으로 수행할 수 있고, 서비스 구독 단말(150)로부터 추적 방식에 대한 선택을 입력받을 수 있다.

데이터베이스부(250)는 URL 리스트 및 정규 데이터의 저장 및 검색을 지원할 수 있다. 웹데이터 추출분석처리 장치(130)가 데이터베이스를 포함하여 구현된 경우 데이터베이스부(250)는 데이터베이스 관리를 담당할 수 있다. 데이터베이스부(250)는 일반적인 데이터베이스 관리 시스템(DBMS)의 역할을 담당할 수 있다.

제어부(260)는 웹데이터 추출분석처리 장치(130)의 전체적인 동작을 제어하고, SeedURL 생성부(210), 파싱 정보 제공부(220), 웹데이터 단말 제어부(230), 이벤트 처리부(240) 및 데이터베이스부(250) 간의 제어 흐름 및 데이터 흐름을 관리할 수 있다.

도 3은 도 1에 있는 웹데이터 추출분석처리 장치에서 웹데이터 추출분석처리를 수행하는 과정을 설명하는 흐름도이다.

도 3을 참조하면, 웹데이터 추출분석처리 장치(130)는 SeedURL 생성부(210)를 통해 특정 기준에 따라 URL(Uniform Resource Locator) 리스트를 자동으로 생성할 수 있다(단계 S310). 웹데이터 추출분석처리 장치(130)는 파싱 정보 제공부(220)를 통해 웹데이터 정규화를 위해 사전에 정의된 파싱(Parsing) 정보를 웹데이터 단말(110)에 제공할 수 있다(단계 S330).

웹데이터 추출분석처리 장치(130)는 웹데이터 단말 제어부(230)를 통해 URL 리스트의 적어도 일부를 웹데이터 단말(110)에 전송하고, 웹데이터 단말(110)이 특정 URL과 연관된 웹데이터를 추출하고 파싱(Parsing) 정보를 기초로 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 제어할 수 있다(단계 S350).

웹데이터 단말(110)이 수행하는 웹데이터 추출 방법은 방문한 웹페이지의 유형, 사용 언어 등 주변 기술에 따라 다양한 형태로 변경할 수 있다. 웹데이터 단말(110)이 수행하는 웹데이터 수집은 응용 어플리케이션(application) 형태로 설치되어 동작할 수 있다. 웹데이터 단말(110)은 웹데이터 추출분석처리 장치(130)로부터의 이벤트 수신이나 주기적인 웹데이터 수집을 백그라운드 프로세스(background process)를 통해 수행할 수 있다. 웹데이터 추출분석처리 장치(130)는 이벤트 처리부(240)를 통해 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리할 수 있다(단계 S370).

도 4는 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치에서 수행되는 중앙 관제에 의한 웹데이터 추출분석처리를 설명하는 예시도이다.

도 4를 참조하면, 웹데이터 추출분석처리 장치(410)는 중앙 관제에 의한 웹데이터 추출, 분석 및 처리를 수행할 수 있다. 중앙 관제는 중앙 집중식 분산처리에 해당할 수 있다. 중앙 집중식 분산처리의 경우 웹데이터 추출분석처리 장치(410)는 서버의 역할을, 웹데이터 단말(420 내지 440)은 클라이언트(Client) 역할을 수행할 수 있다. 웹데이터 추출분석처리 장치(410)는 URL 리스트를 생성하고 URL 리스트를 분할하여 URL 그룹을 생성하며 URL 그룹을 웹데이터 단말(420 내지 440)에 전송할 수 있다(450).

웹데이터 단말(420 내지 440)은 웹데이터 추출분석처리 장치(410)로부터 전송받은 URL 그룹에 포함된 URL과 연관된 웹페이지에 각각 방문하여 웹데이터를 수집할 수 있다. 웹데이터 단말(420 내지 440)은 독립적으로 웹데이터를 추출하고 정규화하여 정규 데이터를 생성할 수 있다. 웹데이터 단말(420 내지 440)은 정규 데이터를 웹데이터 추출분석처리 장치(410)에게 전송할 수 있고(460), 웹데이터 추출분석처리 장치(410)는 각 웹데이터 단말(420 내지 440)로부터 전송받은 정규 데이터를 데이터베이스에 저장할 수 있다.

도 5는 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치에서 수행되는 자율분산 관제에 의한 웹데이터 추출분석처리를 설명하는 예시도이다.

도 5를 참조하면, 웹데이터 추출분석처리 장치(510)는 자율분산 관제에 의한 웹데이터 추출, 분석 및 처리를 수행할 수 있다. 자율분산 관제는 P2P(Peer to Peer) 방식 분산처리에 해당할 수 있다. P2P 방식 분산처리는 중앙 집중식 분산처리와 절차적으로 유사하지만, 웹데이터 단말(520 내지 540) 간의 상호 교신을 통해 URL 리스트를 분할하여 URL 그룹을 생성하며 URL 중복을 제거하는 등 웹데이터 추출분석장치(510)의 일부 역할을 독립적으로 수행할 수 있다.

보다 구체적으로, 웹데이터 추출분석처리 장치(510)는 URL 리스트를 생성하여 각 웹데이터 단말(520 내지 540)에 전송할 수 있다(550). 각 웹데이터 단말(520 내지 540)은 상호 교신을 통해 URL 리스트를 분할하고, 서로 중복된 URL을 갖지 않는 독립 별개의 URL 그룹을 생성하여 분배할 수 있다. 각 웹데이터 단말(520) 내지 540)은 자신에게 분배된 URL 그룹을 대상으로 웹데이터를 수집할 수 있다. 웹데이터 단말(520 내지 540)은 URL 그룹의 특정 URL과 연관된 웹페이지에 방문하여 웹데이터를 추출하고, 정규화하여 생성된 정규 데이터를 웹데이터 추출분석처리 장치(510)에게 전송할 수 있다(560).

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 웹데이터 추출분석처리 시스템
110: 웹데이터 단말 130: 웹데이터 추출분석처리 장치
150: 서비스 구독 단말
210: SeedURL 생성부 220: 파싱 정보 제공부
230: 웹데이터 단말 제어부 240: 이벤트 처리부
250: 데이터베이스부 260: 제어부
410: 웹데이터 추출분석처리 장치
420 내지 440: 웹데이터 단말
450: URL 그룹 전송 460: 정규화된 데이터 전송
510: 웹데이터 추출분석처리 장치
520 내지 540: 웹데이터 단말
550: URL 리스트 전송 560: 정규화된 데이터 전송

Claims

특정 기준에 따라 URL(Uniform Resource Locator) 리스트를 자동으로 생성하는 SeedURL 생성부;
웹데이터 정규화를 위해 사전에 정의된 파싱(Parsing) 정보를 웹데이터 단말에 제공하는 파싱 정보 제공부;
상기 URL 리스트의 적어도 일부를 상기 웹데이터 단말에 전송하고, 상기 웹데이터 단말이 해당 URL과 연관된 웹데이터를 추출하고 상기 파싱 정보를 기초로 상기 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 하는 웹데이터 단말 제어부; 및
상기 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리하는 이벤트 처리부를 포함하는 웹데이터 추출분석처리 장치.
제1항에 있어서,
상기 URL 리스트 및 상기 정규 데이터의 저장 및 검색을 지원하는 데이터베이스부를 더 포함하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제1항에 있어서, 상기 SeedURL 생성부는
사용자에 의해 입력된 주제어와 연관된 웹사이트에 관한 URL을 기초로 상기 URL 리스트를 생성하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제1항에 있어서, 상기 파싱 정보 제공부는
사용자에 의해 관심되는 적어도 하나의 키워드(Keyword)를 포함하는 키워드 리스트를 포함하고 상기 적어도 하나의 키워드 중 하나를 포함한 문서블록을 추출하는 스크립트(Script)로서 상기 파싱 정보를 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제4항에 있어서, 상기 파싱 정보 제공부는
상기 문서블록에 관해 상기 적어도 하나의 키워드(Keyword)를 중심으로 상기 웹데이터 정규화를 수행하는 스크립트(Script)를 상기 파싱 정보로서 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제1항에 있어서, 상기 웹데이터 단말 제어부는
중앙 관제를 통해 상기 웹데이터 단말이 다른 웹데이터 단말과 중복적으로 상기 해당 URL과 연관된 웹데이터를 추출하지 않도록 하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제1항에 있어서, 상기 웹데이터 단말 제어부는
자율분산 관제를 통해 상기 웹데이터 단말이 다른 웹데이터 단말과 연동하여 상기 해당 URL과 연관된 웹데이터를 추출하지 않도록 하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제1항에 있어서, 상기 웹데이터 단말 제어부는
상기 웹데이터 단말의 백그라운드 프로세스(Background Process)로서 상기 해당 URL의 서브 URL과 연관된 서브 웹데이터를 추출하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제1항에 있어서, 상기 이벤트 처리부는
상기 정규 데이터로부터 서비스 구독 단말에 의해 지정된 관심어가 검출되면 상기 관심어의 변동 사항을 확인하여 상기 이벤트를 상기 서비스 구독 단말에 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
제9항에 있어서, 상기 이벤트 처리부는
상기 관심어의 변동 사항을 추적하고 상기 추적에 따른 특정 패턴을 검출하여 상기 이벤트를 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.