KR20190055314A - 웹데이터 추출분석처리 장치 - Google Patents
웹데이터 추출분석처리 장치 Download PDFInfo
- Publication number
- KR20190055314A KR20190055314A KR1020170151911A KR20170151911A KR20190055314A KR 20190055314 A KR20190055314 A KR 20190055314A KR 1020170151911 A KR1020170151911 A KR 1020170151911A KR 20170151911 A KR20170151911 A KR 20170151911A KR 20190055314 A KR20190055314 A KR 20190055314A
- Authority
- KR
- South Korea
- Prior art keywords
- web data
- url
- web
- terminal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
도 2는 도 1에 있는 웹데이터 추출분석처리 장치를 설명하는 블록도이다.
도 3은 도 1에 있는 웹데이터 추출분석처리 장치에서 웹데이터 추출분석처리를 수행하는 과정을 설명하는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치에서 수행되는 중앙 관제에 의한 웹데이터 추출분석처리를 설명하는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 웹데이터 추출분석처리 장치에서 수행되는 자율분산 관제에 의한 웹데이터 추출분석처리를 설명하는 예시도이다.
110: 웹데이터 단말 130: 웹데이터 추출분석처리 장치
150: 서비스 구독 단말
210: SeedURL 생성부 220: 파싱 정보 제공부
230: 웹데이터 단말 제어부 240: 이벤트 처리부
250: 데이터베이스부 260: 제어부
410: 웹데이터 추출분석처리 장치
420 내지 440: 웹데이터 단말
450: URL 그룹 전송 460: 정규화된 데이터 전송
510: 웹데이터 추출분석처리 장치
520 내지 540: 웹데이터 단말
550: URL 리스트 전송 560: 정규화된 데이터 전송
Claims (10)
- 특정 기준에 따라 URL(Uniform Resource Locator) 리스트를 자동으로 생성하는 SeedURL 생성부;
웹데이터 정규화를 위해 사전에 정의된 파싱(Parsing) 정보를 웹데이터 단말에 제공하는 파싱 정보 제공부;
상기 URL 리스트의 적어도 일부를 상기 웹데이터 단말에 전송하고, 상기 웹데이터 단말이 해당 URL과 연관된 웹데이터를 추출하고 상기 파싱 정보를 기초로 상기 웹데이터의 정규화를 수행하여 정규 데이터를 생성하도록 하는 웹데이터 단말 제어부; 및
상기 정규 데이터에 관한 특정 조건과 연관된 이벤트를 처리하는 이벤트 처리부를 포함하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서,
상기 URL 리스트 및 상기 정규 데이터의 저장 및 검색을 지원하는 데이터베이스부를 더 포함하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서, 상기 SeedURL 생성부는
사용자에 의해 입력된 주제어와 연관된 웹사이트에 관한 URL을 기초로 상기 URL 리스트를 생성하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서, 상기 파싱 정보 제공부는
사용자에 의해 관심되는 적어도 하나의 키워드(Keyword)를 포함하는 키워드 리스트를 포함하고 상기 적어도 하나의 키워드 중 하나를 포함한 문서블록을 추출하는 스크립트(Script)로서 상기 파싱 정보를 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제4항에 있어서, 상기 파싱 정보 제공부는
상기 문서블록에 관해 상기 적어도 하나의 키워드(Keyword)를 중심으로 상기 웹데이터 정규화를 수행하는 스크립트(Script)를 상기 파싱 정보로서 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서, 상기 웹데이터 단말 제어부는
중앙 관제를 통해 상기 웹데이터 단말이 다른 웹데이터 단말과 중복적으로 상기 해당 URL과 연관된 웹데이터를 추출하지 않도록 하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서, 상기 웹데이터 단말 제어부는
자율분산 관제를 통해 상기 웹데이터 단말이 다른 웹데이터 단말과 연동하여 상기 해당 URL과 연관된 웹데이터를 추출하지 않도록 하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서, 상기 웹데이터 단말 제어부는
상기 웹데이터 단말의 백그라운드 프로세스(Background Process)로서 상기 해당 URL의 서브 URL과 연관된 서브 웹데이터를 추출하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제1항에 있어서, 상기 이벤트 처리부는
상기 정규 데이터로부터 서비스 구독 단말에 의해 지정된 관심어가 검출되면 상기 관심어의 변동 사항을 확인하여 상기 이벤트를 상기 서비스 구독 단말에 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
- 제9항에 있어서, 상기 이벤트 처리부는
상기 관심어의 변동 사항을 추적하고 상기 추적에 따른 특정 패턴을 검출하여 상기 이벤트를 제공하는 것을 특징으로 하는 웹데이터 추출분석처리 장치.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170151911A KR20190055314A (ko) | 2017-11-15 | 2017-11-15 | 웹데이터 추출분석처리 장치 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170151911A KR20190055314A (ko) | 2017-11-15 | 2017-11-15 | 웹데이터 추출분석처리 장치 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20190055314A true KR20190055314A (ko) | 2019-05-23 |
Family
ID=66681113
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170151911A Ceased KR20190055314A (ko) | 2017-11-15 | 2017-11-15 | 웹데이터 추출분석처리 장치 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20190055314A (ko) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114564316A (zh) * | 2021-12-27 | 2022-05-31 | 北京幻想纵横网络技术有限公司 | 一种消息推送方法、装置、设备及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010106666A (ko) | 2000-05-22 | 2001-12-07 | 복인근 | 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체 |
| KR101708878B1 (ko) | 2014-12-02 | 2017-02-21 | 주식회사 솔트룩스 | 웹 페이지 정보 추출 장치 및 방법 |
-
2017
- 2017-11-15 KR KR1020170151911A patent/KR20190055314A/ko not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010106666A (ko) | 2000-05-22 | 2001-12-07 | 복인근 | 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체 |
| KR101708878B1 (ko) | 2014-12-02 | 2017-02-21 | 주식회사 솔트룩스 | 웹 페이지 정보 추출 장치 및 방법 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114564316A (zh) * | 2021-12-27 | 2022-05-31 | 北京幻想纵横网络技术有限公司 | 一种消息推送方法、装置、设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6848085B2 (ja) | ページ表示プログラム、装置、サーバー及び記憶媒体 | |
| US10897511B2 (en) | Topical activity monitor and identity collector system | |
| KR101463974B1 (ko) | 마케팅을 위한 빅데이터 분석 시스템 및 방법 | |
| CN102819591B (zh) | 一种基于内容的网页分类方法及系统 | |
| CN104067274A (zh) | 用于改进对搜索结果的访问的系统和方法 | |
| CN105843815B (zh) | 页面评论处理方法、装置和浏览器 | |
| US20140129661A1 (en) | Smart Web Notifications | |
| JP5848199B2 (ja) | 影響力予測装置、影響力予測方法、及びプログラム | |
| WO2017051420A1 (en) | Advanced computer implementation for crawling and/or detecting related electronically catalogued data using improved metadata processing | |
| CN103186600B (zh) | 互联网舆情的专题分析方法和装置 | |
| CN110362727A (zh) | 用于搜索系统的第三方搜索应用 | |
| US20130185429A1 (en) | Processing Store Visiting Data | |
| US9582590B2 (en) | Method and system for presenting a navigation path for enabling retrieval of content | |
| CN107480277A (zh) | 用于网站日志采集的方法及装置 | |
| CN111538645B (zh) | 数据可视化方法及相关设备 | |
| US10127617B2 (en) | System for analyzing social media data and method of analyzing social media data using the same | |
| CN103150363A (zh) | 访问网页的方法及装置 | |
| US9135345B1 (en) | Generating and updating online content using standardized tagged data | |
| CN105095383A (zh) | 信息发布方法、搜索方法及相应装置 | |
| KR20190055314A (ko) | 웹데이터 추출분석처리 장치 | |
| KR100840019B1 (ko) | 사용자의 스케쥴 정보를 이용하여 광고를 제공하는 방법 및시스템 | |
| US9633118B2 (en) | Editorial service supporting contrasting content | |
| JP2010231508A (ja) | 重要度判定装置、重要度判定方法、およびプログラム | |
| CN102521288A (zh) | 一种互联网Web服务信息获取方法 | |
| JP6087855B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20171115 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190430 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20191111 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20190430 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |