[go: up one dir, main page]

KR20130099327A - Apparatus for extracting information from open domains and method for the same - Google Patents

Apparatus for extracting information from open domains and method for the same Download PDF

Info

Publication number
KR20130099327A
KR20130099327A KR1020120020742A KR20120020742A KR20130099327A KR 20130099327 A KR20130099327 A KR 20130099327A KR 1020120020742 A KR1020120020742 A KR 1020120020742A KR 20120020742 A KR20120020742 A KR 20120020742A KR 20130099327 A KR20130099327 A KR 20130099327A
Authority
KR
South Korea
Prior art keywords
sentences
domain
ontology
semantic
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020120020742A
Other languages
Korean (ko)
Inventor
이창기
류법모
윤여찬
최윤재
허정
최미란
김현기
김현진
이충희
오효정
조요한
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120020742A priority Critical patent/KR20130099327A/en
Publication of KR20130099327A publication Critical patent/KR20130099327A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시예에 따른 도메인 정보 추출장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 도메인 정보 추출장치는 입력 받은 특정 도메인내 텍스트 문서로부터 문장을 분리하는 문장 분리부, 상기 분리된 문장에 대하여 형태소 분석을 수행하여 상위 N개의 문장을 추출하는 형태소 분석부, 상기 추출된 N개의 문장에 대하여 문장의 어절간의 구문의존 관계를 분석하여 상위 M개의 의존 구문 분석 결과를 생성하는 의존 구문 분석부, 상기 N개의 문장과 상기 M개의 의존 구문 분석결과를 미리 정해진 통계모델을 적용하여 문장 내의 각 용언의 인자의 의미역을 결정하고, 상기 각 용언별로 의미역이 결정된 인자를 취합하여 프레임을 생성하는 의미역 결정부 및 상기 생성된 프레임을 미리 정의된 온톨로지 규칙을 적용하여 특정 클래스의 인스턴스로서 할당하고, 상기 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑하는 온톨로지 매핑부를 포함하여 구성된다. Disclosed is an apparatus and method for extracting domain information according to an embodiment of the present invention. The domain information extracting apparatus according to an embodiment of the present invention includes a sentence separator for separating sentences from a text document in a specific domain received, and a morpheme analyzer for extracting the top N sentences by performing morphological analysis on the separated sentences. A dependency parser configured to analyze syntax dependences between the sentences of the extracted N sentences and generate upper M dependent syntax analysis results, and predetermine statistics on the N sentences and the M dependent syntax analysis results The semantic domain is determined by applying a model to determine a semantic factor of each verb in a sentence, and a semantic domain determination unit generating a frame by collecting the factors whose semantic ranges are determined for each verb and applying the ontology rule predefined to the generated frame. Assigns it as an instance of a specific class, and assigns the assigned instance to a particular class of domain ontology. To map the is configured to include parts of the ontology mapping.

Description

오픈 도메인 정보 추출 장치 및 방법{APPARATUS FOR EXTRACTING INFORMATION FROM OPEN DOMAINS AND METHOD FOR THE SAME}Apparatus and method for extracting open domain information {APPARATUS FOR EXTRACTING INFORMATION FROM OPEN DOMAINS AND METHOD FOR THE SAME}

본 발명은 오픈 도메인 정보를 추출하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 도메인 내 비구조 웹 문서로부터 정보를 추출하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for extracting open domain information, and more particularly, to an apparatus and method for extracting information from an unstructured web document in a domain.

오늘날 인터넷의 성장으로 웹 사이트를 통해 다양한 정보가 제공되고 있다. 현재의 웹은 사용자가 사이트에 접속하고 원하는 목적지에 이르기까지 링크를 따라 검색해야 한다. 그러나 수많은 웹 페이지를 모두 다 읽기보다 질의하는 것이 보다 효과적인데, 질의를 위해서는 웹 페이지에 들어 있는 정보를 추출하여 구조화된 데이터 또는 반 구조화된 데이터로 변환할 필요가 있다.Today, with the growth of the Internet, various information is provided through web sites. The current web requires users to follow a link to the site and to the destination of their choice. However, it is more efficient to query a large number of web pages than to read them all. To query, you need to extract the information contained in a web page and convert it into structured or semi-structured data.

현재 많은 웹 정보 추출 도구들이 존재하는데, 이들은 크게 자동 추출 도구와 수동 추출도구로 분류된다. 웹 페이지가 정해진 스키마에 따라 구조화된 데이터로 이루어져 있다면 자동 추출이 가능하지만, 많은 웹 페이지들인 정해진 스카마가 없는 비구조화된 데이터의 형태이다. 이와 같이 비구조화된 데이터의 경우 사용자는 추출하고자 하는 데이터의 스키마를 명시해주어야 한다. 사용자가 명시한 스키마의 데이터를 추출하기 위해서는 추출 규칙이 필요하다.Currently, there are many web information extraction tools, which are classified into automatic extraction tools and manual extraction tools. If a web page consists of data structured according to a given schema, it can be automatically extracted, but many web pages are a form of unstructured data without a defined schema. In the case of such unstructured data, the user must specify the schema of the data to be extracted. Extraction rules are required to extract the data of the schema specified by the user.

오픈 도메인의 웹 페이지로부터 정보를 추출하기 위한 종래의 방법은 대부분 특정 도메인에 종속적인 정보 추출 방법을 사용하고 있기 때문에 다른 도메인으로의 이식이 쉽지 않은 문제가 있다. 선행 특허인 "비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템 및 그 방법"(출원번호 10-2005-0063896)은 도메인 별로 구분된 비정형 데이터를 포함한 비구조 웹 문서로부터 정보 추출 규칙을 학습하며, 이를 이용하여 특정 도메인의 웹 문서에서 주요 정보를 자동으로 추출하기 위한 도메인별 정보추출 방법에 대해 개시하고 있다. 그러나 이는 도메인별 정보를 추출하기 위해 각 도메인에 종속적인 규칙기반 정보추출 방법을 사용하고 있기 때문에 다른 도메인으로의 이식이 쉽지 않다.Most of the conventional methods for extracting information from an open domain web page use a method of extracting information dependent on a specific domain, and thus there is a problem that porting to another domain is not easy. Prior patent, "System and Method for Extracting Domain-Specific Information from Unstructured Web Documents" (Application No. 10-2005-0063896), learns information extraction rules from unstructured web documents containing unstructured data classified by domain. In this paper, a method of extracting information for each domain for automatically extracting key information from a web document of a specific domain is disclosed. However, since it uses rule-based information extraction method that is dependent on each domain to extract information by domain, porting to other domains is not easy.

또한, 선행논문인 "Fine-grained named entity recognition and relation extraction for question answering"(Changki Lee, Yi-Gyu Hwang, Myung-Gil Jang. SIGIR 2007, 799-800)은 도메인 정보추출을 위해서 통계 기반의 개체명 인식을 수행하고 두 개체명간의 관계를 추출하는 방법에 관한 것이다. 그러나 관계추출에 사용되는 관계 태그 등은 도메인에 종속적이기 때문에, 도메인 이식에 많은 비용이 소요되는 문제가 있다. In addition, the preceding paper, "Fine-grained named entity recognition and relation extraction for question answering" (Changki Lee, Yi-Gyu Hwang, Myung-Gil Jang. SIGIR 2007, 799-800), is a statistics-based entity for domain information extraction. A method of performing name recognition and extracting the relationship between two entity names. However, since the relation tag used for extracting a relationship is domain dependent, there is a problem in that the cost of porting the domain is high.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 특정 도메인에 종속하지 않는 정보 추출장치를 제공하는 데 있다.An object of the present invention for solving the above problems is to provide an information extraction apparatus that does not depend on a specific domain.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 특정 도메인에 종속하지 않는 정보 추출방법을 제공하는 데 있다.Another object of the present invention for solving the above problems is to provide an information extraction method that does not depend on a specific domain.

상기 목적을 달성하기 위한 본 발명은, 입력받은 텍스트 문서로부터 문장을 분리하는 문장 분리부, 상기 분리된 문장에 대하여 형태소 분석을 수행하여 상위 N개의 문장을 추출하는 형태소 분석부, 상기 추출된 N개의 문장에 대하여 문장의 어절간의 구문의존 관계를 분석하여 상위 M개의 의존 구문 분석 결과를 생성하는 의존 구문 분석부, 상기 N개의 문장과 상기 M개의 의존 구문 분석결과를 미리 정해진 통계모델을 적용하여 문장 내의 각 용언의 인자의 의미역을 결정하고, 상기 각 용언별로 의미역이 결정된 인자를 취합하여 프레임을 생성하는 의미역 결정부, 상기 생성된 프레임을 미리 정의된 온톨로지 규칙을 적용하여 특정 클래스의 인스턴스로서 할당하고, 상기 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑하는 온톨로지 매핑부를 포함하는 도메인 정보 추출장치를 제공한다.The present invention for achieving the above object, a sentence separator for separating sentences from the input text document, a morphological analysis unit for extracting the top N sentences by performing a morphological analysis on the separated sentences, the extracted N pieces A dependency parsing unit for generating syntax M-dependent syntax analysis results by analyzing syntax dependences between sentences of sentences, and applying the statistical model to the N sentences and the M dependent syntax analysis results by applying a predetermined statistical model. A semantic determining unit for determining a semantic range of the argument of each verb, and collecting a factor whose semantic is determined for each verb to generate a frame, and applying the generated ontology rule as an instance of a specific class. An ontology mapping unit for allocating and mapping the allocated instance to a specific class of a domain ontology It provides a domain information extraction apparatus including.

상기 다른 목적을 달성하기 위한 본 발명은 입력받은 텍스트 문서로부터 문장을 분리하는 단계, 상기 분리된 문장에 대하여 형태소 분석을 수행하여 상위 N개의 문장을 추출하는 단계, 상기 추출된 N개의 문장에 대하여 문장의 어절간의 구문의존 관계를 분석하여 상위 M개의 의존 구문 분석 결과를 생성하는 단계, 상기 N개의 문장과 상기 M개의 의존 구문 분석결과를 미리 정해진 통계모델을 적용하여 문장 내의 각 용언의 인자의 의미역을 결정하는 단계, 상기 각 용언별로 의미역이 결정된 인자를 취합하여 프레임을 구성하는 단계, 상기 구성된 프레임을 미리 정의된 온톨로지 규칙을 적용하여 특정 클래스의 인스턴스로서 할당하는 단계, 상기 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑하는 단계를 포함하는 도메인 정보 추출방법을 제공한다.In accordance with another aspect of the present invention, there is provided a method of separating sentences from an input text document, extracting upper N sentences by performing a morphological analysis on the separated sentences, and extracting sentences from the extracted N sentences. Analyzing the syntax-dependency relations between the phrases and generating the top M dependent syntax analysis results, and applying the statistical model to the N sentences and the M dependent syntax analysis results by applying a predetermined statistical model Determining a symbol, collecting a factor whose semantic is determined for each term, and constructing a frame; allocating the configured frame as an instance of a specific class by applying a predefined ontology rule; assigning the assigned instance to a domain Domain information extraction method comprising the step of mapping to a specific class of ontology The ball.

상기와 같은 본 발명에 따른 도메인 정보 추출 방법 및 장치를 이용할 경우에는 특정 도메인에 종속적이지 않은 의존구문분석 및 의미역 결정 기술을 이용하여 일반적인 정보를 추출하고, 추출된 정보를 일반 온톨로지(general ontology)에 매핑을 하여, 도메인 종속적인 부분을 일반 온톨리지에서 도메인 온톨로지로 매핑하여 도메인 종속적인 부분을 최소화 하여 다른 도메인으로 이식이 쉬운 장점이 있다. In the case of using the method and apparatus for extracting domain information according to the present invention as described above, general information is extracted using dependency syntax analysis and semantic domain determination technology that is not dependent on a specific domain, and the extracted information is general ontology. By mapping to, domain-dependent part is mapped from general ontology to domain ontology to minimize the domain-dependent part, which makes it easy to port to another domain.

도 1은 본 발명의 일 실시예에 따른 도메인 정보 추출장치의 구성을 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 도메인 정보 추출장치를 통해 생성된 프레임의 예를 보여주는 개념도이다.
도 3은 본 발명의 일 실시예에 따른 도메인 온톨로지에 매핑되는 프레임을 예시하는 개념도이다.
도 4는 본 발명의 일 실시예에 따른 도메인 정보 추출방법을 수행하기 위한 과정을 보여주는 순서도이다.
1 is a block diagram showing a configuration of an apparatus for extracting domain information according to an embodiment of the present invention.
2 is a conceptual diagram illustrating an example of a frame generated by the domain information extracting apparatus according to an embodiment of the present invention.
3 is a conceptual diagram illustrating a frame mapped to a domain ontology according to an embodiment of the present invention.
4 is a flowchart illustrating a process for performing a domain information extraction method according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. The terms first, second, A, B, etc. may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be. On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Do not.

이하, 본발명에 따른 바람직한 실시예를 첨부한 도면들을 참조하여 상세하게 설명한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In order to facilitate the understanding of the present invention, the same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

도 1은 본 발명의 일 실시예에 따른 도메인 정보 추출장치의 구성을 보여주는 블록도이다.1 is a block diagram showing a configuration of an apparatus for extracting domain information according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 도메인 정보 추출장치는 문장 분리부(110), 형태소 분석부(120), 의존구문 분석부(130), 의미역 결정부(140) 및 온톨로지 매핑부(150)를 포함하여 구성될 수 있다. Referring to FIG. 1, the apparatus for extracting domain information according to an embodiment of the present invention includes a sentence separator 110, a morpheme analyzer 120, a dependency syntax analyzer 130, a semantic domain determiner 140, and an ontology. It may be configured to include a mapping unit 150.

또한, 도 1을 참조하면 본 발명의 일 실시예에 따른 도메인 정보 추출장치의 구성요소 및 각 구성요소간의 연결관계는 다음과 같이 설명될 수 있다.In addition, referring to FIG. 1, components of a domain information extracting apparatus according to an embodiment of the present invention and connection relations between the components may be described as follows.

문장 분리부(110)는 입력받은 텍스트 문서(160)로부터 문장을 분리하는 부분일 수 있다. 예를 들면, 문장 분리부(110)는 임의의 도메인으로부터 추출한 텍스트 문서(160)를 입력 받아서, 입력 받은 문서 내의 각 문장을 분리하여 분리된 문장을 형태소 분석부(120)로 전달할 수 있다.The sentence separator 110 may be a part for separating a sentence from the received text document 160. For example, the sentence separator 110 may receive a text document 160 extracted from an arbitrary domain, separate each sentence in the input document, and transmit the separated sentence to the morpheme analyzer 120.

형태소 분석부(120)는 문장 분리부(110)에서 전달받은 문장에 대하여 형태소 분석을 수행하여 상위 N개(예를 들면 10개)의 문장을 추출하는 부분일 수 있다. 예를 들면 형태소 분석부(120)는 전달 받은 문장 중에 상위 10개의 형태소 분석된 문장을 추출하여 의존구문 분석부(130)에 전달 할 수 있다.The morpheme analysis unit 120 may be a part for extracting the top N sentences (for example, 10 sentences) by performing a morpheme analysis on the sentences received from the sentence separator 110. For example, the morpheme analysis unit 120 may extract the top 10 morphologically analyzed sentences from the received sentences and transfer the extracted sentence to the dependency syntax analyzer 130.

의존구문 분석부(130)는 형태소 분석부(120)에서 추출한 N개의 문장에 대하여 문장의 어절간의 구문의존 관계를 분석하여 상위 M개의 의존 구문 분석 결과를 생성하는 부분일 수 있다.The dependency syntax analysis unit 130 may be a portion that generates syntax M dependency syntax analysis results by analyzing syntax dependences between the phrases of the sentences with respect to the N sentences extracted by the morpheme analysis unit 120.

즉 의존구문 분석부(130)는 형태소 분석된 N개의 문장에 대하여 의존구문 분석을 수행하여 문장 내 각 어절에 대하여 주어, 목적어, 부사어 여부를 결정하여 트리(tree)형태로 저장할 수 있다. 또한, 의존 구문 분석 결과를 순위화 하여 상위 M개의 의존 구문 분석결과를 생성하여 의미역 결정부(140)에 전달할 수 있다.That is, the dependent syntax analysis unit 130 may perform dependency syntax analysis on the N sentences that have been morphologically analyzed and given to each word in the sentence, and determine whether an object or an adverb is determined and stored in a tree form. In addition, the dependency parsing results may be ranked to generate upper M dependency parsing results, and may be transmitted to the semantic determining unit 140.

의미역 결정부(140)는 형태소 분석부(120)에서 추출한 N개의 문장과 의존구문 분석부(130)에서 생성한 M개의 의존 구문 분석결과를 미리 정해진 통계모델을 적용하여 문장 내의 각 용언의 인자의 의미역을 결정하고, 각 용언별로 의미역이 결정된 인자를 취합하여 프레임을 생성하는 부분일 수 있다.The semantic region determination unit 140 applies a predetermined statistical model to the N sentences extracted by the morpheme analysis unit 120 and the M dependent syntax analysis results generated by the dependency syntax analysis unit 130, thereby applying a factor of each verb in the sentence. Determining the semantic region of the, and may be a part for generating a frame by collecting the factors determined the semantic region for each term.

즉, 의미역 결정부(140)는 형태소 분석된 N개의 문장과 M개의 의존구문 분석결과를 자질(feature)로 사용하여 조건적 임의 필드(Conditional Random Fields,CRF)나 구조적 지원 벡터 머신(Structural Support Vector Machine, Structural SVM) 등의 통계 모델을 이용하여 문장에 나타난 용언의 의미를 결정할 수 있고, 각 용언의 인자(argument)의 의미역(semantic role), 예를 들면, 행위자, 대상, 장소, 이유 등을 결정할 수 있다. That is, the semantic domain determiner 140 uses the morphologically analyzed N sentences and M dependent syntax analysis results as features to conditional random fields (CRF) or structural support vector machines (Structural Support). Statistical models such as Vector Machine and Structural SVM can be used to determine the meaning of a verb in a sentence, and the semantic role of the argument of each verb, for example, actor, object, place, reason And so on.

예를 들면, "철수가 집에서 밥을 먹다"의 의존구문 분석 결과는 <먹다(head), 철수(modifier),주어(의존구문관계)>, <먹다,밥,목적어>, <먹다,집,부사어>가 될 수 있고, 의미역 결정 결과는 <먹다.01("먹다"의 첫번째 의미), 철수(인자), 행위자(의미역)>, <먹다.01,밥,대상>, <먹다.01,집,장소>가 될 수 있다. For example, the result of the dependency syntax analysis of "Cheol eats at home" is <head, withdraw, modifier, dependent syntax>, <eat, rice, object>, <eat, home , Adverb>, and the result of semantic decision is <eat.01 (first meaning of "eat"), withdrawal (argument), actor (meaning)>, <eat.01, rice, object>, <eat .01, home, place>.

또한, 의미역 결정부(140)는 이와 같이 생성한 의미역 결정 결과에 대하여, 각 용언별로 의미역(semantic role)이 결정된 인자(argument)들을 모아서 프레임(frame)을 구성할 수 있다. 이때, 프레임의 이름은 "용언"+"용언의 의미 번호"가 될 수 있고, 프레임의 구성요소(slot) 이름은 의미역이 되고, 프레임의 구성요소 값은 용언의 인자가 되도록 구성될 수 있다.In addition, the semantic domain determination unit 140 may form a frame by collecting arguments for which a semantic role is determined for each term. In this case, the name of the frame may be “words” + “sense numbers of words”, the slot names of the frames may be semantic, and the element values of the frames may be configured to be arguments of the words. .

도 2는 본 발명의 일 실시예에 따른 도메인 정보 추출장치를 통해 생성된 프레임의 예로서, "철수가 집에서 밥을 먹다" 에 대하여 생성된 프레임(200)을 보여준다. 도 2를 참조하면, 프레임 이름은 "먹다.01"(210)이고, 프레임의 각 구성요소의 이름은 행위주(220), 대상(230), 장소(240)가 될 수 있고, 프레임의 구성요소의 값은 각각 "철수"(221), "밥"(231), "집"(241)이 되도록 프레임(200)이 구성될 수 있다.
2 is an example of a frame generated by the domain information extracting apparatus according to an embodiment of the present invention, and shows a frame 200 generated for “he is eating at home”. Referring to FIG. 2, the frame name is “Eat. 01” 210, and the name of each component of the frame may be an actor 220, an object 230, and a place 240. The frame 200 may be configured such that the values of the elements are “retract” 221, “bob” 231, and “house” 241, respectively.

한편, 온톨로지 매핑부(150)는 의미역 결정부(140)에서 생성한 프레임을 미리 정의된 온톨로지(151) 규칙을 적용하여 특정 클래스의 인스턴스로서 할당하고, 할당된 인스턴스를 도메인 온톨로지(152)의 특정 클래스에 매핑하는 부분일 수 있다.Meanwhile, the ontology mapping unit 150 allocates a frame generated by the semantic domain determining unit 140 as an instance of a specific class by applying a predefined ontology 151 rule, and assigns the allocated instance of the domain ontology 152. It may be a part mapping to a specific class.

예를 들면, 도 2의 "먹다.01" 프레임(200)은 미리 정의된 온톨로지(151)의 대응되는 클래스의 인스턴스로 매핑될 수 있다. 예를 들면, 일반 온톨로지(151)의 특정 클래스가 "사건"-->"행위"-->("먹다", "마시다", ...) 로 정의되어 있는 경우, "먹다.01"-->"먹다"라는 규칙을 이용해서 위의 "먹다.01" 프레임(200)이 온톨로지(151)의 "먹다" 클래스의 인스턴스로 매핑될 수 있다.For example, the “eat. 01” frame 200 of FIG. 2 may be mapped to an instance of a corresponding class of the predefined ontology 151. For example, if a particular class of general ontology 151 is defined as "event"-> "behavior"-> ("eat", "drink", ...), "eat.01"- The "eat.01" frame 200 above may be mapped to an instance of the "eat" class of the ontology 151 using the "eat" rule.

또한, 도메인 온톨로지(152)는 특정 도메인 혹은 응용에 맞도록 일반 온톨로지(151)를 수정 또는 축소한 것으로, 규칙을 이용하여 일반 온톨로지 클래스에 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑할 수 있다.In addition, the domain ontology 152 is a modification or reduction of the general ontology 151 for a specific domain or application, and may use an rule to map an instance assigned to the general ontology class to a specific class of the domain ontology.

도 3은 본 발명의 일 실시예에 따른 도메인 온톨로지에 매핑되는 프레임을 예시하는 개념도이다.3 is a conceptual diagram illustrating a frame mapped to a domain ontology according to an embodiment of the present invention.

도 3을 참조하면, "오르다.02" 프레임(300)은 "주가가 50포인트 올랐다"의 의미역 결정 결과로서 생성된 프레임으로, 구성요소는 대상(310), 정도(320)이고, 구성요소의 값은 각각 "주가"(311), "50 포인트"(321)이 될 수 있다. 이 경우 "오르다.02" 프레임(300)은 일반 온톨로지(151)의 "사건"-->"상태"-->"상승" 클래스에 매핑될 수 있고, 도메인 온톨로지(152)의 "주가상승" 클래스에 매핑될 수 있다.
Referring to FIG. 3, the "rising. 02" frame 300 is a frame generated as a result of the semantic determination of "the stock has risen 50 points", and the component is the object 310, the degree 320, and the component. The values of may be "share prices" 311 and "50 points" 321, respectively. In this case, the "rise. 02" frame 300 may be mapped to the "event"->"state"->"rising" class of the general ontology 151, and the "share price rise" of the domain ontology 152. Can be mapped to a class.

도 4는 본 발명의 일 실시예에 따른 도메인 정보 추출방법을 수행하기 위한 과정을 보여주는 순서도이다.4 is a flowchart illustrating a process for performing a domain information extraction method according to an embodiment of the present invention.

도 4를 참조하면, 본 발명의 일 실시예에 따른 도메인 정보 추출방법은 문장 분리단계(S410), 형태소 분석단계(S420), 의존구문 분석단계(S430), 의미역 결정단계(S440) 및 온톨로지 매핑단계(S450)를 포함하여 구성될 수 있다. 4, the domain information extraction method according to an embodiment of the present invention is a sentence separation step (S410), morphological analysis step (S420), dependency syntax analysis step (S430), semantic domain determination step (S440) and ontology It may be configured to include a mapping step (S450).

또한, 도 4를 참조하면 본 발명의 일 실시예에 따른 도메인 정보 추출방법의 각 단계는 다음과 같이 설명될 수 있다.In addition, referring to Figure 4, each step of the domain information extraction method according to an embodiment of the present invention can be described as follows.

문장 분리단계(S410)는 텍스트 문서를 입력 받아서, 입력 받은 문서 내의 각 문장을 분리하는 단계일 수 있다.The sentence separating step S410 may be a step of receiving a text document and separating each sentence in the received document.

형태소 분석단계(S420)는 문장 분리단계(S410)에서 분리된 문장에 대하여 형태소 분석을 수행하여 상위 N개의 문장을 추출하는 단계일 수 있다. 예를 들면 문장 분리단계(S410)에서 분리된 문장 중에 상위 10개의 형태소 분석된 문장이 추출될 수 있다.The morpheme analysis step S420 may be a step of extracting the top N sentences by performing a morpheme analysis on the sentences separated in the sentence separation step S410. For example, among the sentences separated in the sentence separation step S410, the top ten stemmed sentences may be extracted.

의존구문 분석단계(S430)는 형태소 분석단계(S420)에서 추출된 N개의 문장에 대하여 문장의 어절간의 구문의존 관계를 분석하여 상위 M개의 의존 구문 분석 결과가 생성되는 단계일 수 있다.The dependency syntax analysis step S430 may be a step of analyzing the syntax-dependence relationship between the phrases of the sentences with respect to the N sentences extracted in the morphological analysis step S420 to generate the upper M dependent syntax analysis results.

즉, 형태소 분석된 N개의 문장에 대하여 의존구문 분석이 수행되어 문장 내 각 어절에 대하여 주어, 목적어, 부사어 여부를 결정될 수 있으며, 그 결과는 트리(tree)형태로 저장될 수 있다. 또한, 의존 구문 분석 결과는 순위화되어 상위 M개의 의존 구문 분석결과가 생성될 수 있다.That is, the dependent syntax analysis is performed on the N sentences that have been morphologically analyzed, and given to each word in the sentence, whether the object or the adverb is determined, and the result may be stored in the form of a tree. Also, the dependency parsing result may be ranked to generate the top M dependency parsing results.

의미역 결정단계(S440)는 형태소 분석단계(S420)에서 추출된 N개의 문장과 의존구문 분석단계(S430)에서 생성된 M개의 의존 구문 분석결과를 미리 정해진 통계모델을 적용하여 문장 내의 각 용언의 인자의 의미역을 결정하고, 각 용언별로 의미역이 결정된 인자를 취합하여 프레임을 생성하는 단계일 수 있다In the semantic domain determination step (S440), the N sentences extracted in the morphological analysis step (S420) and the M dependent syntax analysis results generated in the dependency syntax analysis step (S430) are applied to each verb in the sentence by applying a predetermined statistical model. Determining the semantic range of the argument, it may be a step of generating a frame by collecting the factors whose semantic range is determined for each term

즉 형태소 분석된 N개의 문장과 M개의 의존구문 분석결과가 자질(feature)로 사용되어 조건적 임의 필드(Conditional Random Fields,CRF)나 구조적 지원 벡터 머신(Structural Support Vector Machine, Structural SVM) 등의 통계 모델이 적용되어, 문장에 나타난 용언의 의미가 결정될 수 있으며, 각 용언의 인자(argument)의 의미역(semantic role), 예를 들면, 행위자, 대상, 장소, 이유 등이 결정될 수 있다. In other words, the results of the analysis of N stems and M dependent syntax analysis are used as features, and statistics such as Conditional Random Fields (CRF) or Structural Support Vector Machines (Structural SVM) The model may be applied to determine the meaning of a verb in a sentence, and a semantic role of an argument of each verb, for example, an actor, an object, a place, a reason, and the like.

또한, 이와 같이 생성한 의미역 결정 결과에 대하여, 각 용언별로 의미역(semantic role)이 결정된 인자(argument)들을 모아서 프레임(frame)이 구성될 수 있다. 이때, 프레임의 이름은 "용언"+"용언의 의미 번호"가 될 수 있고, 프레임의 구성요소(slot) 이름은 의미역이 되고, 프레임의 구성요소 값은 용언의 인자가 되도록 구성될 수 있다.In addition, with respect to the semantic domain determination result generated as described above, a frame may be configured by collecting arguments in which a semantic role is determined for each term. In this case, the name of the frame may be “words” + “sense numbers of words”, the slot names of the frames may be semantic, and the element values of the frames may be configured to be arguments of the words. .

온톨로지 매핑단계(S450)는 의미역 결정단계(S440)에서 생성한 프레임을 미리 정의된 일반 온톨로지 규칙을 적용하여 특정 클래스의 인스턴스로서 할당하고, 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑하는 부분일 수 있다.The ontology mapping step (S450) is a part of assigning the frame generated in the semantic decision step (S440) as an instance of a specific class by applying a predefined general ontology rule, and mapping the assigned instance to a specific class of the domain ontology. Can be.

예를 들면, 도 2의 "먹다.01" 프레임(200)은 미리 정의된 일반 온톨로지의 대응되는 클래스의 인스턴스로 매핑될 수 있다. 또한 예를 들면, 일반 온톨로지의 특정 클래스가 "사건"-->"행위"-->("먹다", "마시다", ...) 로 정의되어 있는 경우, "먹다.01"-->"먹다"라는 규칙을 이용해서 도 2의 "먹다.01" 프레임(200)이 일반 온톨로지의 "먹다" 클래스의 인스턴스로 매핑될 수 있다.For example, the “eat. 01” frame 200 of FIG. 2 may be mapped to an instance of a corresponding class of a predefined generic ontology. Also, for example, if a particular class of generic ontology is defined as "event"-> "behavior"-> ("eat", "drink", ...), "eat.01"-> The “eat. 01” frame 200 of FIG. 2 may be mapped to an instance of the “eat” class of a generic ontology using the “eat” rule.

한편, 도메인 온톨로지는 특정 도메인 혹은 응용에 맞도록 일반 온톨로지)를 수정 또는 축소한 것으로, 규칙을 이용하여 일반 온톨로지 클래스에 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑할 수 있다.
On the other hand, the domain ontology is a modification or reduction of the general ontology for a specific domain or application, and an instance assigned to the general ontology class can be mapped to a specific class of the domain ontology using a rule.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the present invention as defined by the following claims It can be understood that

Claims (1)

입력 받은 특정 도메인 내 텍스트 문서로부터 문장을 분리하는 문장 분리부;
상기 분리된 문장에 대하여 형태소 분석을 수행하여 상위 N개의 문장을 추출하는 형태소 분석부;
상기 추출된 N개의 문장에 대하여 문장의 어절간의 구문의존 관계를 분석하여 상위 M개의 의존 구문 분석 결과를 생성하는 의존 구문 분석부;
상기 N개의 문장과 상기 M개의 의존 구문 분석결과를 미리 정해진 통계모델을 적용하여 문장 내의 각 용언의 인자의 의미역을 결정하고, 상기 각 용언별로 의미역이 결정된 인자를 취합하여 프레임을 생성하는 의미역 결정부; 및
상기 생성된 프레임을 미리 정의된 온톨로지 규칙을 적용하여 특정 클래스의 인스턴스로서 할당하고, 상기 할당된 인스턴스를 도메인 온톨로지의 특정 클래스에 매핑하는 온톨로지 매핑부를 포함하는 도메인 정보 추출장치.
A sentence separator for separating a sentence from a text document in a specific domain received;
A morpheme analysis unit configured to extract a top N sentences by performing a morpheme analysis on the separated sentences;
A dependency syntax analysis unit configured to analyze syntax dependences between the sentences of the extracted N sentences and generate upper M dependent syntax analysis results;
Meaning of determining the semantic range of the factor of each word in a sentence by applying a predetermined statistical model to the N sentences and the M dependent syntax analysis results, and generating a frame by collecting the factors whose semantic range is determined for each of the words. Inverse determining unit; And
And an ontology mapping unit configured to allocate the generated frame as an instance of a specific class by applying a predefined ontology rule and to map the allocated instance to a specific class of a domain ontology.
KR1020120020742A 2012-02-29 2012-02-29 Apparatus for extracting information from open domains and method for the same Withdrawn KR20130099327A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120020742A KR20130099327A (en) 2012-02-29 2012-02-29 Apparatus for extracting information from open domains and method for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120020742A KR20130099327A (en) 2012-02-29 2012-02-29 Apparatus for extracting information from open domains and method for the same

Publications (1)

Publication Number Publication Date
KR20130099327A true KR20130099327A (en) 2013-09-06

Family

ID=49450653

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120020742A Withdrawn KR20130099327A (en) 2012-02-29 2012-02-29 Apparatus for extracting information from open domains and method for the same

Country Status (1)

Country Link
KR (1) KR20130099327A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160018588A (en) * 2014-01-09 2016-02-17 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 Construction method and device for event repository
KR20160060821A (en) * 2014-11-20 2016-05-31 한국전자통신연구원 Question answering system and method for structured knowledge-base using deep natrural language question analysis
KR101646159B1 (en) * 2015-04-23 2016-08-05 한림대학교 산학협력단 The method and apparatus for analyzing sentence based on semantic role labeling
CN111985232A (en) * 2020-08-10 2020-11-24 南京航空航天大学 Domain Model Extraction Method for Airborne Display and Control System Requirements Based on NLP
CN113330430A (en) * 2019-01-31 2021-08-31 三菱电机株式会社 Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160018588A (en) * 2014-01-09 2016-02-17 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 Construction method and device for event repository
US10282664B2 (en) 2014-01-09 2019-05-07 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for constructing event knowledge base
KR20160060821A (en) * 2014-11-20 2016-05-31 한국전자통신연구원 Question answering system and method for structured knowledge-base using deep natrural language question analysis
KR101646159B1 (en) * 2015-04-23 2016-08-05 한림대학교 산학협력단 The method and apparatus for analyzing sentence based on semantic role labeling
CN113330430A (en) * 2019-01-31 2021-08-31 三菱电机株式会社 Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program
CN113330430B (en) * 2019-01-31 2024-01-09 三菱电机株式会社 Sentence structure vectorization device, sentence structure vectorization method, and recording medium containing sentence structure vectorization program
CN111985232A (en) * 2020-08-10 2020-11-24 南京航空航天大学 Domain Model Extraction Method for Airborne Display and Control System Requirements Based on NLP
CN111985232B (en) * 2020-08-10 2024-04-19 南京航空航天大学 NLP-based field model extraction method for requirements of onboard display control system

Similar Documents

Publication Publication Date Title
Dunietz et al. A new entity salience task with millions of training examples
US7269544B2 (en) System and method for identifying special word usage in a document
KR101107760B1 (en) Intelligent Q &amp; A Search System and Method
US10839155B2 (en) Text analysis of morphemes by syntax dependency relationship with determination rules
Shinde et al. Nlp based object oriented analysis and design from requirement specification
CN101114281A (en) Open document isomorphism engine system
JP6217468B2 (en) Multilingual document classification program and information processing apparatus
JP6409071B2 (en) Sentence sorting method and calculator
KR20130099327A (en) Apparatus for extracting information from open domains and method for the same
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
Parameswarappa et al. Kannada word sense disambiguation using decision list
Kabakus et al. TwitterSentiDetector: a domain-independent Twitter sentiment analyser
JPWO2016035273A1 (en) TEXT PROCESSING SYSTEM, TEXT PROCESSING METHOD, AND STORAGE MEDIUM CONTAINING COMPUTER PROGRAM
Khalil et al. Extracting Arabic composite names using genitive principles of Arabic grammar
CN111078947B (en) XML-based domain element extraction configuration language system
KR101802051B1 (en) Method and system for constructing schema on natural language processing and knowledge database thereof
Andrews et al. Sense induction in folksonomies: a review
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview
Uddin et al. Information and relation extraction for semantic annotation of ebook texts
CN114970543A (en) A Semantic Analysis Method for Crowdsourcing Design Resources
Declerck et al. Cross-linking Austrian dialectal Dictionaries through formalized Meanings
Da Costa et al. Mapping and generating classifiers using an open chinese ontology
Hanumanthappa et al. A detailed study on Indian languages text mining
Salaiwarakul Thai natural language based cultural tourism ontology
JP2004318344A (en) System and method for machine translation and computer program

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20120229

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid