KR101739766B1 - Apparatus and Method for similarity based keyword mapping in Semantic Search - Google Patents
Apparatus and Method for similarity based keyword mapping in Semantic Search Download PDFInfo
- Publication number
- KR101739766B1 KR101739766B1 KR1020130130317A KR20130130317A KR101739766B1 KR 101739766 B1 KR101739766 B1 KR 101739766B1 KR 1020130130317 A KR1020130130317 A KR 1020130130317A KR 20130130317 A KR20130130317 A KR 20130130317A KR 101739766 B1 KR101739766 B1 KR 101739766B1
- Authority
- KR
- South Korea
- Prior art keywords
- mapping
- term
- search
- keyword
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 시맨틱 검색에서 유사도 기반 키워드 매핑 방법으로, 지식 베이스로부터 검색 키워드에 매핑되는 지식 베이스 개체를 검색하는 1차 용어 매핑을 수행하는 단계와, 상기 매핑 수행 결과 따라, 매핑에 실패한 용어와 유사한 용어를 탐색하는 단계와, 상기 탐색된 유사한 용어로 2차 용어 매핑을 수행하는 단계를 포함함한다.According to the present invention, there is provided a similarity-based keyword mapping method in semantic search, comprising: performing a first term mapping for searching a knowledge base object mapped to a search keyword from a knowledge base; , And performing a secondary term mapping with the searched similar term.
Description
본 발명은 지식 검색 기술에 관한 것으로, 특히 사용자로부터 입력되는 검색 키워드를 지식 개체로 매핑하기 위한 장치 및 방법에 관한 것이다.
The present invention relates to a knowledge search technique, and more particularly, to an apparatus and a method for mapping a search keyword input from a user into a knowledge entity.
스마트폰, 스마트 TV 등과 같이 개인 스마트 디바이스가 다양화됨에 따라, 사용자들은 이러한 다양한 장치를 이용하여 정보 검색을 수행할 수 있게 되었다. 이러한 스마트 장치를 활용한 정보검색에서는 기존 PC 기반의 정보검색과 다른 형태의 요구사항이 제시되고 있다. With the diversification of personal smart devices such as smart phones and smart TVs, users can perform information searches using these various devices. In the information retrieval using the smart device, different types of requirements are presented as compared with the conventional PC based information retrieval.
첫째, 스마트폰, 스마트 TV에서는 기존 PC에서 제공되는 키보드와 같은 사용이 편리한 입력 장치가 제공되지 않으므로, 단순한 몇 개의 키워드를 이용하여도 높은 정확률를 가지는 검색 결과가 제공될 수 있어야 한다. First, since smartphones and smart TVs do not provide a user-friendly input device such as a keyboard provided in a conventional PC, it is necessary to provide search results with high accuracy even with a few simple keywords.
두 번째, 스마트폰, 스마트 TV에서는 기존 PC에서와 같은 높은 해상도가 제공되지 않으므로, 수많은 검색 결과를 디스플레이하기 어렵다. 또한, 사용자가 수많은 검색 결과를 직접 탐색하여 원하는 검색 결과를 찾기 어렵다. Second, smartphones and smart TVs do not provide the same high resolution as conventional PCs, so it is difficult to display numerous search results. In addition, it is difficult for a user to search a large number of search results directly to find desired search results.
따라서, 재현율 위주의 키워드 기반 검색보다 정확률 위주의 시맨틱 검색과 같은 다른 형태의 정보검색 기술을 요구되고 있다.Therefore, another type of information retrieval technology such as semantic retrieval based on accuracy is required rather than keyword based retrieval based on recall rate.
정보 검색의 대표적인 형태인 웹 검색 엔진은 키워드 기반 검색 기법을 기반으로 하고 있다. 키워드 기반 검색 기법은 웹상의 문서들을 수집하여, 수집된 문서에서 출현 빈도가 높은 단어들을 인덱싱하고, 사용자가 입력한 키워드와 일치하는 단어를 많이 포함하고 있는 문서의 위치를 찾아주는 방식이다. Web search engine, which is a typical form of information retrieval, is based on keyword based retrieval. The keyword-based retrieval method collects documents on the web, indexes frequently occurring words in the collected documents, and finds the location of a document containing a large number of words matching the keyword entered by the user.
그런데, 이러한 형태의 정보 검색 시스템은 사용자가 입력한 키워드의 의미(semantic)는 고려하지 않고, 사용자가 입력한 키워드와 동일한 키워드를 포함하는 문서만을 찾아주는 방식이다. 따라서, 이러한 방식에서는 키워드를 포함하는 문서를 빠짐없이 찾아주는 재현율(recall rate)는 높지만, 사용자가 입력한 키워드와 정확히 의미가 일치하는 문서를 찾아주는 정확률(precision rate)는 저하될 수밖에 없다. However, this type of information retrieval system finds only a document containing the same keyword as the keyword inputted by the user without considering the semantic of the keyword inputted by the user. Therefore, in this method, although the recall rate for retrieving a document including a keyword is high, the precision rate for retrieving a document having exactly the same meaning as the keyword inputted by the user is inevitably lowered.
따라서, 이러한 문제점을 해결하기 위해 의미 기반 검색인 시맨틱 검색(semantic search) 기술이 등장하게 되었다. 이는 지식 베이스를 기반으로 의미를 해석하고 검색 결과를 생성하기 때문에, 사용자가 원하는 정확한 검색 결과를 제공할 수 있게 된다. Therefore, in order to solve such a problem, a semantic search technique which is a semantic-based search has appeared. This interprets the meaning based on the knowledge base and generates the search result, so that the user can provide an accurate search result desired by the user.
이러한 시맨틱 검색은 정확한 검색 결과 제공을 위해 용어 매핑(Term Mapping)과 질의 그래프 생성(Query Graph Construction) 과정을 거치게 된다. 용어 매핑은 지식 베이스로부터 사용자가 입력한 검색 키워드와 매핑되는 개체를 찾는 과정이다. 질의 그래프 생성은 용어 매핑 과정을 통해 획득된 지식 베이스 개체를 서로 연결하는 그래프를 탐색하는 과정이다. This semantic search is performed through terminology mapping (Term Mapping) and query graph construction (Query Graph Construction) to provide accurate search results. The term mapping is a process of searching an object mapped to a search keyword input by a user from a knowledge base. Query graph generation is a process of searching a graph connecting knowledge base objects acquired through the term mapping process.
그런데, 용어 매핑이 하나라도 실패하면 사용자가 원하는 정확한 검색 결과가 생성될 수 없게 된다. 즉, 띄어쓰기, 오타, 외래어 표기 등의 사용자 입력 오류에 의한 검색 키워드와 지식 베이스에 등록되지 않은 유의어 형태의 검색 키워드는 의미해석이 불가능하다. However, if any one of the term mapping fails, accurate search results desired by the user can not be generated. That is, the search keywords based on user input errors such as spacing, typos, and foreign words, and the search keywords in the form of synonyms not registered in the knowledge base can not be analyzed semantically.
시맨틱 검색에서 띄어쓰기, 오타, 외래어 표기 등 사용자 입력 오류에 따른 검색 키워드나 지식 베이스에 등록되지 않은 검색 키워는 지식 베이스 개체에 정확히 매핑되지 않아 검색 결과의 품질이 저하된다.
In the semantic search, search keywords that are not registered in the knowledge base due to user input errors such as spacing, typo, and foreign language marking are not correctly mapped to knowledge base entities, thereby degrading the quality of the search results.
본 발명은 띄어쓰기, 오타, 외래어 표기 등 사용자 입력 오류에 따른 검색 키워드 및 지식 베이스에 등록되지 않은 검색 키워드에 대해 유사도를 기반으로 키워드를 매핑하는 장치 및 방법에 관한 것이다.
The present invention relates to an apparatus and a method for mapping a keyword based on a similarity to a search keyword that is not registered in a knowledge base, and a search keyword based on a user input error such as spacing, typo, and foreign word.
본 발명은 시맨틱 검색에서 유사도 기반 키워드 매핑 방법으로, 지식 베이스로부터 검색 키워드에 매핑되는 지식 베이스 개체를 검색하는 1차 용어 매핑을 수행하는 단계와, 상기 매핑 수행 결과 따라, 매핑 실패한 용어와 유사한 용어를 검색하는 단계와, 상기 검색된 유사한 용어로 2차 용어 매핑을 수행하는 단계를 포함함한다.According to the present invention, there is provided a similarity-based keyword mapping method in semantic search, comprising: performing a first term mapping for searching a knowledge base object mapped to a search keyword from a knowledge base; And performing a secondary term mapping with the retrieved similar term.
본 발명은 시맨틱 검색에서 유사도 기반 키워드 매핑 장치로, 지식 베이스로부터 검색 키워드에 매핑되는 지식 베이스 개체를 검색하는 용어 매핑부와, 상기 용어 매핑부의 요청에 따라, 매핑 실패한 용어와 유사한 용어를 검색하여 반환하는 유사도 기반 검색부를 포함하되, 상기 용어 매핑부는 반환된 유사한 용어로 용어 매핑을 재수행한다.The present invention relates to a similarity-based keyword mapping apparatus in semantic search, comprising: a term mapping unit for searching a knowledge base object mapped to a search keyword from a knowledge base; And the term mapping unit re-executes the term mapping with a similar term that is returned.
본 발명에 따라, 띄어쓰기 오류, 오타 및 외래어 표기 오류로 인한 검색 결과 품질 저하를 방지할 수 있다. According to the present invention, it is possible to prevent deterioration in search result quality due to spacing errors, typographical errors, and foreign language marking errors.
또한, 유의어 탐색을 통해 키워드 매핑을 확장함으로써 다수 사용자의 다양한 검색 키워드를 수용할 수 있다. Also, it is possible to accommodate various search keywords of a plurality of users by expanding the keyword mapping through searching for synonyms.
또한, 오타, 외래어 표기, 유의어 처리를 위한 근접어/유의어 테이블은 지식 베이스에 종속적이기 때문에, 이미 구축된 지식 베이스를 이용하여 손쉽게 근접어/유의어 테이블 구축이 가능하다.In addition, since the near-word / thesaurus table for typing, foreign-word representation, and thesaurus processing is dependent on a knowledge base, it is possible to easily construct a close-proximity / thesaurus table using a knowledge base already established.
또한, 띄어쓰기, 오타, 외래어 표기, 유의어 처리와 같은 기능을 시맨틱 검색 도메인에서 적용함으로써 시맨틱 검색의 상용화를 가속화할 수 있다.
In addition, semantic search can be commercialized by applying functions such as spacing, typing, foreign word marking, and thesaurus processing in the semantic search domain.
도 1은 일반적인 시맨틱 검색 키워드 매핑 장치의 구조도이다.
도 2는 본 발명의 일 실시 예에 따른 시맨틱 검색에서 유사도 기반 키워드 매핑 장치의 구성도이다.
도 3은 본 발명의 일 실시 예에 따른 시맨틱 검색에서 유사도 기반 키워드 매핑 방법을 설명하기 위한 순서도이다. 1 is a structural diagram of a general semantic search keyword mapping apparatus.
2 is a block diagram of a similarity-based keyword mapping apparatus in a semantic search according to an embodiment of the present invention.
3 is a flowchart illustrating a method of mapping similarity-based keywords in semantic search according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시 예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시 예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.
명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시 예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 발명의 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
The terms used throughout the specification are defined in consideration of the functions in the embodiments of the present invention and can be sufficiently modified according to the intentions and customs of the user or the operator. It should be based on the contents of.
도 1은 일반적인 시맨틱 검색 키워드 매핑 장치의 구조도이다.1 is a structural diagram of a general semantic search keyword mapping apparatus.
도 1을 참조하면, 검색 클라이언트(10)로부터 사용자 검색 키워드가 입력되면, 의미 해석기(100)의 용어 매핑부(Term Mapper)(110)가 지식 베이스(130)로부터 검색 키워드에 매핑되는 지식 베이스 개체를 탐색한다. 그러면, 질의 그래프 구성부(Query Graph Constructor)(120)는 용어 매핑 결과인 지식 개체로 구성된 질의 그래프를 구성하여 의미해석 결과로 제공한다. Referring to FIG. 1, when a user search keyword is input from a
그런데, 이러한 시맨틱 검색은 사용자가 지식 베이스에 포함된 개체 레이블을 정확히 알고, 개체 레이블과 일치하는 검색 키워드를 오류없이 입력한다는 것을 전제로 한다. 그러나, 일반 사용자는 지식 베이스의 구조 및 지식 베이스에 등록된 개체의 레이블을 정확히 알 수 없다. 따라서, 사용자는 띄어쓰기, 외래어 표기, 오타를 포함하는 부정확한 검색 키워드를 입력할 수 있으며, 지식 베이스에 등록되어 있지 않은 검색 키워드를 입력할 수도 있다. 이처럼 다수 사용자에 의해 입력되는 다양한 검색 키워드에 대응하여 정확한 검색 결과를 제공하기 위해서, 오타, 외래어, 유의어를 처리할 수 있는 키워드 매핑 방법이 필요하다.However, this semantic search assumes that the user correctly knows the object label included in the knowledge base and inputs the search keyword matching the object label without error. However, the general user can not accurately know the label of the object registered in the knowledge base structure and knowledge base. Therefore, the user can input an incorrect search keyword including spacing, foreign word marking, and typing, and input a search keyword that is not registered in the knowledge base. In order to provide accurate search results in response to various search keywords input by a plurality of users, a keyword mapping method capable of processing typo, foreign words, and thesaurus is needed.
일 예로, 사용자가 '유승범 출연 엑션 영화'라고 검색 키워드를 입력할 경우, 용어 매핑부(110)는 '유승범 출연 엑액션 영화'에 매핑되는 개체를 지식 베이스(130)에서 검색하게 된다. 그런데, 지식 베이스(130) 내에 등록된 개체의 레이블이 '류승범', '액션영화'로 등록되어 있다면, 검색 키워드에 매핑되는 개체는 검색될 수 없다. For example, when a user inputs a search keyword 'action movie with a prize', the
다른 예로, 사용자가 '공포 영화'를 검색하기 위해, '호러 영화', '무서운 영화'라는 검색 키워드를 입력하면, 마찬가지로 키워드 매핑 실패로 검색 결과가 제공될 수 없게 된다. 이는 지식 베이스 내에 '공포' 로 레이블된 개체가 등록되어 있을 뿐, 유사한 의미를 가지는 '호러', '무서운'으로 레이블된 개체가 등록되어 있지 않기 때문이다. As another example, if a user inputs a search keyword such as 'horror movie' or 'scary movie' to search for 'horror movie', the search result can not be provided due to the failure of keyword mapping. This is because the object labeled 'Fear' is registered in the knowledge base, but the object labeled 'Horror' or 'Scary' having similar meaning is not registered.
따라서, 본 발명은 이와 같이 오타, 외래어 및 유의어에 대한 처리가 가능한 키워드 매핑 장치 및 방법을 제공한다.Accordingly, the present invention provides a keyword mapping apparatus and method capable of processing the misspelled words, foreign words, and synonyms.
도 2는 본 발명의 일 실시 예에 따른 시맨틱 검색에서 유사도 기반 키워드 매핑 장치의 구성도이다.2 is a block diagram of a similarity-based keyword mapping apparatus in a semantic search according to an embodiment of the present invention.
도 2를 참조하면, 도 1에 도시된 키워드 매핑 장치와 비교하여, 자동 띄어쓰기부(210) 및 유사도 기반 매핑부(230)가 더 포함된다. 부가적으로, 형태로 사전 DB(215), 근접어 테이블(240) 및 유의어 테이블(250)이 더 포함된다.Referring to FIG. 2, the automatic mapping unit 210 and the similarity-based
자동 띄어쓰기부(210)는 사용자가 입력한 검색 키워드를 자동으로 띄어쓰기 해준다. 이때, 형태소 분석을 기반으로 띄어쓰기를 결정하되, 기본적인 띄어쓰기 외에 복합명사에 대한 띄어쓰기는 사전에 형태소 사전 DB(215)에 해당 단어를 추가함으로써 띄어쓰기를 할지에 대한 여부가 조정될 수 있다. 예컨대, '부당거래'가 검색어로 입력될 경우, 기본적으로 '부당 거래'라고 띄어쓰기되어야 하나, 예외적으로 '영화명'을 고려하여 '부당거래'로 띄어쓰기되도록하기 위해, 형태소 사전 DB(215)에 '부당거래'라는 단어가 추가될 수 있다. 이러한 자동 띄어쓰기부(210)는 사용자 검색 키워드가 입력됨에 따라, 가장 먼저 구동된다.The automatic spacing unit 210 automatically spaces the search keyword inputted by the user. At this time, the spacing is determined based on the morphological analysis. In addition to the basic spacing, spacing of complex nouns can be adjusted by adding the corresponding word to the
유사도 기반 매핑부(230)는 용어 매핑부(221)가 용어 매핑에 실패할 경우, 사용자 검색 키워드와 유사한 근접어를 검색하여 용어 매핑부(221)에 반환한다. 유사도 기반 매핑부(230)는 상세하게는 근접어 매핑부(231) 및 유의어 매핑부(232)로 구성된다. If the
근접어 매핑부(231)는 오타 및 외래어 표기 오류를 처리하기 위해, 사용자가 입력한 검색 키워드에 가장 근접한 단어를 검색한다. 일 실시 예로, 근접어 매핑부(231)는 근접어 테이블(240)로부터 검색 키워드와 동일한 길이를 갖는 모든 용어들을 추출하고, 추출된 용어들 중 편집 거리(edit distance)가 가장 작은 값을 갖는 용어를 반환한다.The
여기서, 편집 거리(edit distance)라 함은 검색 키워드와 추출된 모든 용어들 사이에 삽입(insert), 삭제(delete), 변환(replace) 등의 편집 동작(edit operation)이 발생하면, 거리(distance)를 1 만큼 부여해 나가는 것을 재귀적으로 수행하여 최소의 편집 동작(edit operation)이 발생한 경우를 두 문자열의 편집 거리(edit distance)라고 정의하며, 편집 거리가 클수록 두 문자열의 유사성은 떨어지게 된다. Here, the edit distance is defined as a distance between a search keyword and all extracted terms when an edit operation such as insert, delete, or replace occurs, ) Is defined as 1, and when a minimum edit operation occurs, it is defined as an edit distance of two strings. As the edit distance increases, the similarity of the two strings decreases.
유의어 매핑부(232)는 사용자가 입력한 검색 키워드와 가장 유사한 의미를 갖는 용어를 검색해낸다. 유의어 매핑부(232)는 도 2에 도시된 유의어 테이블(250)에서 값(value)에 일치하는 용어가 존재할 경우, 그 용어의 키(key)를 검출하여 반환한다.The
유사도 기반 매핑부(230)를 통해 사용자 입력한 키워드의 근접어와 유의어를 찾기 위해서는 근접어 테이블(240)과 유의어 테이블(250)이 미리 구축되어 있어야 한다. The proximity table 240 and the synonym table 250 must be constructed in advance in order to search for synonyms and synonyms of user-entered keywords through the similarity-based
근접어 테이블(240)은 오타 및 외래어 표기 오류 처리에 사용되는 테이블로, 사용자가 입력한 검색 키워드에 가장 근접한 용어(근접어)을 찾을 때 사용된다. 근접어 테이블(240)은 기본적으로 지식 베이스(223)에 등록되는 모든 개체(Class, ObjectProperty, DatatypeProperty, Instance)의 레이블이 등록된다. 또한, 유의어 테이블(250)에 구축되는 유의어들도 근접어 테이블(240)에 등록되며, 유의어를 근접어 테이블(240)에 등록하는 이유는 유의어 입력에도 오타 및 외래어 표기 오류가 존재할 수 있기 때문이다.The proximity word table 240 is a table used for error processing of typographical and foreign language notation, and is used when a term (nearest word) closest to a search keyword inputted by a user is found. The proximity table 240 basically registers the labels of all the objects (Class, ObjectProperty, DatatypeProperty, Instance) registered in the
유의어 테이블(250)은 지식 베이스(223)에 존재하는 Class, ObjectProperty, DatatypeProeprty의 레이블과의 유의어가 존재하는 경우, 레이블이 키(key)로 지정되고, 레이블의 하나 이상의 유의어가 값(value)으로 등록된다. 도 2에 도시된 바와 같이, 하나의 키(key)에는 다수의 값(value)이 등록될 수 있다.If there is a synonym with a label of Class, ObjectProperty, or DatatypeProperty existing in
근접어 테이블(240)과 유의어 테이블(250)은 지식 베이스(223)의 스키마나 인스턴스가 추가됨에 따라 업데이트 가능한 구조로 구축되어야 한다. The proximity table 240 and the synonym table 250 should be constructed in an updatable structure as the schema or instance of the
용어 매핑부(221)는 띄어쓰기가 완료된 검색 키워드를 단어 단위로 용어 매핑을 수행한다. 이때, 용어 매핑이 성공하지 않았을 경우, 유사도 기반 매핑부(230)로 매핑이 실패한 용어의 유사도 기반 용어 검색을 요청한다. The
일 실시 예에 따라, 전술한 근접어 매핑부(231)에 의해 검색된 근접어가 반환되면, 용어 매핑부(221)는 근접어 탐색 수행을 통해 검색된 근접어로 매핑 실패했던 키워드를 교체하고, 2차 매핑을 수행한다. 그런데, 2차 매핑이 성공하지 않았을 경우, 유의어 탐색부(221)에 유의어 탐색을 요청한다. 용어 매핑부(221)는 유의어 탐색을 통해 매핑이 안된 키워드를 교체하고, 다시 3차 매핑을 수행한다. 그리고, 용어 매핑부(221)는 용어들의 매핑이 완료되지 않는 경우, 사용자 검색 키워드에 매핑되는 지식 베이스 개체가 존재하지 않는 것을 의미하며, 매핑이 완료되지 않을 경우라 할지라도 매핑을 종료한다. 여기서는, 1차로 근접어 탐색을 먼저 수행하고, 2차로 유의어 탐색을 수행하는 것으로 개시되어 있으나, 이는 본 발명의 일 실시 예일 뿐, 본 발명은 이에 한정되지 않는다. 즉, 검색 순서는 반대가 될 수도 있고, 한번에 수행될 수도 있다.According to one embodiment, when the proximity word searched for by the
질의 그래프 구성부(222)는 용어 매핑 결과인 지식 개체로 구성된 질의 그래프를 구성하여 의미해석 결과로 제공한다. 이는 잘 알려진 내용이므로 여기서는 상세한 설명을 생략하기로 한다.The query
도 3은 본 발명의 일 실시 예에 따른 시맨틱 검색에서 유사도 기반 키워드 매핑 방법을 설명하기 위한 순서도이다. 여기서, 설명의 편의를 위해 사용자가 '류승환 연출 호러영화'라는 검색 키워드를 입력하였을 경우의 예를 들어 함께 설명하기로 한다.3 is a flowchart illustrating a method of mapping similarity-based keywords in semantic search according to an embodiment of the present invention. Here, for convenience of explanation, an example in which the user inputs a search keyword 'Ryu Seung-hwan's produced horror movie' will be described together.
도 3을 참조하면, 자동 띄어쓰기부(210)는 사용자 검색 키워드가 입력되면, S310에서 우선 자동 띄어쓰기를 수행한다. 예컨대, '류승환 연출 호러영화'라는 검색 키워드를 '류승환 연출 호러 영화'로 띄어쓰기를 수행한다. Referring to FIG. 3, when the user search keyword is input, the automatic spacing unit 210 performs automatic spacing in S310. For example, 'Ryu Seung-hwan directing horror film' is performed with the search keyword 'Ryu Seung-hwan directing horror movie'.
그런 후, 용어 매핑부(221)는 띄어쓰기가 완료된 검색 키워드를 S320에서 단어 단위로 용어 매핑을 수행하고, S330에서 모든 용어들에 대해 매핑이 성공하였는지를 판단한다. 예컨대, 띄어쓰기가 완료된 '류승환 연출 호러 영화'라는 키워드를 1차 용어 매핑하면, '류승환'과 '호러'가 용어 매핑에 실패할 것이다. 이는 사용자의 오타와 외래어 표기 오류로 지식 베이스의 개체로 등록된 레이블에 '류승환'과 '호러'가 존재하지 않기 때문이다. Then, the
S330의 판단 결과 모든 용어들에 대해 매핑이 성공하였을 경우에는 S420으로 진행하고, 전술한 예에서와 같이 모든 용어들에 대해 매핑이 성공하지 않았을 경우, 유사도 기반 매핑부(230)에서 유사도 기반 용어 검색을 수행한다. As a result of the determination in step S330, if the mapping is successful for all the terms, the process proceeds to step S420. If the mapping is unsuccessful for all terms as in the above example, the similarity-based
상세하게는, 근접어 매핑부(231)가 S340에서 근접어 탐색을 먼저 수행한다. 예컨대, '류승환 연출 호러 영화'라는 키워드에서 매핑에 실패한 용어인 '류승환'에 대해 근접어가 검색된다. 상세하게는, 근접어 매핑부(231)가 근접어 테이블(240)로부터 단어의 길이가 3인 모든 용어들을 검출하고, 검출된 모든 용어들과 '류승환'과의 편집 거리(edit distance)를 계산하여, 편집 거리가 최소인 용어로 '류승완'을 찾을 수 있을 것이다. 마찬가지로. 근접어 매핑부(231)는 '호러'에 대해 단어의 길이가 2인 모든 용어들을 검출하고, 검출된 모든 용어들과 '호러'와의 편집 거리(edit distance)가 최소인 '호러'라는 정확히 일치하는 용어를 찾을 수 있을 것이다. 즉, '호러'의 경우 편집 거리(edit distance) 값이 '0'이므로, 오타나 외래어 표기 오류가 아님을 알 수 있다. More specifically, the close
그러면, 용어 매핑부(221)는 S350에서 근접어 탐색 수행을 통해 검색된 근접어로 매핑 실패했던 키워드를 교체하고, S360에서 2차 매핑을 수행한다. 예컨대, 탐색된 근접어로 교체된 '류승완 연출 호러 영화'로 용어 매핑이 재수행된다. Then, the
용어 매핑부(221)는 S370에서 매핑이 성공했는지를 판단하고, 성공했을 경우에는 S420으로 진행한다.The
반면, S370에서 매핑이 성공하지 않았을 경우, 유의어 탐색부(221)는 S380에서 유의어 탐색을 수행한다. 예컨대, 교체된 검색 키워드로 2차 용어 매핑을 수행하면 '호러'가 용어 매핑에 실패하게 되므로, 2차 용어 매핑에 실패한 '호러'의 유의어가 탐색된다. 유의어 테이블(250)의 값(value)에 정확히 일치하는 용어을 찾게 되고 '호러'와 일치하는 값(value)를 찾으면 해당 키(key)인 '호러'를 탐색된다. On the other hand, if the mapping is not successful in step S370, the
용어 매핑부(221)는 S390에서 유의어 탐색을 통해 매핑이 안된 키워드를 교체하고, S400에서 다시 3차 매핑을 수행한다. The
그리고, 용어 매핑부(221)는 S410의 판단 결과, 용어들의 매핑이 완료되지 않는 경우, 사용자 검색 키워드에 매핑되는 지식 베이스 개체가 존재하지 않는 것을 의미하며, 매핑이 완료되지 않을 경우라 할지라도 매핑을 종료한다.If the mapping of the terms is not completed as a result of the determination in S410, the
그러나, S410의 판단 결과 용어 매핑이 성공할 경우, S420으로 진행한다.However, if the term mapping is successful as a result of the determination in S410, the process proceeds to S420.
S420에서 질의 그래프 구성부(222)는 용어 매핑 결과인 지식 개체로 구성된 질의 그래프를 구성하여 의미해석 결과로 제공한다. 이는 잘 알려진 내용이므로 여기서는 상세한 설명을 생략하기로 한다.In step S420, the query
여기서, 1차로 근접어 탐색을 먼저 수행하고, 2차로 유의어 탐색을 수행하는 것으로 개시되어 있으나, 이는 본 발명의 일 실시 예일 뿐, 본 발명은 이에 한정되지 않는다. 즉, 검색 순서는 반대가 될 수도 있고, 한번에 수행될 수도 있다.Here, it is disclosed that the first-order proximity search is performed first and the second-order thesaurus search is performed, but this is an embodiment of the present invention, but the present invention is not limited thereto. That is, the search order may be reversed or may be performed at once.
Claims (14)
지식 베이스로부터 상기 사용자 검색 키워드에 매핑되는 개체를 탐색하는 1차 용어 매핑을 수행하는 단계와,
상기 1차 용어 매핑 수행 결과 따라, 1차 용어 매핑에 실패한 용어와 유사한 용어를 탐색하는 단계와,
상기 탐색된 유사한 용어로 2차 용어 매핑을 수행하는 단계를 포함하되,
상기 탐색하는 단계는
미리 구축된 근접어 테이블로부터 상기 1차 용어 매핑에 실패한 용어와 길이가 동일한 모든 용어들을 검출하는 단계와,
상기 검출된 모든 용어들 각각과 상기 1차 용어 매핑에 실패한 용어 간의 편집 거리를 계산하는 단계와,
상기 검출된 모든 용어들 중에서 편집 거리가 최소인 용어를 상기 유사한 용어로 선택하는 단계를 포함함
을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 방법.
A similarity-based keyword mapping method in which a similarity-based keyword mapping apparatus searches an object mapped to a user search keyword inputted from a search client,
Performing a primary term mapping for searching an object mapped to the user search keyword from a knowledge base;
Searching for a term similar to the term in which the primary term mapping fails based on the result of performing the primary term mapping,
And performing a secondary term mapping with the searched similar term,
The searching step
Detecting all terms having the same length as the term that failed the primary term mapping from the pre-established proximity table,
Calculating an edit distance between each of the detected terms and a term that fails the primary term mapping;
And selecting a term having the smallest edit distance among all the detected terms as the similar term
A method for mapping a keyword based on similarity in a semantic search.
상기 사용자 검색 키워드가 입력되면, 자동 띄어쓰기를 수행하는 단계를 더 포함하고,
상기 1차 용어 매핑을 수행하는 단계는
상기 자동 띄어쓰기 완료된 사용자 검색 키워드를 이용하여 매핑을 수행함을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 방법.
The method according to claim 1,
Further comprising performing automatic spacing when the user search keyword is input,
The step of performing the primary term mapping
Wherein the mapping is performed using the automatically spaced user search keyword.
형태소 분석을 기반으로 띄어쓰기를 결정하되, 복합 명사는 형태소 사전에 미리 추가된 특정 복합 명사 단어에 따라 띄어쓰기 여부가 조정됨을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 방법.
3. The method of claim 2, wherein performing the automatic spacing comprises:
Wherein the spacing is determined based on the morpheme analysis, and the compound nouns are adjusted to be spaced according to a specific compound noun word added in advance in the morpheme dictionary.
단어 단위로 수행됨을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 방법.
2. The method of claim 1, wherein performing the primary and secondary term mapping comprises:
Wherein the similarity-based keyword mapping is performed on a word-by-word basis.
미리 구축된 유의어 테이블로부터 상기 1차 용어 매핑에 실패한 용어와 일치하는 값(Value)를 검색하는 단계와,
상기 검색된 값(Value)이 포함되는 키(key)를 검출하는 단계를 포함하되,
상기 지식 베이스에 존재하는 개체의 레이블과의 유의어가 존재하는 경우, 레이블이 키(key)로 지정되고, 상기 레이블의 하나 이상의 유의어가 값(value)으로 등록됨을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 방법.
2. The method of claim 1,
Retrieving a value (Value) that matches the term that failed the primary term mapping from a pre-built synonym table;
And detecting a key including the retrieved value,
Wherein a label is designated as a key and one or more synonyms of the label are registered as a value when there is a synonym with a label of an entity existing in the knowledge base. Mapping method.
상기 2차 용어 매핑을 수행하는 단계에서 상기 탐색하는 단계에서 탐색된 근접어 또는 유의어로 용어 매핑을 수행하되,
매핑이 실패할 경우, 매핑에 실패한 용어에 대한 유의어 탐색 또는 근접어 탐색을 재수행하는 단계와,
상기 탐색된 유의어 또는 근접어로 3차 용어 매핑을 수행하는 단계를 더 포함함을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 방법.
The method according to claim 1,
Performing the term mapping with the searched word or the thesaurus in the searching step in the step of performing the secondary term mapping,
If the mapping fails, re-executing a thesaurus search or a near-term search for terms that have failed mapping,
And performing third-term mapping using the searched thesaurus or the nearest word.
상기 용어 매핑부의 요청에 따라, 매핑에 실패한 용어와 유사한 용어를 탐색하여 반환하는 유사도 기반 매핑부를 포함하되,
상기 용어 매핑부는 반환된 유사한 용어로 용어 매핑을 재수행하고,
상기 지식 베이스에 등록되는 모든 레이블이 등록되는 근접어 테이블을 더 포함하되,
상기 유사도 기반 매핑부는
상기 근접어 테이블로부터 상기 매핑에 실패한 용어와 길이가 동일한 모든 용어들을 검출하고, 상기 검출된 모든 용어들 각각과 상기 매핑에 실패한 용어 간의 편집 거리를 계산하고, 상기 검출된 모든 용어들 중에서 편집 거리가 최소인 용어를 상기 유사한 용어로 선택하는 근접어 탐색부를 포함함
을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 장치.
A term mapping unit for searching an object mapped to a user search keyword from a knowledge base;
And a similarity-based mapping unit for searching for and returning a term similar to the term in which the mapping is unsuccessful, upon request of the term mapping unit,
The term mapping unit re-executes the term mapping with similar terms returned,
Further comprising a proximity table in which all labels registered in the knowledge base are registered,
The similarity-based mapping unit
Detecting all the terms having the same length as the term that failed the mapping from the proximity table, calculating an editing distance between each of the detected terms and the term that failed the mapping, and selecting, from among all the detected terms, Includes a near-term search section for selecting terms similar to the above-mentioned terms
Wherein the similarity-based keyword-mapping device is used in semantic search.
지식 베이스에 존재하는 개체의 레이블과의 유의어가 존재하는 경우, 레이블이 키(key)로 지정되고, 레이블의 하나 이상의 유의어가 값(value)으로 등록되는 유의어 테이블을 더 포함하되,
상기 유사도 기반 매핑부는
상기 유의어 테이블로부터 상기 매핑에 실패한 용어와 일치하는 값(Value)를 탐색하고, 상기 탐색된 값(Value)이 포함되는 키(key)를 검출함을 특징으로 하는 시맨틱 검색에서 유사도 기반 키워드 매핑 장치.9. The method of claim 8,
A thesaurus table in which a label is designated as a key and at least one synonym of the label is registered as a value when there is a synonym with a label of an entity existing in the knowledge base,
The similarity-based mapping unit
Searching for a value matching the term that failed the mapping from the synonym table and detecting a key including the searched value. ≪ RTI ID = 0.0 > 8. < / RTI >
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020130130317A KR101739766B1 (en) | 2013-10-30 | 2013-10-30 | Apparatus and Method for similarity based keyword mapping in Semantic Search |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020130130317A KR101739766B1 (en) | 2013-10-30 | 2013-10-30 | Apparatus and Method for similarity based keyword mapping in Semantic Search |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20150049581A KR20150049581A (en) | 2015-05-08 |
| KR101739766B1 true KR101739766B1 (en) | 2017-05-26 |
Family
ID=53387642
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020130130317A Expired - Fee Related KR101739766B1 (en) | 2013-10-30 | 2013-10-30 | Apparatus and Method for similarity based keyword mapping in Semantic Search |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR101739766B1 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117131095A (en) * | 2023-07-13 | 2023-11-28 | 上海秒针网络科技有限公司 | Knowledge base docking methods, devices, equipment and media |
| CN118760758B (en) * | 2024-09-05 | 2025-08-22 | 光合新知(北京)科技有限公司 | A label matching method and system for smart teaching |
-
2013
- 2013-10-30 KR KR1020130130317A patent/KR101739766B1/en not_active Expired - Fee Related
Non-Patent Citations (2)
| Title |
|---|
| 이무훈 외, 시맨틱 콘텐츠 검색을 위한 질의 확장 시스템, 디지털정책연구 제10권 제10호, pp.307-312 (2012.11.)* |
| 임태훈 외, 잠재적 의미 색인을 이용한 유사 질의어 확장, 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회, 2009. |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20150049581A (en) | 2015-05-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
| US10025819B2 (en) | Generating a query statement based on unstructured input | |
| US9448995B2 (en) | Method and device for performing natural language searches | |
| US8972432B2 (en) | Machine translation using information retrieval | |
| US9418128B2 (en) | Linking documents with entities, actions and applications | |
| CN111417940B (en) | Method, system and medium for generating answers to questions | |
| KR101522049B1 (en) | Coreference resolution in an ambiguity-sensitive natural language processing system | |
| US20170140059A1 (en) | Knowledge-based entity detection and disambiguation | |
| EP3142028A2 (en) | Handling failures in processing natural language queries through user interactions | |
| US20090083255A1 (en) | Query spelling correction | |
| US9317608B2 (en) | Systems and methods for parsing search queries | |
| US11755569B2 (en) | Method for processing a question in natural language | |
| CN106708814B (en) | Retrieval method and device based on relational database | |
| US11151317B1 (en) | Contextual spelling correction system | |
| US8583415B2 (en) | Phonetic search using normalized string | |
| KR101709055B1 (en) | Apparatus and Method for Question Analysis for Open web Question-Answering | |
| US20130339368A1 (en) | Method and system for handling non-presence of elements or attributes in semi-structured data | |
| Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
| KR101739766B1 (en) | Apparatus and Method for similarity based keyword mapping in Semantic Search | |
| Charton et al. | Improving Entity Linking using Surface Form Refinement. | |
| US9336317B2 (en) | System and method for searching aliases associated with an entity | |
| Wang et al. | Scalable semantic querying of text | |
| Giannini et al. | A Logic-based approach to Named-Entity Disambiguation in the Web of Data | |
| Meng et al. | Chinese microblog entity linking system combining wikipedia and search engine retrieval results | |
| US8930373B2 (en) | Searching with exclusion tokens |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| AMND | Amendment | ||
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| AMND | Amendment | ||
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| R17-X000 | Change to representative recorded |
St.27 status event code: A-3-3-R10-R17-oth-X000 |
|
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
St.27 status event code: N-2-6-B10-B15-exm-PE0601 |
|
| AMND | Amendment | ||
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PX0901 | Re-examination |
St.27 status event code: A-2-3-E10-E12-rex-PX0901 |
|
| PX0701 | Decision of registration after re-examination |
St.27 status event code: A-3-4-F10-F13-rex-PX0701 |
|
| X701 | Decision to grant (after re-examination) | ||
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20210520 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20210520 |