[go: up one dir, main page]

KR101583073B1 - 기사 요약 서비스 서버 및 방법 - Google Patents

기사 요약 서비스 서버 및 방법 Download PDF

Info

Publication number
KR101583073B1
KR101583073B1 KR1020150044648A KR20150044648A KR101583073B1 KR 101583073 B1 KR101583073 B1 KR 101583073B1 KR 1020150044648 A KR1020150044648 A KR 1020150044648A KR 20150044648 A KR20150044648 A KR 20150044648A KR 101583073 B1 KR101583073 B1 KR 101583073B1
Authority
KR
South Korea
Prior art keywords
article
sentence
sentences
keyword
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020150044648A
Other languages
English (en)
Inventor
이동권
김보람
Original Assignee
주식회사 카카오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오 filed Critical 주식회사 카카오
Priority to KR1020150044648A priority Critical patent/KR101583073B1/ko
Application granted granted Critical
Publication of KR101583073B1 publication Critical patent/KR101583073B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/30719
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

기사 요약 서비스 서버 및 방법이 제공된다. 상기 기사 요약 서비스 서버는 퍼블리셔에 의해 배포되는 기사를 획득하는 기사 획득부, 상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 키워드를 선정하는 키워드 선정부, 상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 그래프를 생성하고, 상기 선정된 키워드를 이용하여 상기 그래프의 각각의 노드의 연결 중심성을 평가하고, 상기 평가된 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 연결 중심성 평가부, 및 상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 기사 요약부를 포함한다.

Description

기사 요약 서비스 서버 및 방법{SERVER AND METHOD FOR ARTICLE SUMMARY SERVICE}
본 발명은 기사 요약 서비스 서버 및 방법에 관한 것이다. 구체적으로는, 사회 연결망 분석(Social Network Analysis) 기법에 기반한 기사 요약 서비스 서버 및 방법에 관한 것이다.
모바일 디바이스의 이용 증가에 따라, 신문 기사, TV 기사, 인터넷 기사 등의 구독 매체로서 모바일 디바이스의 이용률도 증가하고 있다.
모바일 환경에서는, PC(Personal Computer) 환경에서의 기사를 동일한 형태로 제공하기 보다는, 기사의 주요 내용을 요약하고, 기사에 사용되는 삽화, 사진, 도안 등의 일러스트의 크기를 편집하는 등 모바일 환경에 적합한 형태로 가공하여 제공할 필요성이 있다.
이에 따라, 모바일 디바이스의 사용자들을 상대로 하루 동안 이슈가 된 기사들을 정리하여 제공하거나, 기사의 요약문을 제공하는 서비스가 등장하고 있다.
일부 기사 요약 서비스는 페이지 랭크(Page Rank), 텍스트 랭크(Text Rank)와 같은 알고리즘을 이용하여 기사의 요약문을 자동적으로 생성하고 있으나, 이 같은 알고리즘은 기사에 포함되는 문장들의 유사도를 측정하는 방식을 채용하기 때문에 기사를 요약하기 위한 알고리즘으로 적합하지 않고 요약문의 완성도가 낮은 문제점이 존재하여 뉴스 내용 요약이 가능할 뿐 중요한 기사를 선별해서 제공하는 데는 한계가 있다. 반면에, 수동요약방식으로 다른 일부 기사 요약 서비스는 인간이 직접적으로 기사의 요약문을 작성하여 요약문의 완성도를 높이고 있으나, 기사의 요약문의 생성이 컴퓨팅 시스템에 의해 자동적으로 이루어지지 않기 때문에 제공 가능한 요약문의 개수가 제한적이고 요약문의 실시간 제공이 어렵다는 문제점이 존재하여 휴무 기간에 발생한 뉴스에 대해서는 요약 서비스 제공이 한계가 있다.
본 발명이 해결하고자 하는 과제는 위와 같은 문제점을 해소하기 위하여 사회 연결망 분석(Social Network Analysis)을 활용한 알고리즘을 이용하여 첫째, 완성도 높게 기사를 요약하고, 둘째, 기사 선별 및 요약의 전문성을 확보하고, 셋째, 기사의 요약문을 실시간으로 제공할 수 있는 기사 요약 서비스 서버 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급하지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 본 발명의 일 측면(aspect)에 따른 기사 요약 서비스 서버는 퍼블리셔에 의해 배포되는 기사를 획득하는 기사 획득부, 상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 키워드를 선정하는 키워드 선정부, 상기 기사의 복수의 문장에 상응하는 복수의 노드를 설정하고, 상기 선정된 키워드를 이용하여 상기 문장에 상응되게 설정된 각각의 노드의 연결 중심성을 평가하고, 상기 평가된 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 연결 중심성 평가부, 및 상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 기사 요약부를 포함한다.
일부 실시예에서, 상기 키워드 선정부는 상기 기사의 제목 및 상기 기사의 시작부에 위치하는 적어도 하나의 제1 문장으로부터 상기 적어도 하나의 키워드를 선정할 수 있다.
일부 실시예에서, 상기 연결 중심성 평가부는 상기 기사의 복수의 문장이 상기 적어도 하나의 키워드를 동시에 포함하면 상기 문장에 대응하는 복수의 노드를 링크로 연결할 수 있다.
또한, 상기 각각의 노드의 상기 연결 중심성은 상기 각각의 노드에 연결된 상기 링크의 개수에 상응할 수 있다.
일부 실시예에서, 상기 복수의 노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응할 수 있다.
일부 실시예에서, 상기 서버는 적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 기사 요약문 제공부를 더 포함할 수 있다.
상기 과제를 해결하기 위한 본 발명의 다른 측면에 따른 기사 요약 서비스 서버는 퍼블리셔에 의해 배포되는 기사를 획득하는 기사 획득부, 상기 기사의 제목으로부터 적어도 하나의 제1 키워드를 선정하고, 상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 제2 키워드를 선정하는 키워드 선정부, 상기 기사의 복수의 문장에 상응하는 복수의 제1노드를 설정하고, 상기 선정된 제1 키워드를 이용하여 상기 문장에 상응되게 설정된 각각의 제1노드의 제1 연결 중심성을 평가하고, 상기 평가된 제1 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제1 문장을 선택하고, 상기 기사의 복수의 문장에 상응하는 복수의 제2노드를 설정하고, 상기 선정된 제2 키워드를 이용하여 상기 제2 그래프의 각각의 제2노드의 제2 연결 중심성을 평가하고, 상기 평가된 제2 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 연결 중심성 평가부, 및 상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 기사 요약부를 포함한다.
일부 실시예에서, 상기 연결 중심성 평가부는 상기 기사의 복수의 문장이 상기 적어도 하나의 제1 키워드를 동시에 포함하면 상기 상응하는 복수의 제1노드를 제1 링크로 연결하고, 상기 기사의 복수의 문장이 상기 적어도 하나의 제2 키워드를 동시에 포함하면 상기 상응하는 복수의 제2노드를 제2 링크로 연결할 수 있다.
또한, 상기 각각의 제1노드의 상기 제1 연결 중심성은 상기 각각의 제1노드에 연결된 상기 제1 링크의 개수에 상응하고, 상기 각각의 제2노드의 상기 제2 연결 중심성은 상기 각각의 제2노드에 연결된 상기 제2 링크의 개수에 상응할 수 있다.
일부 실시예에서, 상기 복수의 제2노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응할 수 있다.
일부 실시예에서, 상기 서버는 적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 기사 요약문 제공부를 더 포함할 수 있다.
상기 과제를 해결하기 위한 본 발명의 일 측면에 따른 기사 요약 서비스 방법은 퍼블리셔에 의해 배포되는 기사를 획득하는 단계, 상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 키워드를 선정하는 단계, 상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 그래프를 생성하고, 상기 선정된 키워드를 이용하여 상기 그래프의 각각의 노드의 연결 중심성을 평가하고, 상기 평가된 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 단계, 및 상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 단계를 포함한다.
일부 실시예에서, 상기 적어도 하나의 키워드를 선정하는 단계는 상기 기사의 제목 및 상기 기사의 시작부에 위치하는 적어도 하나의 제1 문장으로부터 상기 적어도 하나의 키워드를 선정하는 단계일 수 있다.
일부 실시예에서, 상기 그래프를 생성하는 단계는 상기 기사의 복수의 문장이 상기 적어도 하나의 키워드를 동시에 포함하면 상기 그래프의 상응하는 복수의 노드를 링크로 연결하는 단계를 포함할 수 있다.
또한, 상기 그래프의 각각의 노드의 상기 연결 중심성은 상기 각각의 노드에 연결된 상기 링크의 개수에 상응할 수 있다.
일부 실시예에서, 상기 그래프의 복수의 노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응할 수 있다.
일부 실시예에서, 상기 방법은 적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 단계를 더 포함할 수 있다.
상기 과제를 해결하기 위한 본 발명의 다른 측면에 따른 기사 요약 서비스 방법은 퍼블리셔에 의해 배포되는 기사를 획득하는 단계, 상기 기사의 제목으로부터 적어도 하나의 제1 키워드를 선정하는 단계, 상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제1 그래프를 생성하고, 상기 선정된 제1 키워드를 이용하여 상기 제1 그래프의 각각의 노드의 제1 연결 중심성을 평가하고, 상기 평가된 제1 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제1 문장을 선택하는 단계, 상기 기사의 제목 및 상기 적어도 하나의 제1 문장으로부터 적어도 하나의 제2 키워드를 선정하는 단계, 상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제2 그래프를 생성하고, 상기 선정된 제2 키워드를 이용하여 상기 제2 그래프의 각각의 노드의 제2 연결 중심성을 평가하고, 상기 평가된 제2 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 단계, 및 상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 단계를 포함한다.
일부 실시예에서, 상기 제1 그래프를 생성하는 단계는 상기 기사의 복수의 문장이 상기 적어도 하나의 제1 키워드를 동시에 포함하면 상기 제1 그래프의 상응하는 복수의 노드를 제1 링크로 연결하는 단계를 포함하고, 상기 제2 그래프를 생성하는 단계는 상기 기사의 복수의 문장이 상기 적어도 하나의 제2 키워드를 동시에 포함하면 상기 제2 그래프의 상응하는 복수의 노드를 제2 링크로 연결하는 단계를 포함할 수 있다.
또한, 상기 제1 그래프의 각각의 노드의 상기 제1 연결 중심성은 상기 각각의 노드에 연결된 상기 제1 링크의 개수에 상응하고, 상기 제2 그래프의 각각의 노드의 상기 제2 연결 중심성은 상기 각각의 노드에 연결된 상기 제2 링크의 개수에 상응할 수 있다.
일부 실시예에서, 상기 제2 그래프의 복수의 노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응할 수 있다.
일부 실시예에서, 상기 방법은 적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 단계를 더 포함할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상기 본 발명의 기사 요약 서비스 서버 및 방법에 따르면, 기사의 문장 구조를 고려하여 기사의 제목 및 일부 문장으로부터 키워드를 선정하고, 기사의 문장에 상응하는 노드를 포함하는 그래프로부터 사회 연결망 분석을 활용하여 선택된 문장으로 요약문을 자동 생성하므로, 요약의 완성도가 높고, 기사 선별 및 요약의 전문성을 향상시킬 수 있으며, 컴퓨팅 방식에 의한 요약기법이므로 시간적 제한 없이 기사의 요약문을 실시간으로 제공할 수 있다.
본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 기사 요약 서비스 서버가 적용될 수 있는 예시적인 시스템 환경을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 기사 요약 서비스 서버를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 기사 요약 서비스 서버가 기사의 문장 구조를 분석하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 기사 요약 서비스 서버의 키워드 선정 방법을 예시적으로 설명하기 위한 도면이다.
도 5 내지 도 6은 본 발명의 일 실시예에 따른 기사 요약 서비스 서버의 그래프 생성 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 기사 요약 서비스 서버에 의해 생성된 예시적인 기사 요약문을 설명하기 위한 도면이다.
도 8은 본 발명의 다른 실시예에 따른 기사 요약 서비스 서버가 기사의 문장 구조를 분석하는 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 다른 실시예에 따른 기사 요약 서비스 서버에 의해 생성된 예시적인 기사 요약문을 설명하기 위한 도면이다.
도 10은 본 발명의 실시예에 따른 기사 요약 서비스 서버가 적용될 수 있는 예시적인 시스템 환경의 변형예를 설명하기 위한 블록도이다.
도 11은 본 발명의 일 실시예에 따른 기사 요약 서비스 방법을 설명하기 위한 흐름도이다.
도 12는 본 발명의 다른 실시예에 따른 기사 요약 서비스 방법을 설명하기 위한 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
하나의 구성요소(elements)가 다른 구성요소와 "연결된(connected to)" 또는 "접속된(coupled to)" 이라고 지칭되는 것은, 다른 구성요소와 직접 연결 또는 접속된 경우 또는 중간에 다른 구성요소를 개재한 경우를 모두 포함한다. 반면, 하나의 구성요소가 다른 구성요소와 "직접 연결된(directly connected to)" 또는 "직접 접속된(directly coupled to)"으로 지칭되는 것은 중간에 다른 구성요소를 개재하지 않은 것을 나타낸다.
본 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
본 명세서에서 "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
비록 제1, 제2 등이 다양한 구성요소, 모듈 및/또는 섹션들을 서술하기 위해서 사용되나, 구성요소, 모듈 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소, 모듈 또는 섹션들을 다른 구성요소, 모듈 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소, 제1 모듈 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 구성요소, 제2 모듈 또는 제2 섹션일 수도 있음은 물론이다.
본 명세서에서 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
본 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 모듈 및/또는 섹션 외에 하나 이상의 다른 구성요소, 모듈 및/또는 섹션의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하에서는 첨부된 도 1 내지 도 10을 참조하여 본 발명의 실시예에 따른 기사 요약 서비스 서버를 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 기사 요약 서비스 서버가 적용될 수 있는 예시적인 시스템 환경을 설명하기 위한 블록도이다.
도 1을 참조하면, 사용자 단말기(100), 퍼블리셔(Publisher)(200), 웹 서버(300), 뉴스 요약 서비스 서버(400)가 네트워크를 통해 서로 연결된다. 사용자 단말기(100), 퍼블리셔(200), 웹 서버(300), 뉴스 요약 서비스 서버(400)는 네트워크를 통해 서로 데이터 및/또는 정보를 송수신할 수 있다.
네트워크는 개인 영역 네트워크(Personal Area Network), 근거리 네트워크(Local Area Network; LAN), 도시권 네트워크(Metropolitan Area Network; MAN), 광대역 네트워크(Wide Area Network; WAN) 등과 같은 다양한 크기의 네트워크로 구성될 수 있다. 네트워크는 유선 또는 무선 네트워크로 구성될 수 있다.
사용자 단말기(100)는 네트워크를 통해 원격의 서버 또는 디바이스에 접속하여 데이터 및/또는 정보를 송수신할 수 있는 컴퓨팅 시스템을 나타낸다. 사용자 단말기(100)는 데스크톱(desk top), 랩톱(lap top) 등과 같은 개인용 컴퓨터(Personal Computer; PC) 디바이스일 수 있다. 또는, 사용자 단말기(100)는 스마트폰(smartphone), PDA(Personal Digital Assistant), 태블릿 PC(tablet PC) 등과 같은 모바일 디바이스(휴대용 디바이스) 일 수 있다. 명확하게 도시하지 않았으나, 사용자 단말기(100)는 프로세서, 입출력 수단, 통신 수단, 메모리 등의 구성요소를 포함하는 예시되지 않은 다른 컴퓨팅 시스템일 수도 있다.
퍼블리셔(200)는 웹 사이트와 같은 소정의 사이버 공간을 운영하고, 자신의 사이버 공간을 방문하는 사용자에게 각종 컨텐츠를 제공하는 컴퓨팅 시스템을 나타낸다. 퍼블리셔(200)는 텍스트, 이미지, 소리, 동영상, 하이퍼링크 등을 포함하는 컨텐츠를 제공할 수 있다. 본 발명의 실시예에서 퍼블리셔(200)는 컨텐츠의 일 예로 기사(article)를 배포할 수 있다. 퍼블리셔(200)는 인터넷 상에 기사를 배포하는 언론사의 서버일 수 있다. 퍼블리셔(200)는 복수의 웹 사이트를 운영할 수도 있다.
웹 서버(300)는 퍼블리셔(200)가 배포한 기사를 선택적으로 수집하고, 수집한 기사를 별도의 가공이나 편집 없이 게시하거나, 뉴스 요약 서비스 서버(400)에 의해 제공된 기사의 요약문을 게시한다. 웹 서버(300)도 웹 사이트와 같은 소정의 사이버 공간을 운영할 수 있으며, 자신의 사이버 공간 상에 기사 또는 기사의 요약문을 게시할 수 있다. 사용자 단말기(100)는 웹 서버(300)에 접속하여 다양한 기사 또는 기사의 요약문을 수신할 수 있다. 웹 서버(300)가 퍼블리셔(200)에 의해 배포된 기사를 재 배포하는 점에서, 웹 서버(300)도 퍼블리셔의 기능을 일부 수행하는 것으로 이해될 수 있다. 웹 서버는(300)는 카페, 메일, 블로그, 쇼핑, 지도, 사전, 뉴스, 증권, 부동산, 영화, 음악, 게시판 등의 다양한 콘텐츠 서비스를 제공하는 포털 사이트 서버일 수 있다.
본 발명에 따른 뉴스 요약 기법으로서의 사회 연결망 분석법(Social Network Analysis)은 사회(Social)의 구조를 연결망(Network)으로 표시하고 그 구조를 기반으로 개인의 위계를 분석(Analysis)하는 구조주의 사회학 이론을 뉴스 요약 기법으로 개량한 것으로서, 연결망(Network)을 구성하는 개별 노드(Node)와 노드를 연결해주는 링크(Link)를 이용하여 이러한 링크들이 연결되어 있는 구조를 바탕으로 개별 노드의 영향력을 계량화하고 구조의 특징을 밝혀내어 뉴스 요약의 완성도와 전문성을 향상시키고자 하는 것이다.
이 때 각 노드의 영향력을 평가하는 방법으로서 본 발명에서는 연결정도 중심성의 개념을 도입하였는데, 이는 해당 노드와 직접적으로 연결된 노드가 얼마나 많은지 측정하는 지표를 의미한다.
도 1에서는 하나의 사용자 단말기(100) 및 하나의 퍼블리셔(200)만을 도시하였으나, 본 발명이 이에 한정되는 것은 아니고, 복수의 사용자 단말기(100) 및 복수의 퍼블리셔(200)가 웹 서버(300) 및 뉴스 요약 서비스 서버(400)와 서로 연결될 수 있다.
또한, 웹 서버(300)는 지역/지구/영역 등에 따라 복수의 서버로 분리되어 구현될 수 있다. 웹 서버(300)의 개수에 대응하여, 뉴스 요약 서비스 서버(400)도 복수의 서버로 분리되어 구현될 수 있다.
뉴스 요약 서비스 서버(400)는 퍼블리셔(200)에 의해 배포되는 기사를 (퍼블리셔(200)로부터 직접 또는 웹 서버(300)를 통해) 획득하고, 사회 연결망 분석(Social Network Analysis)을 활용한 알고리즘을 이용하여 기사를 요약하고, 기사의 요약문을 웹 서버(300) 또는 사용자 단말기(100)에 제공한다.
도 2는 본 발명의 일 실시예에 따른 기사 요약 서비스 서버를 설명하기 위한 블록도이다.
도 2를 참조하면, 뉴스 요약 서비스 서버(400)는 기사 획득부(410), 키워드 선정부(420), 연결 중심성 평가부(430), 기사 요약부(440), 기사 요약문 제공부(450)를 포함한다.
기사 획득부(410)는 퍼블리셔(200)에 의해 배포되는 기사를 획득한다.
키워드 선정부(420)는 기사의 문장 구조를 분석하고, 기사의 제목 및 일부 문장으로부터 적어도 하나의 키워드를 추출하여 선정한다.
도 3을 참조하면, 키워드 선정부(420)는 기사를 제목(10) 및 복수의 문장(20)으로 구분하고, 복수의 문장(20)을 다시 리드 문장(Lead Sentences)(21) 및 보충 문장(Supporting Sentences)(22)으로 구분할 수 있다. 리드 문장(21)은 글에서 나머지 문장들을 리드하고, 글의 주제를 포함하는 문장을 나타낸다. 보충 문장(22)은 기사의 제목(10)이나 리드 문장(21)과 연결 중심성, 즉 관련성이 높아서 글의 주제와 관련된 상세한 내용을 포함하거나 제목(10)이나 리드 문장(21)의 요지를 상술하는 문장이다. 기사와 같은 글의 경우, 그 시작부(또는, 서두)에 리드 문장(21)이 위치하는 것이 일반적이기 때문에, 본 실시예에서는 예시적으로 리드 문장(21)으로 미리 결정되었다. 즉, 일반적으로 기사의 제목과 기사의 첫 번째 문장(Sentence #1) 및/또는 두 번째 문장(Sentence #2)이 기사의 핵심주제와 서술어를 한정하므로 본 실시예와 같이 리드 문장(21)이 결정되는 것이 일반적이라고 할 것이다. 그러나, 본 발명이 이에 한정되는 것은 아니고, 기사의 중간부 또는 종결부에 위치하거나 또는 특정의 조건을 만족하는 적절한 개수의 문장들이 리드 문장(21)으로 미리 결정될 수 있다.
이러한 제목과 리드 문장(21)에 등장하는 단어들은 다른 문장들의 내용을 통제 내지 필터링하는 핵심 단어군이 된다.
도 4를 참조하면, 키워드 선정부(410)는 기사의 제목(10) 및 리드 문장(21)으로부터 적어도 하나의 키워드를 추출할 수 있다. 도 4의 예시에서, 키워드 선정부(410)는 기사의 제목(10) 및 리드 문장(21)에 포함되는 대부분의 단어와 서술어들을 키워드로 추출하였으나, 본 발명이 이에 한정되는 것은 아니다. 키워드 선정부(410)는 N-GRAM, 형태소 분석 방법 등과 같이 본 발명의 기술분야에서 잘 알려진 다양한 방법들을 이용하여 기사의 제목(10) 및 리드 문장(21)으로부터 키워드를 추출할 수 있다.
즉, 본 발명에서는 기사의 문장들을 노드로 놓고, 각각의 노드를 서로 비교하여 핵심단어 그룹에 속하는 단어들을 포함하면 두 노드 사이를 링크로 연결하고, 만약 한 노드가 다른 노드보다 링크의 개수가 더 많다면(즉, 연결 중심성이 높다면), 그 노드는 다른 노드에 비해 제목 및/또는 리드 문장의 내용과 더 밀접한 관련을 지닌 노드라고 판단하여 이와 같은 방식으로 문장들의 서수적 중요성을 판별하고, 링크 숫자가 높은 상위 노드를 선택하여 요약문을 생성하게 되는데, 이 때 관련성의 판단기준이 되는 핵심단어 그룹을 형성하는 것이 앞서 설명한 키워드가 되는 것이다.
본 발명에서는 이러한 키워드를 기초로 노드 간의 링크의 개수의 서열을 판단하므로, 단순히 단어들의 빈도가 높게 나온 문장을 우선순위로 보여주는 것이 아니고, 문장들끼리의 참조 관계를 지정해주어, 상대적인 서수적 중요성을 기초로 요약 문장을 추출해 낼 수 있는 비교우위적 개념을 가진다는 것이 중요한 특징이다.
연결 중심성 평가부(430)는 기사의 복수의 문장에 상응하는 복수의 노드(Node)를 포함하는 그래프를 생성하여 사회 연결망 분석법에 따른 각 노드 사이의 연결 중심성을 평가한다(물론, 연결 중심성 평가의 기법으로 노드 간에 링크를 연결하므로 그래프를 사용하는 것이 일반적일 수 있으나 노드 간의 연결 중심성을 평가하는 산술적 합산을 가능하게 하는 컴퓨팅 기술이 사용되는 것 역시 본건 발명의 권리범위에 속하는 것은 자명하다). 연결 중심성 평가부(430)는 복수의 노드의 특성을 비교하고, 복수의 노드를 링크(Link)로 연결할 수 있다. 본 실시예에서 연결 중심성 평가부(430)는 기사의 어느 하나의 문장과 다른 하나의 문장이 상기 선정된 키워드를 동시에 포함하고 있으면, 그래프의 상응하는 노드를 링크로 연결할 수 있다. 이 때, 두 개의 문장이 동시에 포함하고 있는 키워드의 개수가 두 개 이상이면, 연결 중심성 평가부(430)는 그래프의 상응하는 노드를 동시에 포함하고 있는 키워드의 개수와 동일한 개수의 링크로 연결할 수 있다.
연결 중심성 평가부(430)는, 후술하는 기사의 요약문을 구성하는 문장을 선택하기 위하여, 상기 그래프에 대하여 사회 연결망 분석을 적용한다. 연결 중심성 평가부(430)는 사회 연결망 분석법의 노드 영향력 측정 지표 중 연결 중심성(Degree Centrality)을 이용할 수 있다. 연결 중심성 평가부(430)는 그래프의 각각의 노드의 연결 중심성을 평가하고, 평가 결과를 이용하여 기사의 요약문을 구성하기 위한 문장을 선택할 수 있다. 연결 중심성 평가부(430)는 각각의 노드에 연결된 링크의 개수를 기초로 각각의 노드의 연결 중심성(즉, In-Degree Centrality)을 평가할 수 있다. 이것은 어느 하나의 노드가 다른 노드보다 링크의 개수가 상대적으로 더 많다면, 해당 노드에 상응하는 문장은 다른 노드에 상응하는 문장에 비하여 기사의 제목 및 리드 문장과 상대적으로 더 밀접한 것으로 판단할 수 있기 때문이다. 이 같은 방식에 따라, 연결 중심성 평가부(430)는 그래프의 복수의 노드 중에서 연결 중심성이 높은 일부 노드를 (미리 정해진 순위에 따라) 선택하고, 선택된 일부 노드에 상응하는 일부 문장을 기사의 요약문을 구성하기 위한 문장으로 선택할 수 있다.
도 5에 도시된 바와 같이, 연결 중심성 평가부(430)는 기사의 리드 문장(21) 및 보충 문장(22) 모두에 상응하는 노드들을 포함하는 그래프를 생성하고, 복수의 문장들(21, 22)이 상기 선정된 키워드를 포함하는 지에 따라 상응하는 노드들을 링크로 연결할 수 있다. 후술하는 바와 같이, 기사의 요약문은 리드 문장(21) 및 연결 중심성 평가부(430)에 의해 선택된 일부 보충 문장(22)으로 구성되기 때문에, 연결 중심성을 평가하는 과정에서, 연결 중심성 평가부(430)는 리드 문장(21)에 대한 연결 중심성 평가를 생략할 수 있다.
또는, 도 6에 도시된 바와 같이, 연결 중심성 평가부(430)는 기사의 복수의 문장 중 (리드 문장(21)을 제외한) 나머지 보충 문장(22)만으로 그래프를 생성할 수도 있다. 그리고, 연결 중심성 평가부(430)는 복수의 보충 문장(22)들이 상기 선정된 키워드를 포함하는 지에 따라 상응하는 노드들을 링크로 연결할 수 있다.
기사 요약부(440)는 기사의 리드 문장(21) 및 연결 중심성 평가부(430)에 의해 선택된 일부 보충 문장(22)으로 구성된 요약문을 생성한다. 도 7의 예시에서, 기사 요약부(440)는 두 개의 리드 문장 및 세 개의 선택된 보충 문장으로 기사의 요약문을 생성하였으나, 본 발명이 이에 한정되는 것은 아니다. 기사의 요약문을 구성하기 위하여 선택되는 보충 문장의 개수는 기사의 길이, 사용자의 설정 등에 따라 다양하게 변형될 수 있을 것이다.
본 발명에서는 기사 요약부(440)는 기사의 요약문 내에 리드 문장 및 선택된 일부 보충 문장을 기사의 본문의 순서에 따라 배치할 수 있다. 연결 중심성 평가부(430)에 의해 평가된 연결 중심성이 높은 순위에 따라 문장의 순서를 재배치하는 것은 글의 흐름에 어긋날 수 있기 때문이다.
하기 그림1과 그림2는 위와 같은 본 발명에서의 기사 요약과정의 단계를 보다 구체적인 방법으로 설명하는 그림이다.
Figure 112015031238412-pat00001
[그림 1]
Figure 112015031238412-pat00002
[그림2]
그림1과 그림2는 본 명세서에서 설명되는 기사 요약 방법의 실제 예를 보여주는 것으로서, 그림1에서는 집값에 대한 원본 기사의 일부를 보여주고 있고, 예시적으로 상기 기사의 제목 및 상기 기사의 시작부의 리드문장으로부터 키워드를 선정한 것을 나타내고 있다. 선정된 키워드는 하이라이트되어 표시하여 구별하였고, '거품', '집값', '서울', '자산가격', '소득' 등을 포함하는 것을 알 수 있다.
이제 그림2는 예시적인 키워드 선정과정과 보충문장 선정매커니즘을 조금 더 도식화해서 보여주고 있다. 첫째, 기사의 모든 문장에 포함되어 있는 단어로부터 핵심키워드를 선별한다. 예를 들어 1번째 문장 등으로부터 '거품', 6번째 문장으로부터 '9'배를 선별하는 방식이다. 그리고 나서 그와 같이 선정된 핵심키워드를 이용하여 보충문장을 선별하는데, 본 그림2에서는 1번째 문장과 2번째 문장은 요약문에 포함되는 것으로 가정하고서(일컨데, 리드문장으로서 포함) 3번째 문장 이하를 대상으로만 보충문장을 선별한다(물론 본 발명의 바람직한 실시예에서는 제목 및/또는 리드문장으로부터 키워드를 선별할 수 있으나 본 그림은 예시적으로 선별 매커니즘을 효율적으로 설명하기 위하여 전체 문장을 대상으로 키워드를 선정하는 방식으로 설명하는 것 뿐이다). 그 결과 예시적으로 3번째 문장은 '거품'이라는 키워드가 3회, '9배'라는 키워드가 1회, '소득'이라는 키워드가 1회, 합산하여 총 5회의 키워드를 기재하고 있어서 보충문장으로 선별하게 된다. 본 그림2에서는 예시적으로 보충문장 선별대상 문장 중에서 처음으로 등장한 3번째 문장이 가장 많은 키워드를 포함하는 것으로 설명했지만, 이것은 당연히 일예에 불과한 것이고 후순위 다른 문장들에서 가장 많은 키워드가 포함되어 있을 수 있는 것이다.
기사 요약문 제공부(450)는 기사의 요약문을 웹 서버(300) 또는 사용자 단말기(100)에 제공한다.
한편, 본 발명의 다른 실시예에 따른 기사 요약 서비스 서버는 도 2를 참조하여 설명한 기사 요약 서비스 서버(400)와 실질적으로 동일한 구성요소를 포함하지만, 키워드 선정부(420) 및 연결 중심성 평가부(430)의 기능 및 동작이 후술하는 바와 같이 일부 변형될 수 있다.
도 8을 참조하면, 키워드 선정부(420)는 기사를 제목(10) 및 복수의 문장(20)으로 구분할 수 있다. 도 3에 도시된 바와 다르게, 키워드 선정부(420)는 복수의 문장(20)을 리드 문장(Lead Sentences) 및 보충 문장(Supporting Sentences)으로 구분하지 않는다. 이러한 구분은, 후술하는 바와 같이, 제1 그래프에 대한 사회 연결망 분석 후에 이루어질 수 있다. 그리고, 키워드 선정부(420)는 기사의 제목(10)으로부터 적어도 하나의 제1 키워드를 추출하여 선정할 수 있다.
연결 중심성 평가부(430)는 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제1 그래프를 생성한다. 연결 중심성 평가부(430)는 기사의 어느 하나의 문장과 다른 하나의 문장이 상기 선정된 제1 키워드를 동시에 포함하고 있으면, 제1 그래프의 상응하는 노드를 링크로 연결할 수 있다. 이 때, 두 개의 문장이 동시에 포함하고 있는 제1 키워드의 개수가 두 개 이상이면, 연결 중심성 평가부(430)는 제1 그래프의 상응하는 노드를 동시에 포함하고 있는 제1 키워드의 개수와 동일한 개수의 링크로 연결할 수 있다.
본 실시예에서, 연결 중심성 평가부(430)는, 제1 그래프에 대하여 사회 연결망 분석을 적용하여, 제2 키워드를 추출하기 위한 리드 문장(21)을 선택한다. 연결 중심성 평가부(430)는 제1 그래프의 각각의 노드의 연결 중심성을 평가하고, 평가 결과를 이용하여 제2 키워드를 추출하기 위한 리드 문장(21)을 선택할 수 있다. 연결 중심성 평가부(430)는 각각의 노드에 연결된 링크의 개수를 기초로 각각의 노드의 연결 중심성(즉, In-Degree Centrality)을 평가할 수 있다. 이 같은 방식에 따라, 연결 중심성 평가부(430)는 제1 그래프의 복수의 노드 중에서 연결 중심성이 높은 일부 노드를 (미리 정해진 순위에 따라) 선택하고, 선택된 일부 노드에 상응하는 일부 문장을 제2 키워드를 추출하기 위한 리드 문장(21)으로 선택할 수 있다.
기사의 복수의 문장 중 리드 문장(21)이 선택되면, 키워드 선정부(420)가 다시 기사의 제목(10) 및 리드 문장(21)으로부터 적어도 하나의 제2 키워드를 추출하여 선정할 수 있다. 제2 키워드는 제1 키워드를 포함하거나 포함하지 않을 수 있다.
제2 키워드가 선정되면, 연결 중심성 평가부(430)는 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제2 그래프를 생성한다. 연결 중심성 평가부(430)는 기사의 어느 하나의 문장과 다른 하나의 문장이 상기 선정된 제2 키워드를 동시에 포함하고 있으면, 제2 그래프의 상응하는 노드를 링크로 연결할 수 있다. 이 때, 두 개의 문장이 동시에 포함하고 있는 제2 키워드의 개수가 두 개 이상이면, 연결 중심성 평가부(430)는 제2 그래프의 상응하는 노드를 동시에 포함하고 있는 제2 키워드의 개수와 동일한 개수의 링크로 연결할 수 있다.
연결 중심성 평가부(430)는, 기사의 요약문을 구성하는 문장을 선택하기 위하여, 상기 제2 그래프에 대하여 사회 연결망 분석을 적용한다. 연결 중심성 평가부(430)는 제2 그래프의 각각의 노드의 연결 중심성을 평가하고, 평가 결과를 이용하여 기사의 요약문을 구성하기 위한 문장을 선택할 수 있다. 연결 중심성 평가부(430)는 각각의 노드에 연결된 링크의 개수를 기초로 각각의 노드의 연결 중심성(즉, In-Degree Centrality)을 평가할 수 있다. 이 같은 방식에 따라, 연결 중심성 평가부(430)는 제2 그래프의 복수의 노드 중에서 연결 중심성이 높은 일부 노드를 (미리 정해진 순위에 따라) 선택하고, 선택된 일부 노드에 상응하는 일부 문장을 기사의 요약문을 구성하기 위한 문장으로 선택할 수 있다.
도 5 내지 도 6을 참조하여 상술한 바와 같이, 연결 중심성 평가부(430)는 기사의 리드 문장(21) 및 보충 문장(22) 모두에 상응하는 노드들을 포함하는 제2 그래프를 생성한 후, 연결 중심성을 평가하는 과정에서, 리드 문장(21)에 대한 연결 중심성 평가를 생략하거나, 기사의 복수의 문장 중 (리드 문장(21)을 제외한) 나머지 보충 문장(22)만으로 제2 그래프를 생성할 수 있다.
도 9의 예시에서, 기사 요약부(440)는 두 개의 선택된 리드 문장 및 세 개의 선택된 보충 문장으로 기사의 요약문을 생성하였다. 본 실시예에서는 기사의 리드 문장이 미리 결정되지 않고, 사회 연결망 분석을 이용하여 연결 중심성의 평가 결과에 따라 기사의 복수의 문장 중에서 선택된다는 점에서 차이점이 존재한다.
도 10은 본 발명의 실시예에 따른 기사 요약 서비스 서버가 적용될 수 있는 예시적인 시스템 환경의 변형예를 설명하기 위한 블록도이다.
도 10을 참조하면, 사용자 단말기(100), 퍼블리셔(Publisher)(200), 웹 서버(300)가 네트워크를 통해 서로 연결되고, 웹 서버(300)는 뉴스 요약 시스템(400`)을 포함한다.
뉴스 요약 시스템(400`)은 도 1 내지 도 9를 참조하여 설명한 뉴스 요약 서비스 서버(400)와 실질적으로 동일한 기능 및 동작을 수행할 수 있다. 도 10은 도 1의 뉴스 요약 서비스 서버(400)가 웹 서버(300)의 내부 구성요소로 구현된 경우를 도시한 것으로, 웹 서버(300)가 실질적인 도 1의 뉴스 요약 서비스 서버(400)로서 기능하게 된다.
이하에서는 첨부된 도 11 내지 도 12를 참조하여 본 발명의 실시예에 따른 기사 요약 서비스 방법을 설명하기로 한다. 설명의 편의를 위하여, 도 1 내지 도 10을 참조하여 설명한 사항과 중복되는 사항은 상세한 설명을 생략할 수 있다.
도 11은 본 발명의 일 실시예에 따른 기사 요약 서비스 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 단계 S510에서, 기사 요약 서비스 서버(400)는 퍼블리셔(200)에 의해 배포되는 기사를 획득한다.
이어서, 단계 S520에서, 기사 요약 서비스 서버(400)는 기사의 문장 구조를 분석하고, 기사의 제목(10) 및 리드 문장(21)으로부터 적어도 하나의 키워드를 추출하여 선정한다. 상술한 바와 같이, 기사의 리드 문장(21)으로 기사의 시작부에 위치하는 적절한 개수의 문장들이 미리 결정될 수 있다. 기사 요약 서비스 서버(400)는 N-GRAM, 형태소 분석 방법 등과 같이 본 발명의 기술분야에서 잘 알려진 다양한 방법들을 이용하여 기사의 제목(10) 및 리드 문장(21)으로부터 키워드를 추출할 수 있다.
이어서, 단계 S530에서, 기사 요약 서비스 서버(400)는 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 그래프를 생성하고, 선정된 키워드를 이용하여 그래프의 각각의 노드의 연결 중심성을 평가한다. 기사 요약 서비스 서버(400)는 기사의 어느 하나의 문장과 다른 하나의 문장이 선정된 키워드를 동시에 포함하고 있으면 그래프의 상응하는 노드를 링크로 연결하고, 각각의 노드에 연결된 링크의 개수를 기초로 각각의 노드의 연결 중심성을 평가할 수 있다. 기사 요약 서비스 서버(400)는 그래프의 복수의 노드 중에서 연결 중심성이 높은 일부 노드를 (미리 정해진 순위에 따라) 선택하고, 선택된 일부 노드에 상응하는 일부 문장을 기사의 요약문을 구성하기 위한 문장으로 선택할 수 있다. 상술한 바와 같이, 기사 요약 서비스 서버(400)는 기사의 리드 문장(21) 및 보충 문장(22) 모두에 상응하는 노드들을 포함하는 그래프를 생성한 후, 연결 중심성을 평가하는 과정에서, 리드 문장(21)에 대한 연결 중심성 평가를 생략하거나, 기사의 복수의 문장 중 (리드 문장(21)을 제외한) 나머지 보충 문장(22)만으로 그래프를 생성할 수 있다.
이어서, 단계 S540에서, 기사 요약 서비스 서버(400)는 리드 문장 및 선택된 보충 문장으로 구성된 요약문을 생성한다. 상술한 바와 같이, 기사의 요약문을 구성하기 위하여 선택되는 보충 문장의 개수는 기사의 길이, 사용자의 설정 등에 따라 다양하게 변형될 수 있다. 기사 요약 서비스 서버(400)는 기사의 요약문 내에 리드 문장 및 선택된 일부 보충 문장을 기사의 본문의 순서에 따라 배치할 수 있다.
이어서, 단계 S550에서, 기사 요약 서비스 서버(400)는 기사의 요약문을 사용자 단말기(100)에 제공한다.
도 12는 본 발명의 다른 실시예에 따른 기사 요약 서비스 방법을 설명하기 위한 흐름도이다.
도 12를 참조하면, 단계 S610에서, 기사 요약 서비스 서버(400)는 퍼블리셔(200)에 의해 배포되는 기사를 획득한다.
이어서, 단계 S620에서, 기사 요약 서비스 서버(400)는 기사의 제목으로부터 적어도 하나의 제1 키워드를 추출하여 선정한다. 기사 요약 서비스 서버(400)는 기사의 복수의 문장(20)을 리드 문장(Lead Sentences) 및 보충 문장(Supporting Sentences)으로 구분하지 않고, 기사의 제목(10)으로부터 적어도 하나의 제1 키워드를 추출하여 선정한다.
이어서, 단계 S630에서, 기사 요약 서비스 서버(400)는 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제1 그래프를 생성하고, 선정된 제1 키워드를 이용하여 제1 그래프의 각각의 노드의 연결 중심성을 평가한다. 기사 요약 서비스 서버(400)는 기사의 어느 하나의 문장과 다른 하나의 문장이 선정된 키워드를 동시에 포함하고 있으면 제1 그래프의 상응하는 노드를 링크로 연결하고, 각각의 노드에 연결된 링크의 개수를 기초로 각각의 노드의 연결 중심성을 평가할 수 있다. 기사 요약 서비스 서버(400)는 제1 그래프의 복수의 노드 중에서 연결 중심성이 높은 일부 노드를 (미리 정해진 순위에 따라) 선택하고, 선택된 일부 노드에 상응하는 일부 문장을 제2 키워드를 추출하기 위한 리드 문장(21)으로 선택할 수 있다.
이어서, 단계 S640에서, 기사 요약 서비스 서버(400)는 기사의 제목(10) 및 리드 문장(21)으로부터 적어도 하나의 제2 키워드를 추출하여 선정한다. 제2 키워드는 제1 키워드를 포함하거나 포함하지 않을 수 있다.
이어서, 단계 S650에서, 기사 요약 서비스 서버(400)는 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제2 그래프를 생성하고, 선정된 제2 키워드를 이용하여 제2 그래프의 각각의 노드의 연결 중심성을 평가한다. 기사 요약 서비스 서버(400)는 기사의 어느 하나의 문장과 다른 하나의 문장이 선정된 제2 키워드를 동시에 포함하고 있으면 제2 그래프의 상응하는 노드를 링크로 연결하고, 각각의 노드에 연결된 링크의 개수를 기초로 각각의 노드의 연결 중심성을 평가할 수 있다. 기사 요약 서비스 서버(400)는 제2 그래프의 복수의 노드 중에서 연결 중심성이 높은 일부 노드를 (미리 정해진 순위에 따라) 선택하고, 선택된 일부 노드에 상응하는 일부 문장을 기사의 요약문을 구성하기 위한 문장으로 선택할 수 있다. 상술한 바와 같이, 기사 요약 서비스 서버(400)는 기사의 리드 문장(21) 및 보충 문장(22) 모두에 상응하는 노드들을 포함하는 제2 그래프를 생성한 후, 연결 중심성을 평가하는 과정에서, 리드 문장(21)에 대한 연결 중심성 평가를 생략하거나, 기사의 복수의 문장 중 (리드 문장(21)을 제외한) 나머지 보충 문장(22)만으로 제2 그래프를 생성할 수 있다.
이어서, 단계 S660에서, 기사 요약 서비스 서버(400)는 리드 문장 및 선택된 보충 문장으로 구성된 기사의 요약문을 생성한다. 기사 요약 서비스 서버(400)는 기사의 요약문 내에 선택된 리드 문장 및 선택된 일부 보충 문장을 기사의 본문의 순서에 따라 배치할 수 있다.
이어서, 단계 S670에서, 기사 요약 서비스 서버(400)는 기사의 요약문을 사용자 단말기(100)에 제공한다.
본 실시예에서는 기사의 리드 문장이 미리 결정되지 않고, 사회 연결망 분석을 이용하여 연결 중심성의 평가 결과에 따라 기사의 복수의 문장 중에서 선택된다는 점에서 차이점이 존재한다.
본 발명의 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는, 프로세서에 의해 실행되는 하드웨어 모듈, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM, EPROM, EEPROM, 플래시 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체에 상주할 수도 있다. 예시적인 기록 매체는 프로세서에 연결되며, 상기 프로세서는 기록 매체로부터 정보를 독출할 수 있고 기록 매체에 정보를 기입할 수 있다. 다른 방법으로, 기록 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 기록 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 기록 매체는 사용자 단말기 내에 개별 구성 요소로서 상주할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
400: 뉴스 요약 서비스 서버
410: 기사 획득부
420: 키워드 선정부
430: 연결 중심성 평가부
440: 기사 요약부
450: 기사 요약문 제공부

Claims (22)

  1. 퍼블리셔에 의해 배포되는 기사를 획득하는 기사 획득부;
    상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 키워드를 선정하는 키워드 선정부;
    상기 기사의 복수의 문장에 상응하는 복수의 노드를 설정하고, 상기 선정된 키워드를 이용하여 상기 문장에 상응되게 설정된 각각의 노드의 연결 중심성을 평가하고, 상기 평가된 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 연결 중심성 평가부; 및
    상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 기사 요약부를 포함하는, 기사 요약 서비스 서버.
  2. 제1항에 있어서,
    상기 키워드 선정부는 상기 기사의 제목 및 상기 기사의 시작부에 위치하는 적어도 하나의 제1 문장으로부터 상기 적어도 하나의 키워드를 선정하는, 기사 요약 서비스 서버.
  3. 제1항에 있어서,
    상기 연결 중심성 평가부는 상기 기사의 복수의 문장이 상기 적어도 하나의 키워드를 동시에 포함하면 상기 문장에 대응하는 복수의 노드를 링크로 연결하는, 기사 요약 서비스 서버.
  4. 제3항에 있어서,
    상기 각각의 노드의 상기 연결 중심성은 상기 각각의 노드에 연결된 상기 링크의 개수에 상응하는, 기사 요약 서비스 서버.
  5. 제1항에 있어서,
    상기 복수의 노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응하는, 기사 요약 서비스 서버.
  6. 제1항에 있어서,
    적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 기사 요약문 제공부를 더 포함하는, 기사 요약 서비스 서버.
  7. 퍼블리셔에 의해 배포되는 기사를 획득하는 기사 획득부;
    상기 기사의 제목으로부터 적어도 하나의 제1 키워드를 선정하고, 상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 제2 키워드를 선정하는 키워드 선정부;
    상기 기사의 복수의 문장에 상응하는 복수의 제1노드를 설정하고, 상기 선정된 제1 키워드를 이용하여 상기 문장에 상응되게 설정된각각의 제1노드의 제1 연결 중심성을 평가하고, 상기 평가된 제1 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제1 문장을 선택하고, 상기 기사의 복수의 문장에 상응하는 복수의 제2노드를 설정하고, 상기 선정된 제2 키워드를 이용하여 상기 문장에 상응되게 설정된 각각의 제2노드의 제2 연결 중심성을 평가하고, 상기 평가된 제2 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 연결 중심성 평가부; 및
    상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 기사 요약부를 포함하는, 기사 요약 서비스 서버.
  8. 제7항에 있어서,
    상기 연결 중심성 평가부는 상기 기사의 복수의 문장이 상기 적어도 하나의 제1 키워드를 동시에 포함하면 상기 상응하는 복수의 제1노드를 제1 링크로 연결하고, 상기 기사의 복수의 문장이 상기 적어도 하나의 제2 키워드를 동시에 포함하면 상기 상응하는 복수의 제2노드를 제2 링크로 연결하는, 기사 요약 서비스 서버.
  9. 제8항에 있어서,
    상기 각각의 제1노드의 상기 제1 연결 중심성은 상기 각각의 제1노드에 연결된 상기 제1 링크의 개수에 상응하고, 상기 각각의 제2노드의 상기 제2 연결 중심성은 상기 각각의 제2노드에 연결된 상기 제2 링크의 개수에 상응하는, 기사 요약 서비스 서버.
  10. 제7항에 있어서,
    상기 복수의 제2노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응하는, 기사 요약 서비스 서버.
  11. 제7항에 있어서,
    적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 기사 요약문 제공부를 더 포함하는, 기사 요약 서비스 서버.
  12. 퍼블리셔에 의해 배포되는 기사를 획득하는 단계;
    상기 기사의 제목 및 적어도 하나의 제1 문장으로부터 적어도 하나의 키워드를 선정하는 단계;
    상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 그래프를 생성하고, 상기 선정된 키워드를 이용하여 상기 그래프의 각각의 노드의 연결 중심성을 평가하고, 상기 평가된 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 단계; 및
    상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 단계를 포함하는, 기사 요약 서비스 방법.
  13. 제12항에 있어서,
    상기 적어도 하나의 키워드를 선정하는 단계는 상기 기사의 제목 및 상기 기사의 시작부에 위치하는 적어도 하나의 제1 문장으로부터 상기 적어도 하나의 키워드를 선정하는 단계인, 기사 요약 서비스 방법.
  14. 제12항에 있어서,
    상기 그래프를 생성하는 단계는 상기 기사의 복수의 문장이 상기 적어도 하나의 키워드를 동시에 포함하면 상기 그래프의 상응하는 복수의 노드를 링크로 연결하는 단계를 포함하는, 기사 요약 서비스 방법.
  15. 제14항에 있어서,
    상기 그래프의 각각의 노드의 상기 연결 중심성은 상기 각각의 노드에 연결된 상기 링크의 개수에 상응하는, 기사 요약 서비스 방법.
  16. 제12항에 있어서,
    상기 그래프의 복수의 노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응하는, 기사 요약 서비스 방법.
  17. 제12항에 있어서,
    적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 단계를 더 포함하는, 기사 요약 서비스 방법.
  18. 퍼블리셔에 의해 배포되는 기사를 획득하는 단계;
    상기 기사의 제목으로부터 적어도 하나의 제1 키워드를 선정하는 단계;
    상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제1 그래프를 생성하고, 상기 선정된 제1 키워드를 이용하여 상기 제1 그래프의 각각의 노드의 제1 연결 중심성을 평가하고, 상기 평가된 제1 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제1 문장을 선택하는 단계;
    상기 기사의 제목 및 상기 적어도 하나의 제1 문장으로부터 적어도 하나의 제2 키워드를 선정하는 단계;
    상기 기사의 복수의 문장에 상응하는 복수의 노드를 포함하는 제2 그래프를 생성하고, 상기 선정된 제2 키워드를 이용하여 상기 제2 그래프의 각각의 노드의 제2 연결 중심성을 평가하고, 상기 평가된 제2 연결 중심성을 이용하여 상기 기사의 적어도 하나의 제2 문장을 선택하는 단계; 및
    상기 적어도 하나의 제1 문장 및 상기 적어도 하나의 제2 문장으로 구성된 상기 기사의 요약문을 생성하는 단계를 포함하는, 기사 요약 서비스 방법.
  19. 제18항에 있어서,
    상기 제1 그래프를 생성하는 단계는 상기 기사의 복수의 문장이 상기 적어도 하나의 제1 키워드를 동시에 포함하면 상기 제1 그래프의 상응하는 복수의 노드를 제1 링크로 연결하는 단계를 포함하고,
    상기 제2 그래프를 생성하는 단계는 상기 기사의 복수의 문장이 상기 적어도 하나의 제2 키워드를 동시에 포함하면 상기 제2 그래프의 상응하는 복수의 노드를 제2 링크로 연결하는 단계를 포함하는, 기사 요약 서비스 방법.
  20. 제19항에 있어서,
    상기 제1 그래프의 각각의 노드의 상기 제1 연결 중심성은 상기 각각의 노드에 연결된 상기 제1 링크의 개수에 상응하고,
    상기 제2 그래프의 각각의 노드의 상기 제2 연결 중심성은 상기 각각의 노드에 연결된 상기 제2 링크의 개수에 상응하는, 기사 요약 서비스 방법.
  21. 제18항에 있어서,
    상기 제2 그래프의 복수의 노드는 상기 기사의 복수의 문장 중 상기 적어도 하나의 제1 문장을 제외한 나머지 문장에 상응하는, 기사 요약 서비스 방법.
  22. 제18항에 있어서,
    적어도 하나의 제1문장, 적어도 하나의 제2문장간의 요약문에서의 배치 순서와 제2문장들 간의 요약문에서의 배치 순서를 평가된 연결 중심성의 우선순위에 관계없이 기사 본문의 순서에 따라 결정하여 사용자 단말기에 상기 기사의 요약문을 제공하는 단계를 더 포함하는, 기사 요약 서비스 방법.
KR1020150044648A 2015-03-30 2015-03-30 기사 요약 서비스 서버 및 방법 Active KR101583073B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150044648A KR101583073B1 (ko) 2015-03-30 2015-03-30 기사 요약 서비스 서버 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150044648A KR101583073B1 (ko) 2015-03-30 2015-03-30 기사 요약 서비스 서버 및 방법

Publications (1)

Publication Number Publication Date
KR101583073B1 true KR101583073B1 (ko) 2016-01-12

Family

ID=55170217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150044648A Active KR101583073B1 (ko) 2015-03-30 2015-03-30 기사 요약 서비스 서버 및 방법

Country Status (1)

Country Link
KR (1) KR101583073B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699062B2 (en) 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
CN111651588A (zh) * 2020-06-10 2020-09-11 扬州大学 一种基于有向图的文章摘要信息提取算法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266144A1 (en) 2006-05-09 2007-11-15 Johan Bollen Usage based indicators to assess the impact of scholarly works: architecture and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266144A1 (en) 2006-05-09 2007-11-15 Johan Bollen Usage based indicators to assess the impact of scholarly works: architecture and method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699062B2 (en) 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US11017156B2 (en) 2017-08-01 2021-05-25 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US11574116B2 (en) 2017-08-01 2023-02-07 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
CN111651588A (zh) * 2020-06-10 2020-09-11 扬州大学 一种基于有向图的文章摘要信息提取算法
CN111651588B (zh) * 2020-06-10 2024-03-05 扬州大学 一种基于有向图的文章摘要信息提取算法

Similar Documents

Publication Publication Date Title
JP5662961B2 (ja) レビュー処理方法およびシステム
Brügger et al. The web and digital humanities: Theoretical and methodological concerns
US9990422B2 (en) Contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
US10235681B2 (en) Text extraction module for contextual analysis engine
US9069867B2 (en) Resource management system, method and program for selecting candidate tag
US8359371B2 (en) Input candidate providing device, input candidate providing system, input candidate providing method, and input candidate providing program
Taneja Mapping an audience-centric World Wide Web: A departure from hyperlink analysis
CN108090104B (zh) 用于获取网页信息的方法和装置
US10176260B2 (en) Measuring semantic incongruity within text data
Jiang et al. Cloud service recommendation based on unstructured textual information
CN110546633A (zh) 文档的基于命名实体的类别标签添加
JP6663005B2 (ja) インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
WO2015135600A1 (en) Method and computer product for automatically generating a sorted list from user generated input and / or metadata derived form social media platforms
JP5406794B2 (ja) 検索クエリ推薦装置及び検索クエリ推薦プログラム
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
KR101583073B1 (ko) 기사 요약 서비스 서버 및 방법
US9648130B1 (en) Finding users in a social network based on document content
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
KR101626953B1 (ko) 사용자 성향 기반 아이템 추천 시스템 및 방법
Dokoohaki et al. Mining divergent opinion trust networks through latent dirichlet allocation
JP6696018B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6079207B2 (ja) キーワード提示プログラム、キーワード提示方法及びキーワード提示装置
Bahry et al. Preffered information quality factors as a web content quality measures on malaysian government websites: A conceptual paper

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20150330

PA0201 Request for examination
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20151218

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20151230

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20151231

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20181113

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20181113

Start annual number: 4

End annual number: 6

FPAY Annual fee payment

Payment date: 20190329

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20190329

Start annual number: 7

End annual number: 9

PR1001 Payment of annual fee

Payment date: 20241010

Start annual number: 10

End annual number: 10