[go: up one dir, main page]

KR20140056402A - 전자 문서 컬렉션 내의 멀티-섹션 문서들의 타겟화된 조사를 위한 방법, 시스템 및 장치 - Google Patents

전자 문서 컬렉션 내의 멀티-섹션 문서들의 타겟화된 조사를 위한 방법, 시스템 및 장치 Download PDF

Info

Publication number
KR20140056402A
KR20140056402A KR1020117029395A KR20117029395A KR20140056402A KR 20140056402 A KR20140056402 A KR 20140056402A KR 1020117029395 A KR1020117029395 A KR 1020117029395A KR 20117029395 A KR20117029395 A KR 20117029395A KR 20140056402 A KR20140056402 A KR 20140056402A
Authority
KR
South Korea
Prior art keywords
document
collection
vector
intellectual property
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020117029395A
Other languages
English (en)
Inventor
제이슨 데이비드 레스닉
랜디 더블유. 라카세
Original Assignee
씨피에이 소프트웨어 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 씨피에이 소프트웨어 리미티드 filed Critical 씨피에이 소프트웨어 리미티드
Publication of KR20140056402A publication Critical patent/KR20140056402A/ko
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

전자 문서 컬렉션을 효율적이고 효과적으로 조사하기 위한 방법, 시스템, 및 물품이 제공된다. 컬렉션 내의 문서들의 각각은 서브-섹션들로 미리 구분되고, 또한 각 문서의 각 서브-섹션의 하나 또는 결합을 위한 정적 문서 벡터가 생성된다. 문서 컬렉션으로 전송될 쿼리 스트링을 위한 동적 문서 벡터가 생성된다. 쿼리의 파라미터들에 근거하여, 동적 문서 벡터를 선택 정적 문서 벡터와 비교함에 있어 각 문서의 선택 서브-섹션들이 이용된다. IP 문서들의 컴필레이션은 동적 문서 벡터의 범위에 들어가는 모든 관련된 선택 정적 문서 벡터들에 근거하여 생성된다.

Description

전자 문서 컬렉션 내의 멀티-섹션 문서들의 타겟화된 조사를 위한 방법, 시스템 및 장치{METHOD, SYSTEM, AND APPARATUS FOR TARGETED SEARCHING OF MULTI-SECTIONAL DOCUMENTS WITHIN AN ELECTRONIC DOCUMENT COLLECTION}
본 발명은 전자 문서 컬렉션, 및 쿼리의 수신에 응답한 컬렉션의 조사에 관한 것이다. 보다 구체적으로, 본 발명은 각 문서의 복수의 섹션들의 분류, 및 컬렉션 내 문서들의 분류된 섹션에 반응하는 쿼리의 처리에 관한 것이다.
특허, 상표, 및 저작권 출원을 포함하는 모든 지적 재산 문서들은, 등록 또는 심사를 위해, 이러한 출원을 수신하도록 할당된 정부 단체에 제출되어야 한다. 심사를 위해 정부 특허청에 제출된 특허 출원들은, 각 특허가 새롭고, 유용하고, 비자명한 것으로 간주되어야 한다는 것을 포함하여, 일정한 요건들을 충족하여야 한다. 유사한 기준들이 모든 외국 특허청들은 아니지만 대부분의 외국 특허청들에서 적용된다. 발명 당 단 하나의 지적 재산 문서만이 등록될 수 있기 때문에, 심사를 위해 특허 출원을 적절하게 준비하기 위해 관련 기술분야에 있는 종래발명들(즉, 종래기술)에 대한 지식을 얻는 것이 유용하다. 종래기술의 확인 과정은 특허 조사로서 알려져 있다. 일반적으로 특허 조사 결과들은 어떤 다음의 지적 재산 출원 드래프터들로 하여금 특허가능한 주제로 보이는 것에 그들의 노력을 집중하도록 도움을 주고, 또한 발명자 또는 특허권들의 소유자의 목적을 달성하기 위한 적절한 전략의 개발에 도움을 준다.
현재의 전자 정보 시대로의 기술의 발전 이전에, 특허 조사들이 수동으로 행해졌다는 것이 알려졌다. 조사자는 특허 개시물을 검토하고 특허 분류 시스템에 근거하여, 특허 개시물이 분류될 수 있는 곳을 확인하고, 그 후 조사를 수행한다. 정보 기술의 출현으로, 모든 특허들 및 특허 출원 공개들은 전자 형태로만 이용가능하기 때문에, 종이 조사들은 더 이상 이용할 수 없다. 전자 형태의 특허 문서에 대해서도, 수작업 조사에 대해 이용된 유사한 전략들이 전자 특허 데이터베이스의 조사에 이용될 수 있다.
다른 결과들을 얻기 위하여 다른 부류의 조사들이 의뢰될 수 있다. 예를 들면, 특허를 위해 출원할지 여부를 확인하기 위한 신규성 조사가 의뢰될 수 있다. 제품이 현재 특허의 청구범위에서 보호되는지 여부를 확인하기 위한 제품 클리어런스(clearance) 조사가 의뢰될 수 있다. 특허의 등록 청구범위가 유효한지 여부 등을 판단하기 위한 무효성 조사가 의뢰될 수 있다. 종래의 전자 조사 도구들은 다른 부류의 조사들을 지원하지 않는다. 오히려, 조사 범위를 기반으로 하여 조사에서 검토될 특허 문서의 섹션들을 제한하는 것은 조사를 수행하는 사람(조사자)에게 부담이 된다. 데이터베이스 내에 있는 허여된 특허들 및 특허 출원 공개들의 양이 증가함에 따라, 각 조사를 위해, 더욱 많은 특허들 및 특허 출원 공개들이 검토될 필요가 있어 조사에 대한 부담이 증가한다.
따라서, 조사 및 관련 조사 범위와 관련된 부담들을 경감시키도록 조사자가 사용할 도구(tool)에 대한 요구가 있다. 이 도구는 정확하고 바람직한 조사 결과들을 보다 효율적이고 효과적으로 얻기 위하여, 조사자로 하여금 조사 동안 특허 문서의 서로 다른 섹션들을 레버리지할 수 있게 하여야 한다.
본 발명은 특허 문서들과 같은 지적 재산 문서들의 컬렉션을 효율적이고 효과적으로 조사하기 위한 방법, 시스템, 및 품목을 포함한다.
본 발명의 하나의 측면에 있어서, 전자 문서 컬렉션을 조사하기 위한 컴퓨터 방법이 제공된다. 지적 재산 문서의 컬렉션은 컴파일링되며, 컬렉션 내의 지적 재산 문서들 각각은 복수의 섹션들로 이루어진다. 예를 들면, 컬렉션의 인덱싱 시에, 컬렉션 내의 각 특허 문서를 위한 적어도 하나의 문서 벡터가 획득된다. 문서 벡터의 획득은 컬렉션 내의 각 문서를 위한 적어도 하나의 정적 문서 벡터를 포함한다. 컬렉션으로의 쿼리의 전송 시에, 쿼리 입력과 함께 전송된 스트링을 기반으로 하여 동적 문서 벡터가 생성된다. 컬렉션으로의 쿼리 입력의 전송은 쿼리 입력과 관련된 동적 문서 벡터와 컬렉션 내의 각 정적 문서 벡터의 비교를 초래한다. 관련 특허 문서들의 컴필레이션(compilation)은 동적 문서 벡터와 컬렉션 내의 각 정적 문서 벡터들의 비교를 기반으로 하여 리턴된다.
본 발명의 또 다른 측면에 있어서, 컴퓨터 시스템은 저장 매체와 통신하는 프로세서를 구비하며, 저장 매체에 전자 문서 컬렉션이 저장되어 있다. 전자 문서 컬렉션은 특허 또는 다른 지적 재산 문서들의 컴필레이션이다. 특허 문서들의 특징들을 기반으로 하여, 컬렉션 내의 특허 문서들의 각각은 복수의 섹션들을 갖는다. 인덱싱 시에, 컬렉션 내의 각 특허 문서를 위한 적어도 하나의 문서 벡터가 획득된다. 문서 벡터의 생성은 문서 컬렉션 내의 각 특허 문서를 위한 적어도 하나의 정적 문서 벡터의 생성을 포함한다. 쿼리 시에, 동적 문서 벡터는 쿼리 입력으로부터 수신된 스트링으로부터 생성된다. 동적 문서 벡터의 생성에 이어서, 쿼리 입력은 전자 특허 문서 컬렉션으로 전송된다. 입력 관리자와 통신하는 쿼리 관리자는 특허 문서 컬렉션으로의 쿼리 입력의 전송에 응답하여 동적 문서 벡터를 컬렉션 내의 각 정적 문서 벡터와 비교한다. 쿼리 관리자에 의한 전송에 이어서, 관련 특허 문서들의 컴필레이션은 동적 및 정적 문서 벡터들의 비교에 근거하여 컴필레이션과 함께 리턴된다.
본 발명의 또 하나의 측면에 있어서, 물품은 컴퓨터 메모리에서 전자 문서 컬렉션을 조사하도록 구성된 컴퓨터 프로그램 명령어들을 포함하는 컴퓨터-읽기 가능 캐리어를 구비한다. 컴퓨터-읽기 가능 캐리어는 문서 컬렉션 상에서 (쿼리를) 수행하기 위한 컴퓨터 프로그램 명령어들을 포함한다. 특허 문서들의 컬렉션을 컴파일하기 위한 명령어들이 제공된다. 컬렉션 내의 특허 문서들의 각각은 복수의 섹션들로 구분된다. 컬렉션의 인덱싱 시에, 컬렉션 내의 각 특허 문서를 위한 적어도 하나의 문서 벡터를 획득하기 위한 명령어들이 제공된다. 이것은 문서 컬렉션 내의 각 특허 문서를 위한 적어도 하나의 정적 문서 벡터의 생성을 포함한다. 컬렉션으로의 쿼리의 전송 시에, 쿼리 입력으로부터의 스트링 데이터에 근거하여 동적 문서 벡터를 생성하기 위한 명령어들이 제공된다. 동적 문서 벡터의 생성에 이어서, 쿼리는 동적 문서 벡터와 컬렉션 내의 각 정적 문서 벡터를 비교하기 위해, 전자 특허 문서 컬렉션으로 전송된다. 쿼리 전송의 결과들은 쿼리 입력과 관련된 동적 문서 벡터와 각 정적 문서 벡터들의 비교에 근거하여 리턴된 관련 특허 문서들의 컴필레이션을 포함한다.
본 발명의 다른 특징들 및 장점들은 첨부한 도면들과 관련된 본 발명의 바람직한 실시예인 아래의 상세한 설명으로부터 명백할 것이다.
여기에 참조된 도면들은 명세서의 일부를 이룬다. 도면들에 도시된 특징들은 본 발명의 일부 실시예들만의 예시를 위한 것으로, 명확히 나타낸 것이 아니라면 본 발명의 모든 실시예들이 아니다. 그렇지 않다면, 그에 반대되는 의미는 이루어질 수 없다.
도 1은 전자 문서 컬렉션, 보다 구체적으로 특허들과 특허 공개들 및 관련 있는 컬렉션의 조사를 예시한 흐름도이다.
도 2는 특허 문서 컬렉션으로의 쿼리의 전송을 위한 일반적인 처리를 예시한 흐름도이다.
도 3은 특허 문서 컬렉션 내의 정적 문서 벡터들을 더 파싱하는 스톱 단어들을 이용하기 위한 처리를 예시한 흐름도이다.
도 4는 컬렉션 내의 각 특허 문서에 대한 복수의 문서 벡터들을 생성하기 위한 처리를 예시한 흐름도이다.
도 5는 본 발명의 바람직한 실시예에 따라, 복수의 문서 벡터들을 구비한 문서 컬렉션으로의 쿼리의 전송을 위한 처리를 예시한 흐름도로서, 등록 특허의 첫번째 페이지에 프린팅을 위해 제안된다.
도 6은 전자 문서 컬렉션으로 전송된 쿼리를 처리하기 위해 사용된 한 세트의 도구들을 예시한 흐름도이다.
도 7은 전자 문서 컬렉션을 조사하는 사용자 입력 지정을 위한 사용자 인터페이스의 블록도이다.
전체적으로 설명되고 도면들에 예시된 본 발명의 구성요소들이 광범위한 다른 구성들로 배열 및 설계될 수 있다는 것을 쉽게 이해할 것이다. 따라서, 도면들에 제공된 본 발명의 장치, 시스템, 및 방법의 실시예들의 다음의 상세한 설명은 청구된 바와 같이 본 발명의 범위를 한정하려는 것이 아니고, 단지 본 발명의 선택된 실시예들을 나타낸다.
이 명세서에 기재된 기능 유닛들은 관리자들로서 분류된다. 관리자는 프로그램가능 하드웨어 디바이스들(예를 들면, FPGA(Field Programmable Gate Arrays), PAL(Programmable Array Logic), PLD(Programmable Logic Deivces) 등)로 구현될 수 있다. 관리자는 다양한 종류의 프로세서들에 의해 실행되는 소프트웨어로도 구현될 수 있다. 예를 들면, 식별된 관리자의 실행 가능 코드는, 예를 들어 객체, 프로시져, 함수, 또는 다른 구조(construct)로 조직될 수 있는 하나 이상의 컴퓨터 명령 로직 블록들을 포함할 수 있다. 그럼에도 불구하고, 식별된 관리자의 실행 가능물들은 물리적으로 함께 위치할 필요는 없지만, 논리적으로 함께 결합되면 관리자를 포함하는 서로 다른 위치들에 저장된 다른 명령어들을 포함하여, 관리자에 대해 설명한 목적을 달성할 수 있다.
실제로, 관리자의 실행가능 코드는 단일 명령어이거나 또는 많은 명령어들일 수 있으며, 수개의 서로 다른 코드 세그먼트들에 걸쳐, 서로 다른 애플리케이션들 중에, 및 수개의 메모리 디바이스들에 걸쳐 분배될 수도 있다. 유사하게, 운용 데이터가 관리자 내에서 식별 및 예시될 수 있으며, 어떤 적절한 형태로 구체화되어 어떤 적절한 타입의 데이터 구조 내에 조직될 수 있다. 운용 데이터는 단일 데이터 세트로서 수집되거나, 또는 다른 저장 디바이스를 포함하는 다른 위치들에 걸쳐 제공될 수 있으며, 적어도 부분적으로, 시스템 또는 네트워크상의 전자 신호들로서 존재할 수 있다.
이 명세서 전반에 걸쳐 "선택 실시예", "일실시예", 또는 "실시예"는, 실시예와 관련하여 기재된 특정한 특징, 구조, 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 이 명세서 전반에 걸쳐 다양한 위치에 있는 문구들 "선택 실시예", "일실시예에서", 또는 "실시예에서"의 등장은 반드시 동일한 실시예를 언급하는 것은 아니다.
또한, 기재된 특징들, 구조들, 또는 특성들은 어떤 적절한 방식으로 하나 이상의 실시예들에 결합될 수 있다. 아래의 설명에서, 본 발명의 실시예들의 완전한 이해를 제공하기 위해 문서 관리자들, 입력 관리자들, 쿼리 관리자들 등과 같은 많은 특정한 상세들이 제공된다. 하지만, 특정한 상세들 중 하나 이상이 없이 또는 다른 방법들, 구성요소들, 요소들 등으로 본 발명이 실행될 수 있다는 것을 이 기술분야의 당업자는 이해할 것이다. 다른 예들의 경우, 본 발명의 애매한 측면들을 회피하기 위하여 잘 알려진 구조들, 요소들, 또는 동작들이 상세히 도시되거나 설명되지 않았다.
본 발명에 예시된 실시예들은, 동일한 부분들은 동일한 부호들로 나타낸 도면들을 참조하면 가장 잘 이해될 것이다. 다음의 설명은 오로지 예시를 위한 것으로, 여기에 청구된 발명과 일치하는 디바이스들, 시스템들, 및 프로세서들의 어떤 선택된 실시예들을 나타낸다.
정적 및 동적 문서 벡터들은 지적 재산 문서와 함께 이용된다. 이하에서는, 논의가 특허 문서로 특정될 것이다. 일실시예에서, 문서 벡터들의 응용은 어떤 지적 재산 문서에 적용될 것이다. 문서 벡터는 일련의 (키워드, 가중치) 쌍들로, 여기서 키워드는 근원적인 문서와 관련된 워드 또는 구(phrase)이며, 가중치는 그 문서들에 대해 키워드가 얼마나 중요한지를 측정하는 수치이다. 보다 구체적으로, 문서 벡터들은 문서들 사이의 비교를 용이하게 하는 방식으로 문서 내용을 나타내는 일종의 문서 서명(signature)이다. 문서 벡터들은 문서의 비구조적인 원문 내용에 대한 수치 표현이다. 정적 문서 벡터들은 특허들 및 특허 출원 공개들과 관련되어 있는데, 이들 문서들은 빈번한 변화의 대상이 아니다. 동적 문서 벡터는 특허 문서 컬렉션으로 전송된 쿼리 스트링 데이터(이하에서는 "스트링들"(strings)라고도 언급됨)와 관련되어 있다. 정적 문서 벡터들은, 특허들에 특유하고, 조사를 수행함에 있어 최소값을 갖는 스트링들을 배제하기 위해, 파싱될 수 있다. 제외된 스트링들은 스톱 단어들로서 언급될 수 있다. 일실시예에서, 여기에 이용된 스톱 단어들은 특허 군집(community)에 특유하다. 또한, 각 특허 문서들은 그 안에 섹션들이 정의되어 있는데, 각 섹션은 특허 문서의 서로 다른 부분들을 식별한다. 특허 조사를 수행하는 경우, 특허 문서의 서로 다른 섹션들에 평가된 서로 다른 값들이 있다. 엄밀하게, 특허 조사의 범위에 따른 이런 조사는 특허 문서들의 특정 섹션들에 한정될 수 있다. 따라서 문서 벡터들은, 컬렉션에 전송된 쿼리와 관련 있는 데이터를 갖는 결과 세트(result set)를 효율적이고 효과적으로 생성하기 위해 특허 문서 컬렉션에 사용될 수 있는데, 여기서 결과 세트는 특허 문서 컬렉션 내의 하나 이상의 문서들이며, 결과 세트의 정적 문서 벡터들은 전송된 쿼리 스트링 데이터와 관련된 동적 문서 벡터에 대한 수치의 설정 범위 내에서 계산된다.
다음의 실시예들의 설명에서, 본 명세서의 일부를 이루는 첨부한 도면들에 대한 언급이 있으며, 이는 발명이 실시될 수 있는 특정 실시예를 예로서 나타낸다. 본 발명의 범위를 일탈하지 않고 구조적인 변형물들이 이루어질 수 있기 때문에 다른 실시예들이 이용될 수 있다는 것이 이해되어야 한다.
도 1은 전자 문서 컬렉션, 보다 구체적으로는 특허들 및 특허 공개들과 관련 있는 컬렉션을 조사하는 일반적인 관점을 예시한 흐름도(100)이다. 처음에, 특허 문서의 컬렉션이 컴파일링된다(102). 그 기술 분야에서 특허와 특허 공개들이 복수의 섹션들로 이루어져 있다는 것은 알려져 있다. 문서들의 컴필레이션에 이어서, 컬렉션은 인덱싱된다(104). 컴필레이션의 인덱싱 처리는 데이터의 컬렉션을 조사 및 검색에 적합한 데이터베이스로 변환하는 것을 포함한다. 보다 구체적으로, 문서 컬렉션의 인덱싱은 컬렉션 내의 각 특허 문서에 대한 문서 벡터의 획득을 포함한다(106). 문서 벡터는 단어들과 구들의 가중된 리스트를 포함한다. 일실시예에서, 문서 벡터로 선택될 용어들은 제한되는 것은 아니지만 명사 구들을 포함하며, 문장의 시작이 아닌 명칭 케이스의 단어들을 포함하며, 그리고 문서 내에 빈번하게 발생하는 단어들을 포함한다. 가중치들은 벡터 내로 평가된 용어들을 위해 계산된다. 일실시예에서, 가중치를 계산하는 다음 방법은, 제한되는 것은 아니지만 1에서 0까지의 수로 정규화된 문서 내의 단어 빈도를 포함하고(여기서 1은 문서 내에 가장 빈번하게 발생하는 단어에 할당됨), 문서의 선택된 필드들 내의 단어들 또는 단어 쌍들을 부스팅하고, 명사 구들에 가장 높은 가중치를 할당하고, 문서의 몸통에 있는 명칭 케이스 단어들을 들어올리고(elevating), 더 짧은 스트링들에 비해 더 긴 스트링들에 더 높은 가중치를 할당한다. 문서 벡터 내에서 포함을 위한 단어들과 구들이 선택되고 그 단어들과 구들에 대한 가중치가 선택되면, 문서 벡터는 적분기를 이용하여 계산된다. 일실시예에서, 그 적분기는 벡터 내에 어떤 필드들을 포함할지, 그리고 단어들 및 그들이 담고 있는 구들을 얼마나 많이 부스팅할지를 선택할 수 있고, 그 요소들의 각각이 최종 용어 가중치에 얼마나 많이 공헌할지를 선택할 수 있고, 예를 들어 문서 내에서 발견된 공동 엔티티(corporate entity)의 중요성을 높이고, 데이터베이스에서 발견된 공통 구들을 제거하기 위한 스톱 단어 리스트를 증가시키는 엔티티 종류들(entity types)을, 벡터 내에 추가한다. 컬렉션 내의 각 특허 문서들을 위해 생성된 문서 벡터들은 "정적 문서 벡터들"라고 일컬어진다.
특허 문서들이 발행되면, 약간의 예외들 이외에는 특허 문서들은 일반적으로 변경되지 않는다. 이 규칙에서의 예외들은 제한되는 것은 아니지만 정정 증명서(certificate of correction)의 발행, 등록 특허의 재심사, 등록 특허의 재발행을 포함한다. 이 예외들을 취급하기 위해, 문서 컬렉션은 업데이팅된다. 보다 구체적으로, 컬렉션 내의 문서들로 어떤 변경들 및 관련된 문서 벡터들을 업데이팅하기 위한 시간 간격이 설정될 수 있다(108). 시간 간격의 예들은 제한되는 것은 아니지만, 매월, 반년, 매년 등을 포함한다. 그 후, 설정된 시간 간격이 만료하였는지가 판단된다. 단계(110)에서의 판단에 대한 긍정적인 응답은 단계(102)로 리턴함으로써 계속된다. 반대로, 단계(110)에서의 판단에 대한 부정적인 응답은 특허 문서들로의 어떤 변경들을 문서 벡터들 내로 통합하기 위해 특허 문서 벡터를 업데이팅하는 설정 시간 주기를 기다림으로써 계속되며(112), 또한 단계(110)로 리턴함으로써 계속된다. 일실시예에서, 특허 컬렉션은 등록 특허에 한정되지 않고, 특허 출원 공개를 포함한다. 따라서 특허들의 고유 성질에 근거하여, 특허 문서 컬렉션은 컬렉션 내의 특허들의 일부로 어떤 변경들을 취급하기 위해 주기적인 베이시스로 업데이팅해야 한다.
문서 컬렉션이 컬렉션을 위한 정적 문서 벡터들을 생성하기 위해 파싱되면, 쿼리는 컬렉션에 걸쳐 수행될 수 있다. 도 2는 특허 문서 컬렉션으로의 쿼리의 전송을 위한 일반적인 처리를 예시한 흐름도(200)이다. 처음에, 입력 쿼리가 수신된다(202), 일실시예에서, 입력 쿼리는 스트링으로 이루어진다. 쿼리 입력에 대해 문서 벡터가 생성된다(204). 쿼리에 대한 문서 벡터는 전송 시에 생성되므로, 그것은 이후에 동적 문서 벡터로 언급된다. 동적 문서 벡터는 쿼리를 위한 문서 입력에 근거하여 생성된다. 더욱 상세하게, 동적 문서 벡터는 쿼리 입력 문서로부터 가장 관련 있는 용어들로 이루어진다. 동적 문서 벡터 내에 포함을 위한 스트링(들)을 선택하고, 그 벡터 내에 포함을 위해 선택된 용어들에 가중치들을 할당하도록 사용될 수 있는 다른 도구들이 있다. 일실시예에서, 스트링들은 입력 쿼리(명사 구들, 명칭 케이스 내에 있는 단어들(즉, 문장의 시작에 위치하지 않지만 대문자로 시작하는 문자), 문서 내에서 자주 발생하는 단어들, 문서 내에서 자주 발생하는 단어 쌍들)로부터 추출된다. 정적 문서 벡터들과 마찬가지로, 지정된 스톱 단어들은 제거되어 동적 문서 벡터 내에 포함되지 않는다. 동적 벡터 내에 포함될 용어들이 입력 쿼리의 문서로부터 추출되면, 가중치들은 이들 용어들에 할당된다. 일실시예에서, 문서 내의 각 용어 또는 구의 빈도는 1에서 0까지 정규화되는데, 여기서 1은 문서 내에 가장 빈번하게 발생하는 단어에 할당된다. 유사하게, 일실시예에서, 명칭과 같은 특별 필드 내의 단어들 또는 단어 쌍들은 부스팅되고, 긴 스트링들에는 짧은 스트링들에 비해 더 높은 가중치가 할당된다. 문서 벡터의 계산은 고도로 구성 가능하다. 일실시예에서, 사용자는 조사 용어들에 가중치를 할당할 수 있다. 따라서 쿼리 입력에 근거하여 관련 있는 동적 문서 벡터를 생성하도록 적용될 수 있는 다양한 도구들이 있다.
단계(204)에 이어서, 동적 문서 벡터 형태의 쿼리는 문서 컬렉션으로 전송될 수 있는데(206), 여기서 동적 문서 벡터는 특허 문서 컬렉션 내의 정적 문서 벡터들과 비교된다(208). 그 후 컬렉션 내의 어떤 정적 문서 벡터들이 동적 문서 벡터의 정의된 수치 범위 내에 있는지를 판단한다(210). 단계(210)에서의 판단에 대한 긍정적인 응답은 결과 세트에서 정의된 수치 범위에 들어가는 하나 이상의 정적 문서 벡터들을 구비한 컬렉션 내의 근원적인 특허 문서들의 모두를 평가함으로써 계속된(212). 단계(212)에 이어서, 또는 단계(210)에서의 판단에 대한 부정적인 응답에 응답하여, 사용자는 문서 컬렉션으로의 새로운 쿼리를 전송할 것인지를 판단한다(214). 일실시예에서, 새로운 쿼리는 이전에 전송된 쿼리의 범위보다 좁을 수 있다. 유사하게, 새로운 쿼리는 이전에 제출된 쿼리의 범위를 확장할 수 있다. 이 새로운 쿼리의 범위와 상관없이, 단계(214)에서의 판단에 대한 긍정적인 응답은 단계(204)로 리턴함으로써 계속된다. 유사하게, 단계(214)에서의 판단에 대한 부정적인 응답은 문서 컬렉션으로의 쿼리 전송 처리를 종료한다. 따라서 문서 컬렉션으로의 쿼리의 전송은 전송된 스트링을 동적 문서 벡터로의 변환과 문서 벡터와 문서 컬렉션의 정적 벡터들의 비교를 포함한다.
특허 문서 컬렉션은 기술 문서들의 독특한 컬렉션이다. 특허 문서들은 발행된 등록 특허들과 특허 출원 공개들의 형태로 발행된다. 문서들의 두 카테고리들 사이의 차이는 그들의 강제할 수 있는 가치를 확인한다. 보다 구체적으로, 등록 특허는 법정에 강제할 수 있는 사실상의 재산권이지만, 반면에 특허 출원 공개는 특허권이 확정되지 아니한 계류중인 출원이다. 기록된 각 특허 문서는 출원에서의 배치를 위한 관례적인 단어들과 구들을 포함한다. 하지만, 이러한 단어들과 구들은 대부분 특허 문서들에 나타나고, 발명에 고유한 것이 아니므로, 이들 단어들과 구들은 조사에 있어 최소값을 가진다. 이러한 워드들과 구들의 예들은 제한되는 것은 아니지만, "실시예", "모범적인", "종래기술" 등을 포함한다. 유사하게, 각 나라는 특허 출원들에서 아주 흔한 다른 단어들을 구비할 수 있다. 예를 들면, 일부 국가에서, 단어 "특징"은 거의 특허 가능하거나 조사 가치가 없는 공통 단어이다. 이러한 단어들은 여기에서 스톱 단어들로 언급된다. 나라, 언어, 및/또는 문화에 특정한 스톱 단어들을 식별하는 목적은 조사될 문서 벡터들의 크기를 최소화하는 것이다. 특허 문서 컬렉션 내의 각 문서 벡터는 컬렉션으로부터 식별된 스톱 단어들을 제거하기 위해 파싱될 수 있다.
도 3은 특허 문서 컬렉션 내의 정적 문서 벡터들을 더 파싱하는 스톱 단어들을 사용하기 위한 처리를 예시한 흐름도(300)이다. 문서 컬렉션으로의 쿼리의 전송 이전에, 정적 문서 벡터들이 스톱 단어들을 위해 파싱되어야 하는지를 판단한다. 이 스톱 단어들은 특정 국가(302), 특정 언어(304), 및/또는 특정 문화(306)로 제한될 수 있다. 단계들(302, 304 및/또는 306)에서의 어떤 개별적인 선택 또는 선택들의 결합에 대한 긍정적인 응답은 특허 문서 컬렉션 내의 정적 문서 벡터들을 위한 스톱 단어들의 컴필레이션 생성으로써 계속된다(308). 특허 문서의 컬렉션은 컴파일된다(310). 일실시예에서, 특허 문서들의 컬렉션은 선택된 나라, 언어, 및/또는 특정 문화로 제한될 수 있다. 문서들의 컴필레이션(310)에 이어서, 컬렉션은 인덱싱되고(312), 컬렉션으로부터 스톱 단어들이 파싱된다(314). 컴필레이션으로부터 스톱 단어들의 인덱싱 및 제거 처리는 데이터의 컬렉션을 조사 및 검색에 적합한 데이터베이스로 변환하는 것을 포함한다. 단계(314)에 이어서, 컬렉션 내의 문서들의 하나 이상의 섹션들은 컬렉션을 위해 생성될 문서 벡터들에 포함되도록 선택된다(316). 단계(316)에서의 적어도 하나의 섹션의 선택에 근거하여, 문서 벡터는 컬렉션 내의 각 특허 문서를 위해 선택된다(318). 더욱 상세하게, 문서 컬렉션의 인덱싱에 이어서, 문서 벡터는 컬렉션 내의 각 특허 문서의 선택된 섹션들을 위해 획득되고, 획득된 문서 벡터들로부터 식별된 스톱 단어들을 제거한다. 이러한 문서 벡터들은 여기에서 정적 문서 벡터들로 언급된다.
특허 문서들이 발행되면, 약간의 예외들 이외에는 특허 문서들은 일반적으로 변경되지 않는다. 이 예외들을 취급하기 위해, 문서 컬렉션은 드물게 업데이팅된다. 보다 구체적으로, 컬렉션 내의 문서들로의 어떤 변경들 및 관련된 문서 벡터들을 업데이팅하기 위한 시간 간격이 설정될 수 있다(320). 시간 간격의 예들은 제한되는 것은 아니지만, 매월, 반년, 매년 등을 포함한다. 이후에, 설정된 시간 간격이 만료하였는지가 판단된다(322). 단계(322)에서의 판단에 대한 부정적인 응답은 특허 문서들로의 어떤 변경들을 문서 벡터들 내로 통합하기 위해 특허 문서 벡터를 업데이팅하는 설정 시간 주기를 기다림으로써 계속되고(324), 또한 단계(320)로 리턴됨으로써 계속된다. 반면에, 단계(322)에서의 판단에 대한 긍정적인 응답은 문서 컬렉션에 적용될 어떤 새로운 스톱 단어들이 있는지를 판단함으로써 계속된다(326). 단계(326)에서의 판단에 대한 부정적인 응답은 단계(310)로 리텀함으로써 계속되고, 그리고 단계(326)에서의 긍정적인 응답은 비관련(non-relevant) 특허 용어들의 컴필레이션으로 새로운 스톱 단어(들) 및/또는 구(들)를 추가함으로써 계속된다(328). 단계(328)에 이어서, 특허 문서 컬렉션에 대한 정적 문서 벡터들을 생성 및/또는 업데이팅하는 처리는 단계(310)로 리턴된다. 따라서 정적 문서 벡터들은 쿼리의 전송이 정적 문서 컬렉션 내의 관련 스트링들에 집중하게 하는 식별된 스톱 단어들의 선택을 위해 파싱될 수 있다.
등록 특허들과 특허 출원 공개들이 복수의 섹션들로 구분된다는 것은 알려져 있다. 특허 문서의 각 섹션은 완벽한 특허 출원의 제출을 위해 요구되고, 특허의 각 섹션은 목적을 갖는다. 특허 출원의 각 섹션의 상세들은 여기에서 상세하게 논의되지 않을 것이다. 하지만, 서로 다른 섹션들은 식별될 것이다. 일반적으로, 각 특허 출원은 명칭, 우선권 출원일, 요약(abstract), 배경 설명, 주제, 개요(summary), (만약에 도면이 있다면) 도면의 간단한 설명, 발명의 상세한 설명 및 청구범위를 포함한다. 조사 목적에 따라 특허 아레나(arena)에서 사용되는 서로 다른 조사 카테고리들이 있다. 예를 들면, 침해 및/또는 제품 클리어런스 조사는 청구범위의 단어들과 관련되며, 따라서 문서 컬렉션에서 제공된 청구범위로 안내되어야 한다. 유효성 및/또는 무효성 조사는 알려진 종래기술과 관련되어 있어 특허 문서의 우선일의 확인을 필요로 한다. 특허 출원의 제출에 앞서 또는 특허 출원의 제출에 이어 발명자(들)가 그들의 발명의 신규성을 판단하고자 하는 경우, 발명자들 또는 그/그녀의 대리인 또는 대표자는 신규성 조사를 의뢰할 수 있다. 이러한 조사는 청구범위를 중요시하지 않고 발명의 상세한 설명에 초점을 맞출 수 있다. 따라서, 여기에 도시된 것처럼, 각 조사는 문서 컬렉션 내의 특허 문서의 서로 다른 섹션들에 강조를 둔다.
상술한 바와 같이, 문서 컬렉션 내의 각 특허는 컬렉션의 조사에 있어 최소값을 갖는 스톱 단어들의 선택을 위해 파싱될 수 있다. 하지만, 스톱 단어들의 선택에 추가하여, 또는 스톱 단어들의 선택으로부터 분리하여, 단일 특허 문서에 대한 복수의 정적 문서 벡터들의 컴파일링은 바람직할 수 있는데, 각 분리 문서 벡터는 컬렉션 내의 특허 문서의 각 식별된 섹션과 관련이 있다. 특정 섹션을 식별하는 각 벡터를 구비한 복수의 문서 벡터들의 생성은 문서 컬렉션의 조사가 정의된 조사 범위에 근거하여 개선되게 한다. 한 예로서, 문서 컬렉션의 침해 조사는 문서 컬렉션 내의 각 특허의 청구범위 섹션과 관련 있는 문서 벡터들로 제한할 수 있다.
도 4는 컬렉션 내의 각 특허 문서에 대한 복수의 문서 벡터들을 생성하기 위한 처리를 예시한 흐름도(400)이다. 최초로, 특허 문서의 컬렉션은 컴파일링되고(402), 인덱싱된다(404). 변수 MTotal은 특허 문서 컬렉션 내의 전체 문서들의 수로 할당되고(406), 그리고 카운팅 변수 M에 정수 1이 할당된다(408). 컬렉션 내의 특허 문서 M의 섹션의 개수가 식별된다(410). 단계(410)에 이어서, 변수 NTotal은 특허 문서 M의 전체 섹션들의 수로 할당되고(412), 그리고 카운팅 변수 N은 정수 1로 할당된다(414). 컬렉션 내의 각 특허 문서의 각 섹션에 대한 문서 벡터가 생성된다. 보다 구체적으로, 특허 문서M의 각 섹션N에 대한 문서 벡터가 생성된다(416). 단계(416)에서 문서 벡터가 생성된 후에, 특허 문서에 또 하나의 섹션이 있다면, 다음 섹션에 대한 다음 문서 벡터의 생성을 위해 특허 문서의 다음 섹션으로 진행하도록 카운팅 변수 N은 증가된다(418). 단계(418)에 이어서, 문서 벡터의 생성을 위해 특허 문서 내의 더 이상의 섹션들이 있는지에 대한 판단이 수행된다. 단계(420)에서의 판단에 대한 부정적인 응답은 단계(416)로 되돌아간다. 반대로, 단계(420)에서의 판단에 대한 긍정적인 응답은 변수 M이 증가한다(422). 그 다음에, 컬렉션 내의 각 문서가 복수의 문서 벡터들의 생성을 위해 파싱되었는지가 판단된다(424). 단계(424)에서의 판단에 대한 부정적인 응답은 컬렉션 내의 다음 문서를 위한 복수의 문서 벡터들의 생성을 위해 단계(410)로 리턴함으로써 계속된다. 상술한 바와 같이, 정적 문서 컬렉션은 주기적인 베이시스에 따라 업데이팅될 필요가 있음은 그 기술분야에서 알려져 있다. 업데이팅의 빈도는 컬렉션의 정확성에 따라 자주 또는 드물게 할 수 있다. 일실시예에서, 정적 문서 벡터들을 업데이팅하는 빈도는 특허들의 발행 비율에 비례할 수 있다. 단계(424)에서의 판단에 대한 긍정적인 응답은 특허 문서 컬렉션이 각 특허 문서에 대한 복수의 문서 벡터들을 생성하도록 파싱되었다는 표시이다. 그 다음, 컬렉션 내의 정적 벡터들을 업데이팅하기 위한 시간 간격이 만료하였는지가 판단된다(426). 단계(426)에서의 판단에 대한 긍정적인 응답은 단계(402)로 리턴함으로써 계속된다. 반대로, 단계(426)에서의 판단에 대한 부정적인 응답은 단계(426)로 되돌아가기 전에, 특허 문서들로의 어떤 변경들을 문서 벡터들 내로 통합하기 위해 특허 문서 벡터를 업데이팅하는 설정 시간 주기를 기다림으로써 계속된다. 따라서 문서 컬렉션 내의 각 특허 문서는 복수의 정적 문서 벡터들을 생성하기 위해 특허 문서의 하나의 식별 섹션과 관련 있는 각 벡터로 파싱될 수 있다.
특허 문서들이 컬렉션 내의 각 문서에 대한 복수의 문서 벡터들을 생성하기 위해 파싱되면, 쿼리의 전송은 문서 섹션의 파싱을 레버리지할 수 있다. 도 5는 복수의 문서 벡터들을 구비한 문서 컬렉션으로의 쿼리의 전송을 위한 처리를 예시한 흐름도(500)이다. 처음에, 컬렉션으로의 쿼리를 전송하는 사용자는 조사 범위를 정의한다(502). 일실시예에서, 사용자에게 조사 범위의 선택을 용이하게 하기 위해 컴퓨터 명령어들 위의 계층으로, 그래픽 사용자 인터페이스가 제공될 수 있다. 단계(502)에 이어서, 정의된 조사 범위는 문서 컬렉션에 대한 문서 벡터 카테고리들의 선택과 관련되고(504), 그리고 쿼리 스트링은 문서 컬렉션으로 전송된다(506). 이후에, 전송된 쿼리 스트링에 대한 동적 문서 벡터가 생성되고(508), 그리고 동적 문서 벡터는 관련 있는 문서들을 판단하기 위해 문서 컬렉션으로 전송된다(510). 쿼리 전송은 동적 문서 벡터와 문서 컬렉션의 정적 문서 벡터의 비교로 제한된다(512). 일실시예에서, 정적 문서 벡터들의 선택은 정적 문서 벡터들의 그룹의 선택일 수 있다(513). 보다 구체적으로, 특허 문서의 청구범위에 제한된 조사는 특허 문서 컬렉션 내의 특허들의 청구범위 섹션에 대한 정적 문서 벡터들, 또는 비슷한 정적 문서 벡터의 그룹만을 조사할 것이다. 단계(512)에서의 비교는 동적 문서 벡터와 정적 문서 벡터들의 수치 비교이다. 비교의 결과 세트는 수치 비교에 근거하여 소팅된다(514). 일실시예에서, 동적 문서 벡터로의 문서 컬렉션의 정적 문서 벡터(들)의 근사에 근거하여 소팅은 계층적이다. 따라서 동적 문서 벡터와 컬렉션의 정적 문서 벡터들의 비교는 결과 세트를 생성한다.
결과 세트가 소팅되면(514), 수치 값이 판단된 소팅 문서들의 근사 범위를 적절하게 정의하기 위해 사용된다(516). 단계(516)에 이어서, 정의된 수치 범위에 들어가는 소팅 컬렉션 내의 일부 문서들이 있는지가 판단된다(518). 단계(518)에서의 판단에 대한 긍정적인 응답은 결과 세트에서 동적 문서 벡터의 정의된 범위 내에 정적 문서 벡터 내의 모든 근원적인 특허들의 리스트를 평가함으로써 계속된다(520). 단계(520)에 이어서 또는 단계(518)에서의 비교에 대한 부정적인 응답은 사용자가 새로운 쿼리 스트링을 전송하는 것을 원하는지 또는 선행 쿼리 스트링 전송의 쿼리를 더 제한하는 것을 원하는지를 판단한다(522). 판단 단계(522)에 대한 부정적인 응답은 쿼리 전송 처리를 종료하는 신호를 내보낸다. 반대로, 단계(522)에서의 판단에 대한 긍정적인 응답은 사용자가 쿼리(즉, 동적 문서 벡터)와 비교될 조사의 섹션들(즉, 정적 문서 벡터들)을 변경할 것인지에 대한 그 다음의 결정이 이어진다. 일실시예에서, 조사 범위의 변경은 직접적으로 조사에 사용된 정적 문서 벡터들의 선택을 변경할 수 있다. 단계(524)에서의 판단에 대한 긍정적인 응답은 단계(502)로 리턴함으로써 계속되며, 새로운 쿼리는 특허 문서의 선택들이 다음 쿼리에서 평가되도록 변경할 것이다. 반대로, 단계(524)에서의 판단에 대한 부정적인 응답은 새로운 쿼리가 선행 쿼리로서 특허 컬렉션 내의 동일한 문서 벡터들의 제한을 유지하면서 선행 쿼리의 범위를 더 제한할 것이라는 표시이다. 엄밀하게, 부정적인 응답은 특허 문서 컬렉션의 문서 벡터들이 아닌 쿼리의 추가적인 수정을 전송함으로써 이어지며, 단계(506)로 리턴한다. 따라서 조사 범위는 쿼리의 동적 문서 벡터들과 특허 문서 컬렉션의 정적 문서 벡터들의 비교에 근거하여 결과 세트를 수정하는 2개의 측면에서 변경될 수 있다.
도 1 내지 도 5에 도시된 바와 같이, 문서 벡터들은 특허 문서 컬렉션에 특정하여 생성되고, 그 후 컬렉션의 정적 문서 벡터들의 정의된 범위에 들어가는 동적 문서 벡터 내에 결과 세트를 생성하도록 쿼리 전송을 위해 사용된다. 도 6은 전자 문서 컬렉션으로 전송된 쿼리와 관련된 정적 및 동적 문서 벡터들의 생성하고 그리고 그 벡터들을 사용하기 위한 도구들의 한 설정을 예시한 흐름도(600)이다. 도시된 바와 같이, 컴퓨터 시스템(602)은 버스 구조(608)에 의해 메모리(606)에 연결된 프로세서 유닛(604)을 구비한다. 단 하나의 프로세서 유닛(604)이 도시되어 있지만, 일실시예에서, 보다 많은 프로세서 유닛들이 확장형 설계로 제공될 수 있다. 문서 컬렉션(642)을 수용하도록 구성된 저장 매체(640)와 통신하는 시스템(602)이 도시되어 있다. 일실시예에서, 전자 문서 컬렉션은 특허 문서들의 컴필레이션을 포함하는데, 등록 특허들 및 특허 출원 공개들을 포함한다. 저장 매체(640)는 프로세서 유닛(604)과 통신한다. 또한, 영상 데이터의 제공을 위해 영상 디스플레이(650)와 통신하는 시스템이 도시되어 있다. 여기에 도시되고 설명된 요소들 각각은 문서 컬렉션(642)으로의 쿼리 전송을 지원한다.
컴퓨터 시스템(602) 내에 있고 메모리(606)와 통신하는 문서 관리자(660)가 제공된다. 문서 관리자(660)는 인덱싱시에 컬렉션(642) 내의 각 특허 문서에 대한 문서 벡터를 획득할 책임이 있다. 보다 구체적으로, 문서 관리자(660)는 컬렉션(642) 내의 각 특허 문서에 대하여 적어도 하나의 정적 문서 벡터(644)를 생성한다. 상술한 바와 같이, 각 특허 문서는 특정 표준화 섹션들로 이루어지는데, 동일한 특허청 관할권에서 발행된다면, 특정 표준화 섹션들은 역시 일정할 수 있다. 일실시예에서, 문서 관리자(660)는 각 특허 문서에 대한 복수의 정적 문서 벡터들(644)을 생성하기 위해 이용된다. 문서 관리자(660)에 의해 생성된 문서 벡터들(644)은 저장 매체(640)에 보관된다. 컴퓨터 시스템(602) 내에 있고 메모리(606)와 통신하는 입력 관리자(662)가 제공된다. 입력 관리자(662)는 쿼리 시에 쿼리 입력으로부터 수신된 스트링 데이터에 근거하여 동적 문서 벡터를 생성할 책임이 있다. 입력 관리자(662)는 또한 컴퓨터 시스템(602) 내에 있고 메모리(606)와 통신하는 쿼리 관리자(664)와 통신한다. 쿼리 관리자(664)는 문서 컬렉션으로의 쿼리 입력의 전송에 응답하여, 입력 관리자(662)에 의해 생성된 동적 문서 벡터와 각 정적 문서 벡터(644)를 비교할 책임이 있다. 비교는 관련 특허 문서들의 컴필레이션(646)을 생성한다. 일실시예에서, 컴필레이션은 영상 디스플레이(650)에 제공된다. 유사하게, 일실시예에서, 컴필레이션은 휘발성 또는 연속적인(persistent) 저장 매체에 저장될 수 있다.
비관련 스트링 데이터(648)의 컴필레이션은 정적 문서 벡터들(644)로부터 비관련 스트링 데이터를 파싱하기 위해 이용될 수 있다. 일실시예에서, 비관련 스트링 데이터(648)의 컴필레이션은 저장 매체(640)에 저장되며, 주기적으로 문서 관리자(660)에 의해 업데이팅된다. 비관련 스트링 데이터를 이용 또는 무시하여, 문서 관리자(660)는 문서 컬렉션(642) 내의 각 특허 문서에 대한 복수의 정적 문서 벡터들을 생성하도록 안내될 수 있다. 컴퓨터 시스템(602) 내에 있고 메모리(606)와 통신하는 선택 관리자(666)가 제공된다. 더욱 상세하게, 선택 관리자(666)는 문서 컬렉션으로의 조사 범위를 선택하기 위해 쿼리 관리자(664)와 통신한다. 선택된 조사 범위는 쿼리를 처리하는 쿼리 관리자(664)에 의해 적용될 정적 문서 벡터들의 선택을 판단한다.
일실시예에서, 입력 관리자(662), 쿼리 관리자(664), 문서 관리자(660) 및 선택 관리자(666)는 컴퓨터 시스템(602)에 위치한 메모리(606)에 존재할 수 있다. 하지만, 본 발명은 이 실시예에 한정되지 않는다. 예를 들면, 일실시예에서, 입력 관리자(662), 쿼리 관리자(664), 문서 관리자(660) 및 선택 관리자(666)는 국부 메모리(606)의 외부에 있는 하드웨어 도구들로서 각각 존재하거나 또는 하드웨어와 소프트웨어의 결합물로서 구현될 수 있다. 마찬가지로, 일실시예에서, 관리자들(660)-(666)은 저장매체(640)와 통신하는 원격 시스템에 존재할 수 있다. 따라서, 관리자는 관련 특허 문서들의 컴필레이션을 생성하기 위해 전자 특허 문서 컬렉션으로의 하나 이상의 쿼리들의 전송을 지원하기 위한 소프트웨어 도구 또는 하드웨어 도구로서 구현될 수 있다.
여기에서 설명하는 바와 같이, 쿼리는 쿼리 실행에서 처리될 정적 문서 벡터들에 속하는 특정 명령어들과 함께 특허 문서 컬렉션으로 전송될 수 있다. 도 7은 명령어들의 전송을 지원하기 위해 이용될 수 있는 그래픽 사용자 인터페이스(702)의 블록도(700)이다. 인터페이스(702)는 전자 문서 컬렉션의 근원적인 데이터베이스를 지원하기 위해 명령어들 위에 베니어(veneer)로서 작용한다. 도시된 바와 같이, 4개의 주요 필드들이 있다. 제1 필드(710)는 문서 컬렉션으로의 쿼리의 전송을 위한 필드(712)를 포함한다. 제2 필드(720)는 조사 카테고리의 선택을 위한 복수의 필드들을 포함한다. 더욱 상세하게, 도시된 바와 같이, 제2 필드(720)는 조사 카테고리(신규성(722), 기술 현황(724), 침해(726), 제품 허가(728), 유효성/무효성(730))의 선택을 위한 서브-필드들을 포함할 수 있다. 일실시예에서, 조사 필드(720)는 하나의 서브-필드보다 많은 서브-필드의 선택을 지원할 수 있다. 제3 필드(740)는 결과 컴필레이션에서 리턴된 조사 문서들의 최대 개수의 선택을 위한 복수의 필드들을 포함한다. 보다 구체적으로, 제3 필드(740)는 다음의 서브-필드들(10개 문서들(742), 50개 문서들(744), 100개 문서들(746), 500개 문서들(748), 1000개 문서들(750), 및 리턴될 최대 양의 고객 기입을 지원하는 기입 필드(752))를 포함할 수 있다. 발명은 (742)-(750)에서 도시된 서브-필드 개수들로 제한되지 않는다. 여기에 제공된 수들은 단지 모범적인 예시이다. 인터페이스의 제4 필드(760)는 문서 컬렉션으로의 쿼리 스트링의 전송을 위해 이용된다. 일실시예에서, 제4 필드(760)는 쿼리 전송의 기입을 위한 전송 버튼(762)과 전송을 종료하는 취소 버튼(764)를 포함한다. 따라서, 여기에 도시된 인터페이스는 하나 이상의 정적 문서의 이용을 레버리지하기 위해 전자 문서 컬렉션으로의 쿼리의 통신과 전송을 용이하게 한다.
일실시예에서, 본 발명은, 그에 한정되지는 않지만, 펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함하는 소프트웨어로 구현된다. 본 발명은 컴퓨터 또는 어떤 명령어 실행 시스템에 의해 또는 컴퓨터 또는 어떤 명령 실행 시스템과 관련되어, 사용하기 위한 프로그램 코드를 제공하는 컴퓨터-이용 가능 또는 컴퓨터-읽기 가능 매체로부터 액세스 가능한 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 이 설명의 목적을 위해, 컴퓨터-이용 가능 또는 컴퓨터-읽기 가능 매체는 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 명령어 실행 시스템, 장치, 또는 디바이스와 관련하여, 사용하기 위한 프로그램을 포함, 저장, 통신, 전파, 또는 전송할 수 있는 모든 장치일 수 있다.
본 발명의 범위 내에 있는 실시예들은 인코딩된 프로그램 코드가 내장된 프로그램 저장 수단을 포함하는 제조 물품도 포함한다. 이러한 프로그램 저장 수단은 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 모든 이용가능한 매체일 수 있다. 예로서, 제한 없이, 이러한 프로그램 저장 수단은 RAM, ROM, EEPROM, CD-ROM, 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 또는 원하는 프로그램 코드 수단을 저장하는데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 어떤 다른 매체를 포함할 수 있다. 상술한 것의 결합물들도 프로그램 저장 수단의 범위 내에 포함되어야 한다.
매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템(또는 장치 또는 디바이스) 또는 전파 매체일 수 있다. 컴퓨터-읽기 가능 매체의 예들은 반도체 또는 고체 상태 메모리, 자기 테이프, 분리식 컴퓨터 디스켓, RAM, ROM, 강성 자기 디스크, 및 광학 디스크를 포함한다. 광학 디스크들의 현재의 예들은 컴팩트 디스크 B 읽기 전용(CD-ROM), 컴팩트 디스크 B 읽기/쓰기(CD-R/W) 및 DVD를 포함한다.
프로그램 코드를 저장 및/또는 실행하기에 적합한 데이터 처리 시스템은 시스템 버스를 통해 메모리 소자들에 직접 또는 간접적으로 연결된 적어도 하나의 프로세서를 포함할 것이다. 메모리 소자들은 프로그램 코드의 실제 실행 동안 이용되는 국부 메모리, 벌크 스토리지, 또한 실행 동안 코드가 벌크 스토리지로부터 조사되어야 하는 회수를 줄이기 위해 적어도 일부 프로그램 코드의 임시 저장을 제공하는 캐시 메모리들을 포함할 수 있다.
입/출력 또는 I/O 디바이스들(그에 한정되지는 않지만, 키보드들, 디스플레이들, 포인팅 디바이스들 등을 포함)은 직접 또는 중개 I/O 컨트롤러들을 통해 시스템에 연결될 수 있다. 데이터 처리 시스템이 중개 사설 또는 공중 네트워크들을 통해 다른 데이터 처리 시스템들 또는 원격 프린터들 또는 저장 디바이스들에 연결될 수 있도록, 네트워크 어댑터들이 시스템에 연결될 수 있다.
소프트웨어 구현은 컴퓨터 또는 어떤 명령 실행 시스템에 의해 또는 컴퓨터 또는 어떤 명령 실행 시스템과 관련하여, 사용하기 위한 프로그램 코드를 제공하는 컴퓨터-이용 가능 또는 컴퓨터-읽기 가능 매체로부터 액세스 가능한 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
각 지적 재산 문서는 법률적인 출원 요건들을 충족시키는데 필요한 섹션들의 정의된 개요를 갖는 것으로 이 기술 분야에서 알려져 있다. 복수의 문서 벡터들이 문서 벡터들로부터 비관련 특허 스트링들을 제거하는 옵션으로 각 개별적인 전자 문서를 위해 생성된다. 일실시예에서, 하나의 문서 벡터가 문서 컬렉션의 청구범위 섹션을 위해 생성되며, 또 다른 문서 벡터는 문서 컬렉션의 명칭, 요약 및 청구범위 섹션들을 위해 생성되며, 그리고 제3 문서 벡터는 결합된 문서 컬렉션의 모든 섹션을 위해 생성된다. 벡터들의 파싱은 더 작고 더 간결한 문서 벡터들을 생성하는데, 여기서 벡터가 파싱된 스트링들의 추가적인 처리를 필요로 하지 않으므로 더 작은 문서 벡터는 쿼리 처리의 효율을 개선한다. 모든 쿼리들이 동일한 것은 아니다. 서로 다른 쿼리들은 서로 다른 결과들을 얻기 위해 컬렉션으로 전송된다. 따라서 비관련 특허 용어들의 파싱을 함께 구비한 정적 문서 벡터들의 분류는 쿼리 전송이 소망의 문서 결과 컴필레이션을 생성하도록 효율적이고 효과적으로 처리되게 한다.
본 발명의 특정 실시예들이 예시의 목적으로 여기에 설명되었지만, 본 발명의 정신과 범위를 일탈하지 않고 다양한 변형물들이 이루어질 수 있다는 것이 이해될 것이다. 특히, 지적 재산 문서의 조사는 등록 특허들 및 특허 출원 공개들로 제한되지 않는다. 조사는 제한되는 것은 아니지만, 등록 상표들 및 출원 상표들, 등록 저작권 및 출원 저작권을 포함하는 지적 재산 문서들의 모든 형태들과 특허 문서들의 모든 형태들을 포함하도록 확장될 수 있다. 쿼리 전송을 위한 문서 카테고리와 상관없이, 문서 컬렉션 내의 정적 문서 벡터들을 업데이팅하기 위한 리소스들에 대한 책임이 있다. 과학 진보의 자연적인 과정에 근거하여, 문서 컬렉션은 주간 베이시스 또는 다른 시간으로 컬렉션에 추가된 새로운 문서들로 인해, 증가하는 문서들의 컬렉션이다. 지적 재산 문서들이 설정 빈도로 등록되고 공개되므로, 정적 문서 벡터들을 업데이팅하기 위한 시간 간격 설정은 일정할 수 있다. 하지만, 일실시예에서, 하나 이상의 변수들이 시간 간격을 변경하기 위해 이용될 수 있다. 예를 들면, 일실시예에서, 시간 간격 변수는 정의된 시간 주기에서 컬렉션에 추가될 문서들의 양에 근거하여 변할 수 있다. 목표는 종합적인 데이터 보관소를 보증하기 위해 컬렉션 내의 정적 문서 벡터들의 주기적인 업데이팅을 필요로 할 수 있는 정확한 문서 컬렉션을 유지하는 것이다.
또한, 지적 재산 문서들과 관련 있는 전자 문서 컬렉션이 구체적으로 설명되었다. 하지만, 본 발명은 이러한 특정 카테고리들의 전자 문서들에 한정되지 않아야 한다. 일실시예서, 전자 문서 컬렉션은 정의된 복수의 섹션들을 갖는 모든 종류의 문서를 포함할 수 있다. 이는 관리자들이 문서들을 정의된 섹션들로 파싱하고, 정의된 섹션들의 각각에 대한 복수의 정적 문서 벡터들을 생성하고, 문서의 정의된 섹션들에 근거하여 쿼리를 정의하는 것을 지원하게 한다. 위에 설명된 바와 같이, 쿼리 프로파일의 선택은 동적으로 수정될 수 있다. 따라서, 본 발명의 보호 범위는 다음의 청구범위 및 그 균등물들에 의해서만 한정된다.

Claims (39)

  1. 전자 문서 컬렉션을 조사하기 위한 컴퓨터 구현 방법으로서,
    지적 재산 문서들의 컬렉션을 컴파일링하는 단계로서, 상기 컬렉션 내의 상기 문서들의 각각은 적어도 하나의 섹션을 갖는 단계;
    인덱싱 시에, 상기 적어도 하나의 섹션들에 근거하여 상기 컬렉션 내의 각 문서에 대한 적어도 하나의 문서 벡터를 획득하는 단계로서, 상기 문서 컬렉션 내의 각 문서에 대한 적어도 하나의 정적 문서 벡터의 생성을 포함하는 단계;
    쿼리 시에, 쿼리 입력에 근거하여 특정 문서 벡터를 식별하는 단계;
    조사 엔진으로 상기 식별된 특정 문서 벡터들을 전송하는 단계; 및
    상기 식별된 특정 문서 벡터와 상기 적어도 하나의 생성된 정적 문서 벡터의 비교에 근거하여 리턴된 관련 문서들을 컴필레이션하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    상기 쿼리 입력에 근거하여 특정 문서 벡터를 식별하는 단계는, 상기 쿼리 입력으로부터의 스트링 데이터에 근거하여 동적 문서 벡터를 생성하는 것을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  3. 제1항에 있어서,
    파일 내의 지적 재산 용어들의 스톱 스트링들의 컴필레이션을 생성하는 단계와, 상기 문서 벡터들의 각각으로부터 상기 컴필레이션 내의 각 스트링의 배제를 포함하여, 상기 문서 벡터들로 상기 컴필레이션을 적용하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  4. 제3항에 있어서,
    지적 재산 용어들의 상기 컴필레이션은 언어 특정인 것을 특징으로 하는 컴퓨터 구현 방법.
  5. 제3항에 있어서,
    지적 재산 용어들의 상기 컴필레이션은 문화 특정인 것을 특징으로 하는 컴퓨터 구현 방법.
  6. 제3항에 있어서,
    상기 컴필레이션 내에 포함을 위한 특정 용어들의 식별을 포함하여, 지적 재산 용어들의 스톱 스트링들의 상기 컴필레이션들을 동적으로 업데이팅하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  7. 제1항에 있어서,
    지적 재산 문서로부터의 필드들의 선택으로 상기 정적 문서 벡터를 제한하는 단계를 더 포함하고,
    상기 필드들은 명칭, 요약, 배경 기술, 개요, 상세한 설명, 청구범위, 도면들, 및 그들의 결합으로 이루어진 군으로부터 선택되는 것을 특징으로 하는 컴퓨터 구현 방법.
  8. 제7항에 있어서,
    상기 컬렉션 내의 각 지적 재산 문서에 대한 복수의 정적 문서 벡터들의 그룹을 생성하는 단계를 더 포함하고,
    각 정적 문서 벡터는 상기 지적 재산 문서의 하나 이상의 필드들에 근거하는 것을 특징으로 하는 컴퓨터 구현 방법.
  9. 제8항에 있어서,
    상기 문서 컬렉션으로의 적용을 위한 조사 범위를 선택하는 단계를 더 포함하고,
    상기 조사 범위의 선택은 상기 문서 컬렉션으로부터 적어도 하나의 정적 문서 벡터 카테고리에 맞춰 조절되는 단계와, 상기 적어도 하나의 정적 문서 벡터 카테고리와 상기 정의된 조사 범위에 근거한 상기 생성된 동적 벡터의 선택을 비교하는 것을 특징으로 하는 컴퓨터 구현 방법.
  10. 제9항에 있어서,
    상기 조사 범위는 지적 재산 침해 조사이고,
    상기 침해 조사를 위해 청구범위 벡터 카테고리를 선택하는 단계를 더 포함하고,
    상기 청구범위 벡터 카테고리 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 청구범위로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 컴퓨터 구현 방법.
  11. 제9항에 있어서,
    상기 조사 범위는 무효 조사이고,
    상기 무효 조사를 위해 상기 명칭, 요약, 개요, 상세한 설명, 청구범위 및 도면 벡터 카테고리들의 선택을 더 포함하고,
    상기 선택된 벡터 카테고리들의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 문서 벡터들의 유형을 따라 지적 재산 문서들의 대표적인 섹션들로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 컴퓨터 구현 방법.
  12. 제9항에 있어서,
    상기 조사 범위는 특허 신규성 조사이고,
    상기 신규성 조사를 위해 상기 상세한 설명 벡터 카테고리를 선택하는 단계를 더 포함하고,
    상기 상세한 설명 벡터 카테고리의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 문서 벡터들의 유형을 따라 지적 재산 문서들의 상세한 설명 섹션들로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 컴퓨터 구현 방법.
  13. 제9항에 있어서,
    상기 조사 범위의 선택을 위해 그래픽 사용자 인터페이스를 사용하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  14. 제1항에 있어서,
    상기 조사에서 리턴될 관련 문서들의 개수를 위해 최대 제한을 설정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  15. 제1항에 있어서,
    리턴된 관련 문서들의 상기 컴필레이션은 상기 동적 문서 벡터의 정의된 수치 범위 내에 적어도 하나의 정적 문서 벡터를 구비하도록 판단된 문서들을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  16. 전자 문서 컬렉션을 저장한 저장 매체와 통신하는 프로세서로서, 상기 전자 문서 컬렉션은 지적 재산 문서들의 컴필레이션을 포함하고, 상기 컬렉션 내의 상기 지적 재산 문서들의 각각은 복수의 섹션을 갖는 프로세서;
    인덱싱 시에, 상기 컬렉션 내의 각 지적 재산 문서에 대한 적어도 하나의 정적 문서 벡터를 획득하는 문서 관리자로서, 상기 문서 컬렉션 내의 각 지적 재산 문서에 대한 적어도 하나의 정적 문서 벡터의 생성을 포함하는 문서 관리자;
    쿼리 시에, 쿼리 입력으로부터의 스트링 데이터에 근거하여 동적 문서 벡터를 생성하는 입력 관리자로서, 상기 쿼리 입력이 상기 전자 지적 재산 문서 컬렉션으로 송신되는 입력 관리자;
    상기 입력 관리자와 통신하여, 상기 지적 재산 문서 컬렉션으로의 상기 쿼리 입력의 송신에 응답하여 상기 동적 문서 벡터와 상기 컬렉션 내의 각 정적 문서 벡터를 비교하는 쿼리 관리자;
    상기 쿼리 관리자에 응답하고 상기 동적 및 정적 문서 벡터들의 비교에 근거하여 리턴된 관련 지적 재산 문서들의 컴필레이션을 포함하는 것을 특징으로 하는 시스템.
  17. 제16항에 있어서,
    파일에 저장된 지적 재산 용어들의 비관련 스트링들의 컴필레이션을 더 포함하고,
    상기 쿼리 관리는 상기 문서 벡터들의 각각으로부터 컴필레이션 내의 각 스트링의 배제를 포함하여 상기 정적 문서 벡터로 상기 컴필레이션을 적용하는 것을 특징으로 하는 시스템.
  18. 제17항에 있어서,
    지적 재산 용어들의 상기 컴필레이션은 언어 특정인 것을 특징으로 하는 시스템.
  19. 제17항에 있어서,
    지적 재산 용어들의 상기 컴필레이션은 문화 특정인 것을 특징으로 하는 시스템.
  20. 제17항에 있어서,
    상기 문서 관리자가 상기 컴필레이션 내에 포함을 위한 특정 용어들의 식별을 포함하여, 비관련 지적 재산 용어들의 상기 컴필레이션들을 동적으로 업데이팅하는 것을 더 포함하는 것을 특징으로 하는 시스템.
  21. 제16항에 있어서,
    상기 문서 관리자는 지적 재산 문서로부터의 필드들의 선택으로 상기 정적 문서 벡터를 제한하고,
    상기 필드들은 명칭, 요약, 배경 기술, 개요, 상세한 설명, 청구범위, 도면들, 및 그들의 결합으로 이루어진 군으로부터 선택되는 것을 특징으로 하는 시스템.
  22. 제20항에 있어서,
    상기 문서 관리자는 상기 컬렉션 내의 각 지적 재산 문서에 대한 복수의 정적 문서 벡터들의 그룹을 생성하고,
    각 정적 문서 벡터는 상기 지적 재산 문서의 하나 이상의 필드들에 근거하는 것을 특징으로 하는 시스템.
  23. 제22항에 있어서,
    상기 쿼리 관리자와 통신하는 선택 관리자를 더 포함하고,
    상기 선택 관리자는 상기 문서 컬렉션으로의 적용을 위한 조사 범위를 선택하고,
    상기 조사 범위 선택은 상기 문서 컬렉션으로부터 적어도 하나의 정적 문서 벡터 카테고리에 맞춰 조절되고, 상기 적어도 하나의 정적 문서 벡터 카테고리와 상기 정의된 조사 범위에 근거한 상기 생성된 동적 벡터의 선택을 비교하는 것을 특징으로 하는 시스템.
  24. 제23항에 있어서,
    상기 조사 범위는 지적 재산 침해 조사이고,
    상기 선택 관리자는 상기 침해 조사를 위해 청구범위 벡터 카테고리를 선택하는 것을 더 포함하고,
    상기 청구범위 벡터 카테고리의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 청구범위로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 시스템.
  25. 제23항에 있어서,
    상기 조사 범위는 무효 조사이고,
    상기 선택 관리자는 상기 무효 조사를 위해 상기 명칭, 요약, 개요, 상세한 설명, 청구범위 및 도면 벡터 카테고리들의 선택하는 것을 더 포함하고,
    상기 선택된 벡터 카테고리들의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 문서 벡터들의 유형을 따라 지적 재산 문서들의 대표적인 섹션들로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 시스템.
  26. 제23항에 있어서,
    상기 조사 범위는 신규성 조사이고,
    상기 선택 관리자는 상기 신규성 조사를 위해 상기 상세한 설명 벡터 카테고리를 선택하는 것을 더 포함하고,
    상기 상세한 설명 벡터 카테고리의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 문서 벡터들의 유형을 따라 지적 재산 문서들의 상세한 설명 섹션들로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 시스템.
  27. 제23항에 있어서,
    상기 쿼리 관리자와 통신하는 그래픽 사용자 인터페이스를 더 포함하고,
    상기 그래픽 사용자 인터페이스는 상기 문서 컬렉션으로의 적용을 위한 상기 조사 범위를 선택하기 위해 정의된 입력 선택자의 배열을 구비하는 것을 특징으로 하는 시스템.
  28. 컴퓨터 메모리에서 전자 문서 컬렉션을 조사하도록 구성된 물품으로서,
    쿼리를 수행하기 위한 컴퓨터 프로그램 명령어들을 포함하는 컴퓨터-읽기 가능 캐리어를 포함하고,
    상기 명령어들은;
    지적 재산 문서들의 컬렉션을 컴파일링하는 명령어들로서, 상기 컬렉션 내의 상기 지적 재산 문서들의 각각은 복수의 섹션을 갖는 명령어들;
    인덱싱 시에, 상기 컬렉션 내의 각 지적 재산 문서에 대한 적어도 하나의 문서 벡터를 획득하는 명령어들로서, 상기 문서 컬렉션 내의 각 지적 재산 문서에 대한 적어도 하나의 정적 문서 벡터의 생성을 포함하는 명령어들;
    쿼리 시에, 쿼리 입력으로부터의 스트링 데이터에 근거하여 동적 문서 벡터를 생성하는 명령어들;
    상기 동적 문서 벡터와 상기 컬렉션 내의 각 정적 문서 벡터의 비교를 포함하여, 상기 전자 문서 컬렉션으로의 상기 쿼리 입력을 전송하는 명령어들; 및
    상기 동적 및 정적 문서 벡터의 비교에 근거하여 관련 지적 재산 문서들의 컴필레이션을 리턴하는 것을 포함하는 것을 특징으로 하는 물품.
  29. 제27항에 있어서,
    파일 내의 지적 재산 용어들의 비관련 스트링들의 컴필레이션을 생성하고, 또한 상기 문서 벡터들의 각각으로부터 상기 컴필레이션 내의 각 스트링의 배제를 포함하여, 상기 문서 벡터로 상기 컴필레이션을 적용하는 명령어들을 더 포함하는 것을 특징으로 하는 물품.
  30. 제29항에 있어서,
    지적 재산 용어들의 상기 컴필레이션은 언어 특정인 것을 특징으로 하는 물품.
  31. 제29항에 있어서,
    지적 재산 용어들의 상기 컴필레이션은 문화 특정인 것을 특징으로 하는 물품.
  32. 제29항에 있어서,
    상기 컴필레이션 내에 포함을 위한 특정 용어들의 식별을 포함하여, 비관련 지적 재산 용어들의 상기 컴필레이션들을 동적으로 업데이팅하는 명령어들을 더 포함하는 것을 특징으로 하는 물품.
  33. 제28항에 있어서,
    지적 재산 문서로부터의 필드들의 선택으로 상기 정적 문서 벡터를 제한하는 명령어들을 더 포함하고,
    상기 필드들은 명칭, 요약, 배경 기술, 개요, 상세한 설명, 청구범위, 도면들, 및 그들의 결합으로 이루어진 군으로부터 선택되는 것을 특징으로 하는 물품.
  34. 제33항에 있어서,
    상기 컬렉션 내의 각 지적 재산 문서에 대한 복수의 정적 문서 벡터들의 그룹을 생성하는 명령어들을 더 포함하고,
    각 정적 문서 벡터는 상기 지적 재산 문서의 하나 이상의 필드들에 근거하는 것을 특징으로 하는 물품.
  35. 제34항에 있어서,
    상기 문서 컬렉션으로의 적용을 위한 조사 범위를 선택하는 명령어들을 더 포함하고,
    상기 조사 범위의 선택은 상기 문서 컬렉션으로부터 적어도 하나의 정적 문서 벡터 카테고리에 맞춰 조절되고, 상기 적어도 하나의 정적 문서 벡터 카테고리와 상기 정의된 조사 범위에 근거한 상기 생성된 동적 벡터의 선택을 비교하는 것을 특징으로 하는 물품.
  36. 제35항에 있어서,
    상기 조사 범위는 지적 재산 침해 조사이고,
    상기 침해 조사를 위해 청구범위 벡터 카테고리를 선택하는 명령어들을 더 포함하고,
    상기 청구범위 벡터 카테고리의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 청구범위로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 물품.
  37. 제35항에 있어서,
    상기 조사 범위는 무효 조사이고,
    상기 무효 조사를 위해 상기 명칭, 요약, 개요, 상세한 설명, 청구범위 및 도면 벡터 카테고리들의 선택하는 명령어들을 더 포함하고,
    상기 선택된 벡터 카테고리들의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 문서 벡터들의 유형을 따라 지적 재산 문서들의 대표적인 섹션들로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 물품.
  38. 제35항에 있어서,
    상기 조사 범위는 신규성 조사이고,
    상기 신규성 조사를 위해 상기 상세한 설명 벡터 카테고리를 선택하는 명령어들을 더 포함하고,
    상기 상세한 설명 벡터 카테고리의 선택은 상기 문서 컬렉션으로부터 상기 근원적인 문서 컬렉션에 존재하는 문서 벡터들의 유형을 따라 지적 재산 문서들의 상세한 설명 섹션들로 상기 정적 문서 벡터를 제한하는 것을 특징으로 하는 물품.
  39. 컴퓨터 메모리에서 전자 문서 컬렉션을 조사하도록 구성된 물품으로서,
    쿼리를 수행하기 위한 컴퓨터 프로그램 명령어들을 포함하는 컴퓨터-읽기 가능 캐리어를 포함하고,
    상기 명령어들은;
    지적 재산 문서들의 컬렉션을 컴파일링하기 위한 컴파일 수단으로서, 상기 컬렉션 내의 상기 문서들 각각은 복수의 섹션을 갖는 수단;
    인덱싱 시에, 상기 컬렉션 내의 각 지적 재산 문서에 대한 적어도 하나의 문서 벡터를 획득하기 위한 수단으로서, 상기 문서 컬렉션 내의 각 지적 재산 문서에 대한 적어도 하나의 정적 문서 벡터를 생성하는 것을 포함하는 수단;
    쿼리 시에, 쿼리 입력으로부터의 스트링 데이터에 근거하여 동적 문서 벡터를 생성하기 위한 수단;
    상기 동적 문서 벡터와 상기 컬렉션 내의 각 정적 문서 벡터의 비교를 포함하여, 상기 전자 문서 컬렉션으로의 상기 쿼리 입력을 전송하기 위한 수단; 및
    상기 동적 및 정적 문서 벡터의 비교에 근거하여 관련 지적 재산 문서들의 컴필레이션을 리턴하기 위한 수단을 포함하는 것을 특징으로 하는 물품.
KR1020117029395A 2009-05-08 2009-05-08 전자 문서 컬렉션 내의 멀티-섹션 문서들의 타겟화된 조사를 위한 방법, 시스템 및 장치 Ceased KR20140056402A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/043371 WO2010128974A1 (en) 2009-05-08 2009-05-08 Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection

Publications (1)

Publication Number Publication Date
KR20140056402A true KR20140056402A (ko) 2014-05-12

Family

ID=43050307

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117029395A Ceased KR20140056402A (ko) 2009-05-08 2009-05-08 전자 문서 컬렉션 내의 멀티-섹션 문서들의 타겟화된 조사를 위한 방법, 시스템 및 장치

Country Status (8)

Country Link
EP (1) EP2438507A4 (ko)
JP (1) JP5516916B2 (ko)
KR (1) KR20140056402A (ko)
CN (1) CN102804125A (ko)
AU (1) AU2009345829A1 (ko)
CA (1) CA2761542A1 (ko)
NZ (1) NZ596910A (ko)
WO (1) WO2010128974A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5627750B1 (ja) * 2013-09-11 2014-11-19 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
JP2015056185A (ja) * 2014-09-30 2015-03-23 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
CN111373392B (zh) * 2017-11-22 2021-05-07 花王株式会社 文献分类装置
CN111078730A (zh) * 2019-12-23 2020-04-28 广东聚智诚科技有限公司 一种基于知识产权新颖性提取建立用户需求库的系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339767B1 (en) * 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US6038561A (en) * 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
JP4497337B2 (ja) * 2000-06-29 2010-07-07 株式会社野村総合研究所 概念検索装置およびコンピュータプログラムを記録した記録媒体
US6694331B2 (en) * 2001-03-21 2004-02-17 Knowledge Management Objects, Llc Apparatus for and method of searching and organizing intellectual property information utilizing a classification system
US9235849B2 (en) * 2003-12-31 2016-01-12 Google Inc. Generating user information for use in targeted advertising
JP2007018186A (ja) * 2005-07-06 2007-01-25 Shigematsu:Kk 権利調査支援システム
JPWO2008004563A1 (ja) * 2006-07-03 2009-12-03 株式会社アイ・ピー・ビー 研究者求人求職マッチングシステム及び共同研究/共同事業マッチングシステム
WO2008075744A1 (ja) * 2006-12-20 2008-06-26 Intellectual Property Bank Corp. 情報処理装置、提携先を選定するための情報を生成する方法、およびプログラム

Also Published As

Publication number Publication date
JP5516916B2 (ja) 2014-06-11
CA2761542A1 (en) 2010-11-11
AU2009345829A1 (en) 2012-01-12
CN102804125A (zh) 2012-11-28
WO2010128974A1 (en) 2010-11-11
JP2012526319A (ja) 2012-10-25
NZ596910A (en) 2014-02-28
EP2438507A1 (en) 2012-04-11
EP2438507A4 (en) 2013-03-20

Similar Documents

Publication Publication Date Title
CN112579155B (zh) 代码相似性检测方法、装置以及存储介质
JP5534266B2 (ja) 電子文書コレクションからクエリ結果を送付する方法、システム及び装置
CN102226900B (zh) 信息检索系统中基于短语的搜索
US20100287148A1 (en) Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
CA2789010C (en) Propagating classification decisions
US8364679B2 (en) Method, system, and apparatus for delivering query results from an electronic document collection
CA2778145A1 (en) Method and apparatus for managing multiple document versions in a large scale document repository
KR20120123781A (ko) 의미기반 특허 청구항 분석에 기반한 특허 침해 판단 장치 및 그 방법
CN101419625A (zh) 一种基于最小可查询模式的Deep Web自适应爬取方法
KR20140056402A (ko) 전자 문서 컬렉션 내의 멀티-섹션 문서들의 타겟화된 조사를 위한 방법, 시스템 및 장치
US20060101014A1 (en) System and method for minimally predictive feature identification
US20100287177A1 (en) Method, System, and Apparatus for Searching an Electronic Document Collection
KR101560756B1 (ko) 전자 문서 콜렉션을 검색하기 위한 방법, 시스템, 및 장치
US20040186833A1 (en) Requirements -based knowledge discovery for technology management
CN118689589B (zh) 一种基于知识图谱的容器镜像相似度评估方法
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
KR101456187B1 (ko) 복합 평가 요소에 기초한 특허 평가 방법
Bareham et al. Finding the Goldilocks Zone: Retrieving Citation Context
Weidmann et al. Catalogue of central stars of extragalactic planetary nebulae
US20090313221A1 (en) Patent technology association classification method
CN117520628A (zh) 一种计量信息数据采推送方法、系统及介质
KR20190092055A (ko) 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법
Ribeiro et al. Ingredients for accurate, fast, and robust XML similarity joins
KR20140111237A (ko) 복합 평가 요소에 기초한 특허 평가 방법

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20111208

Patent event code: PA01051R01D

Comment text: International Patent Application

A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20140430

Comment text: Request for Examination of Application

PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20150820

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20151026

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20150820

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I