JP2004501412A - Method and apparatus for flexibly assigning tokenization procedures - Google Patents
Method and apparatus for flexibly assigning tokenization procedures Download PDFInfo
- Publication number
- JP2004501412A JP2004501412A JP2001550618A JP2001550618A JP2004501412A JP 2004501412 A JP2004501412 A JP 2004501412A JP 2001550618 A JP2001550618 A JP 2001550618A JP 2001550618 A JP2001550618 A JP 2001550618A JP 2004501412 A JP2004501412 A JP 2004501412A
- Authority
- JP
- Japan
- Prior art keywords
- document
- instructions
- tokenized
- index
- tokenization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本発明の1つの実施形態は、ドキュメントにあるテキストの検索を容易にするために、このテキストを個別の意味を有する単位のテキストに応じたトークンに変換することによってドキュメントのテキストをトークン化するシステムを提供する。このシステムはトークン化されるべきドキュメントを受け取り、このドキュメントに関連するトークン命令のセットを取り出すことによって動作する。次いで、このシステムはこのドキュメントを、トークン命令のセットによって特定される方法で、個別の意味を有する単位のテキストに対応するトークンに翻訳することによりトークン化する。
【選択図】図5One embodiment of the present invention is a system for tokenizing text of a document by converting the text into tokens according to a unit of text having individual meanings to facilitate searching for text in the document. I will provide a. The system operates by receiving a document to be tokenized and retrieving a set of token instructions associated with the document. The system then tokenizes the document by translating in a manner specified by the set of token instructions into tokens corresponding to a unit of text having individual meanings.
[Selection diagram] FIG.
Description
【0001】
(背景)
本発明はコンピュータ化されたデータ検索を容易にするためのインデックス構造に関する。さらに詳細に述べると、本発明はドキュメントを、文字型または数字などのような、個別の意味を有する単位のテキストに関連するトークンに変換するためのトークン化手順を柔軟に割り当てる方法および装置に関する。
【0002】
インターネットの爆発的な成長が、ユーザが数千および数百万の種々のウェブサイトから膨大な量のテキストデータを速く検索できる検索エンジンの開発に強く結びつけられた。特定のトピックに興味あるユーザは複数のキーワードを含んでいる種々のウェブページへのリンクを受け取るために、これらを検索エンジンに単に入力する必要があるだけである。
【0003】
検索エンジンは通常、WWW(world wide web)で利用されているドキュメント(ウェブページなど)の“インデックス”を生成することである。通常、インデックスは“トークン”として公知のよりコンパクトで容易に検索可能な形式の個別の文字群(または他の意味を有するテキストストリング)を格納することである。
【0004】
ドキュメントが異なってインデックス化される必要のある広範囲の種々の異なる形式を有し得るという事実によって、有効なインデックスの構築のプロセスは、大変複雑になり得る。例えば、技術論文における有効なインデックスは技術論文の要約および題目を含み得るが、技術論文の本文を含まず、一方、テレビジョンのスケジュ−ルにおける有効なインデックスは個別のテレビジョンプログラムにおける格付けを含み得る。
【0005】
インデックスを生成するプロセスは、共通のドキュメントフォーマット、例えばハイパーテキストマークアップ言語(HTML)または拡張マークアップ言語(XML)において、検索目的のための多数の重要な情報が属性フィールドに格納され、ドキュメントの通常テキストの中に格納されてないという事実によって、また複雑になっている。
【0006】
さらに、ドキュメントの構造は長い間に変わり得るし、このことが変化するインデックス構造を要求し得る。例えば、プロダクトカタログ構造は個別商品における消費者展望を含むように更新されることを想定する。この変化はこれらの消費者展望を含むように変化するインデックスを要求し得る。
【0007】
実存のシステムはその場限りの規則を用いるドキュメントのインデックスを生成する。例えば、その場限りの規則のあるものは、属性フィールドにない全てのテキスト情報ためのインデックスを生成する。不幸にも、そのようなその場限りの規則はたびたび重要でない情報を多く含み、そしてたびたび重要な情報を排除する。
【0008】
類似問題がインデックス生成プロセスにおいてドキュメントをトークンに変換する(このドキュメントのトークン化)際に存在する。このインデックス生成プロセスにおいて、ドキュメントの関連部分は、個別の意味を有する単位のテキスト、例えば、文字形式または数字に関連するトークンに変換される。英語では、通常、文字形式は空白および句読マークで線引きされる。従って、トークン化プロセスが相対的に簡単である。対照的に、日本語のような言語はそのような線引きを有しない。結果として、このトークン化プロセスは文脈情報に依存し、非常に複雑にされ得る。
【0009】
このトークン化プロセスはまたドメインに依存し得る。例えば、“person.dept@companyx.com”のような電子メールのピリオドは、連結要素であり、一方、他のテキスト情報の中でのピリオドは通常、単語および文章境界の線引きを行う。
【0010】
従って、トークン化プロセスは言語間およびドメイン間で変化する。
【0011】
(要旨)
本発明の1つの実施形態は、テキスト検索を容易にするために、ドキュメントの中のテキストを、個別の意味を有する単位のテキストに対応するトークンに変換することによってトークン化するシステムを供給する。このシステムはトークン化されるべきドキュメントを受け取り、このドキュメントに関連するトークン化命令のセットを取り出すことによって動作する。次いで、このシステムはこのドキュメントを、トークン命令のセットによって特定される方法で、個別の意味を有する単位のテキストに対応するトークンに翻訳することによりトークン化する。
【0012】
本発明のある実施形態において、このドキュメントをトークン化することはこのドキュメントの第1の区分をトークン化するための第1のトークン命令のセットを用いることと、このドキュメントの第2の区分をトークン化するための第2のトークン命令のセットを用いることとを含む。
【0013】
本発明のある実施形態において、このトークン化命令のセットはプラグインモジュールにおいて含まれる。
【0014】
本発明のある実施形態において、このトークン化命令のセットはオブジェクト指向プログラミングシステムの中で定義されているオブジェクトを介して駆動される。
【0015】
本発明のある実施形態において、このシステムはさらにドキュメントのインデックスを生成することにおいてトークン化されたドキュメントを用いる。この実施形態のある変形において、このシステムはこのインデックスを検索エンジンに利用できるようにさせ、この検索エンジンがこのインデックスを走査できるようにする。
【0016】
本発明のある実施形態において、このシステムはリモートアドレスからネットワークを介してトークン化命令のセットを取り出す。
【0017】
本発明のある実施形態において、このトークン化命令のセットはこのドキュメントに追加される。
【0018】
本発明のある実施形態において、このトークン化命令のセットはこのドキュメントに関連するトークン化手順の中に含まれる。
【0019】
本発明のある実施形態において、このドキュメントはトークン化サーバにおいてクライアントから取り出される。この実施形態では、トークン化サーバはこのトークン化されたドキュメントをクライアントに返す。
【0020】
本発明のある実施形態において、このトークン化命令のセットはリモートサーバからネットワークを介して与えられる。
【0021】
(詳細な説明)
下記の説明は、任意の当業者がこの発明を作り出しおよび使用することが可能であることを提示し、特定の応用およびこの条件に関連して与えられる。この開示された実施形態における種々の変形は当業者にとって容易に理解され、そして本明細書の中で定義される一般的な原理は本発明の精神と範囲を逸脱することなく他の実施形態および用途に応用され得る。このようにして、本発明は示された実施形態に限定されるように意図されたものでなく、ここで開示した原理および特長に一致する最も広い範囲に一致する。
【0022】
この詳細な説明の中で記述されるデータ構造およびコードは通常、コンピュータの読み出し可能な記憶媒体に格納され、そしてこの媒体はコンピュータシステムによって使用されるコードおよび/またはデータを格納できる任意のデバイスまたは媒体であり得る。これは、限定されないが、磁気的および光学的記憶デバイス、例えば、デイスクドライブ、磁気テープ、CD(コンパクトデイスク)、およびDVD(デジタルビデオデイスク)を含み、そしてさらに伝送媒体に組み込まれたコンピュータ命令信号(この信号が変調されるキャリア波を持つかまたは持たない)を含む。例えば、この伝送媒体はインターネットのような通信ネットワークを含み得る。
【0023】
(分散コンピュータシステム)
図1は、本発明の実施形態に従った分散コンピュータシステム100を示す。分散コンピュータシステム100は、クライアント102および118を含み、これらは、ネットワーク110を介して、インデックスサーバ112および検索エンジン122を接続する。
【0024】
ネットワーク110は相互にコンピュータノードを接続できる任意の有線または無線の通信チャンネルを含むことができる。これは、限定されないが、構内ネットワーク、広帯域ネットワーク、またはネットワークの組み合わせを含む。本発明のある実施形態において、ネットワーク110はインターネットを含む。
【0025】
クライアント102および118はコンピュータの性能を含み、およびネットワーク110を介して通信メカニズムを含むネットワーク110上の任意のノードを含み得る。
【0026】
クライアント102は複数のドキュメント104−106を含み、これらはインデックスサーバ112の中のインデックス116に統合化される。インデックスサーバ112は演算および/またはデータ格納資源に対してクライアントからの要求をサービスするためのメカニズムを含むコンピュータネットワーク上のノードを含み得る。さらに特に、インデクッスサーバ112は、ドキュメント104−106をインデックス化するために、データベース114のなかにインデックス116を生成するための資源を含む。データベース114はデータを不揮発性形式で格納する任意のタイプのメカニズムを含むことができる。本発明のある実施形態では、データベース114は、Oracle Corporation of Redwood Shores,Californiaによって配布されたORACLE8(登録商標)データベースを含む。
【0027】
クライアント118は、インデックス116を走査するために検索エンジン122と通信するブラウザ120を含む。ブラウザ120は、ウェブサイトを閲覧できる任意のタイプのブラウザ、例えば、Microsoft Corporation of Redmond,Washingtonによって配布されたINTERNET EXPLORER(登録商標)ブラウザを含み得る。検索エンジン122は、データを検索できる任意のタイプのコンピュータシステムまたはアプリケーション応用を含み得る。
【0028】
動作中、インデックスサーバ112はクライアント102からドキュメント104−106を取り出し、インデックス116を生成するためにドキュメント104−106を利用する。クライアント102は、ドキュメント104−106をインデックスサーバ112に送り得ることを留意されたい。あるいは、この代わりとして、インデックスサーバ112はクライアント102からドキュメント104−106を集めることができる。
【0029】
インデックスサーバ112はドキュメント104−106から選択された部分をトークン化し、このトークンからインデックス116を生成することよってインデックス116を生成する。クライアント102はそれ自体、ドキュメント104−106を、ネットワーク110を介して利用させる1つのサーバであり得ることを留意されたい。
【0030】
インデックス116が生成された後、クライアント118はブラウザ120を介して検索エンジン122にクエリー124を送信する。クエリー124はユーザのクライアント118に対し目標のキーワードを特定し得る。クエリー124に応答して、検索エンジン122はインデックス116の中にあるマッチングしたキーワードを含むドキュメントを見つけるためにインデックス116を検索する。そのようなドキュメントがつきとめられた場合、検索エンジン122はクェリーヒット126の一覧のなかの当該ドキュメントをブラウザ120に返す。
【0031】
(インデックスサーバ)
図2は、インデックスサーバ112が本発明の実施形態に従って、異なるドキュメントのタイプのためのインデックスをいかに生成するかを示す。図2において、インデックスサーバ112は異なる資源から多数の異なるドキュメントを受け取る。インデックスサーバ112はこれらの異なるタイプのドキュメントをインデックス116に統合化する。インデックス116は多数の異なるドキュメントタイプを含む1つのインデックスを含み得ることを留意されたい。また、インデックス116は各ドキュメントタイプに対し異なるインデックスを含み得る。
【0032】
限りない数のドキュメントタイプがインデックス化され得る。例えば、図2は、ニュースドキュメント202と、プロダクトカタログ204と、テレビジョンプログラムスケジュール206と、ユーザのドキュメンテーションを含むドキュメント208と、財務情報を含むドキュメント210とを示す。これらの異なるドキュメントタイプのそれぞれが異なるドキュメントの構造を有し得、そしてこの構造はXMLのような言語で定義され得る。これらの異なるドキュメントの構造のそれぞれは異なるインデックスの仕組みに関連され得る。数個のドキュメントにおいて、特定の属性はこのインデックスの中に含まれ得る。例えば、数種のタイプのユーザのドキュメンテーションにおいて、このユーザのドキュメンテーションが初心者ユーザかまたは専門ユーザに適しているかどうかを示す属性をインデックス化することは有利になり得る。
【0033】
(インデックススタイルシートおよびトークン化手順)
図3は、本発明の実施形態に従って、あるドキュメントに対してインデックス化のためのスタイルシートおよびトークン化のための手順がいかに生成し、かつインデックス化するために用いられるかを示す。図3において、インデックスサーバ112の中のインデックス構築メカニズム310は入力としてドキュメント302を受け取り、そしてこのドキュメント302のためのインデックス312を生成する。インデックス312はドキュメント収集のために大きなインデックス116の中に入り、そしてこの収集はデータベース114(図1から)の中に含まれる。
【0034】
このインデックス構築プロセス中、インデックス構築器310はこのインデックススタイルシート304およびトークン化手順306−307を参照する。インデックススタイルシート304はドキュメント302のためのインデックス312を生成する命令のセットを含む。例えば、インデックススタイルシート304は、インデックス312を生成することにおいて、ドキュメント302のどの区分が読み飛ばされるべきかを特定できる。インデックススタイルシート304は、インデックススタイルシート304に含まれているドキュメント302の属性をも特定できる。例えば、属性はある人がドキュメント302のアクセス権を有するための最低のセキュリティレベルを特定できる。別の属性はドキュメント302のための内容の格付け(G,PG−13,PG,R,X)を特定できる。
【0035】
トークン化手順306−307はドキュメント302のある部分がいかにトークン化されるかを特定する。例えば、トークン化手順306はドキュメント302の第1の部分がいかにトークン化されるかを特定し、一方、トークン化手順307はドキュメント302の第2の部分がいかにトークン化されるかを特定する。大抵のドキュメントは多分1つのトークン化手順を用いるが、他のドキュメントは異なる言語での部分または異なるトークン化手順を必要とする異なるドメインからの部分を含み得る。
【0036】
インデックススタイルシート304はXML標準によって特定されたフォーマットのスタイルシートと類似している。フォーマットのスタイルシートは、XMLドキュメントを表示するために、表示属性、例えば、フォントおよび色などを特定するために用いられる。同じように、インデックスのスタイルシート304はドキュメント302のためのインデックスがいかに生成されるかを特定する。
【0037】
図3はスタイルシートおよび手順の形態においてインデックス命令およびトークン命令を示すが、他の表現も可能であることを留意されたい。例えば、このインデックスおよびトークン命令はインデックス構築器310の中にプラグインされ得るプラグインモジュールに中に含まれ得る。
【0038】
これらのインデックスおよびトークン命令はオブジェクト指向プログラミングシステムの中で定義されたオブジェクトを介して参照され得る。例えば、インデックスのパラメータオブジェクトはドキュメント302のインデックスを構築するために、この命令を取り出す方法を含み得る。
【0039】
このトークン手順306−307はさらにトークン化命令を含むコードモジュールの形式を仮定できるかまたは、ネットワークを通してのリモートサービスによって供給され得る。
【0040】
また、インデックスのスタイルシート304は、トークン化手順306−307がどこから取り出され得るかを特定できる参照項を含み得ることを留意されたい。
【0041】
このインデックス構築器310は多数の異なるインデックスのスタイルシートおよびトークン化手順からの入力を受けることができる標準化されたインタフェースを含む。これは、インデックス構築器310が多数の異なるトークン化ルールを用いて、多数の異なるドキュメントタイプのためのインデックスを生成できることを可能にする。
【0042】
(トークン化プロセス)
図4はこのトークン化プロセスの例を示す。この例では、“MAY 7,2000”という1つのテキストが3つのトークン402−404に分けられる。トークン402は単語“MAY.”を含む。トークン403は日の数字の“7,”を含み、トークン404は年の数字“2000.”を含む。これらのトークンのそれぞれは唯一のトークン数字に関係し、この唯一のトークン数字はこのインデックスを生成するために用いられる。トークン数字を用いることはさらにコンパクトな再表現に通じ、これはトークン数字が大文字より大きくかつ空白より小さいストリングを拾い上げているからである。さらに、この検索プロセスの間、文字ストリングより数字ストリングを調べることの方がより簡単である。
【0043】
(インデックス生成プロセス)
図5は、本発明の実施形態に従ってインデックスを生成するプロセスを示すフローチャートである。このシステムは構成ファイル(ステップ502)をダウンロードすることで開始する。このプロセスはネットワークを介して構成ファイルをダウンロードすることを含み得る。次いで、このシステムはこの構成ファイルの構文解析を行い(ステップ504)、この構成ファイルの中のインデックスのスタイルシート304のアドレスを識別する(ステップ506)。
【0044】
次いで、このシステムはこの識別されたアドレスからこのインデックスのスタイルシート304をダウンロードする(ステップ508)。これはユニバーサルリソースローケータ(URL)によって特定された場所からのネットワークを介してこのスタイルシートを取り出すことを含む。または、このスタイルシートはこのドキュメントに追加でき、どのケースにおいても、このインデックスのスタイルシートは簡単に取り出され得る。
【0045】
次いで、このシステムは、このインデックス生成プロセスの間、このインデックスのスタイルシートの中の命令が用いられ得るようにこのインデックスのスタイルシート304の構文解析を行う(ステップ510)。
【0046】
このシステムは同じようにトークン化手順306のアドレスを識別する(ステップ512)。(トークン化手順306のアドレスはこの構成ファイルの中かまたは、インデックスのスタイルシート304の中に含まれ得る)。次いで、このシステムはこの識別されたアドレスからトークン化手順306をダウンロードする(ステップ514)。本発明のある実施形態では、トークン化手順306はインデックスのスタイルシート304と同じように同じ場所から取り出され得る。本発明の別の実施形態では、トークン化手順306は別の場所から取り出され得る。
【0047】
次いで、このシステムは複数のドキュメントをインデックス116に入力する。これは、1つのドキュメントをインデックス構築器310にダウンロードし(ステップ518)、そしてその後インデックスのスタイルシート304の中で特定された命令を用いてこのドキュメントの構文解析を行う(ステップ520)ことによって成し遂げられる。このシステムはこの構文解析されたドキュメントをトークン化手順306を用いてトークンに変換し(ステップ522)、そしてこのトークンを用いてインデックスを生成する(ステップ524)。このプロセスはインデックス116に入力されるドキュメントのそれぞれに対して、繰り返される。
【0048】
インデックス116が完成した後、検索エンジン122がクエリー処理のためにインデックス116を走査できるように、このシステムはインデックス116を検索エンジン122(図1から)に対して利用させる(ステップ526)。
【0049】
図6は、本発明の実施形態に従って、あるドキュメントに対して更新されるインデックスを動的に生成するプロセスを示すフローチャートである。あるタイプの検索に対して、データは寿命が限られている。例えば、現在の天候データの検索において、古い天候データは関心がない。
【0050】
これらの環境において、本発明のある実施形態は下述のように動作する。このシステムは検索リクエストを受け取る(ステップ602)。この検索リクエストの応答に対し、このシステムはこの検索の中に含まれる任意のドキュメントに対してドキュメント作成日時をチェックする(ステップ604)。このシステムが、ドキュメントが古いと判定すると(多分ドキュメントの年と制限年を比較することによって)、このシステムは新バージョンのドキュメントを生成させる(例えば、新天候データを収集することによって)(ステップ606)。次いで、このシステムはこの新バージョンのドキュメントに対してインデックスを生成する(ステップ608)。このプロセスは暗黙のうちに古いバージョンのドキュメントを取り除く(ステップ610)。最後に、このシステムはこの新しく更新されたインデックスを含む検索を実行する。
【0051】
本発明の実施形態の前述の説明は図解および説明だけの目的だけに表されたものである。これらは排他的でかつ本発明を開示された形式に限定することを意図したものでない。従って、多数の変更と変形は当業者には明白であり得る。
【0052】
例えば、本発明はクライアントおよびサーバを含む分散コンピュータシステムに関連して記述されているが、本発明は必ずしも分散クライアント−サーバコンピュータシステムに限定されるものでない。一般に、本発明はテキスト情報のためのインデックスを生成する任意のシステムまたはテキスト情報をトークン化する任意のシステムに適用できる。
【0053】
さらに、上述の開示は本発明に限定することを意図していない。本発明の範囲は添付の特許請求の範囲によって規定される。
【図面の簡単な説明】
【図1】
図1は本発明の実施形態に従う分散コンピュータシステムを示す。
【図2】
図2は、インデックスサーバが本発明の実施形態に従う異なるドキュメントタイプのインデックスをどのように生成するかを示す。
【図3】
図3は、インデックス化するスタイルシートおよびトークン化手順が、本発明の実施形態に従ってドキュメントのインデックスを生成するためにどのように用いられるかを示す。
【図4】
図4は、トークン化プロセスの例を示す。
【図5】
図5は、本発明の実施形態に従って、インデックスを生成するプロセスを示すフローチャートを示す。
【図6】
図6は、本発明の実施形態に従って、古いドキュメントに対して、更新されたインデックスを動的に生成するプロセスを示すフローチャートを示す。[0001]
(background)
The present invention relates to an index structure for facilitating computerized data search. More particularly, the present invention relates to a method and apparatus for flexibly assigning a tokenization procedure for converting a document into tokens associated with a unit of text having a discrete meaning, such as a character type or a number.
[0002]
The explosive growth of the Internet has been strongly tied to the development of search engines that allow users to quickly search vast amounts of text data from thousands and millions of different websites. Users interested in a particular topic only need to enter them into a search engine to receive links to various web pages containing multiple keywords.
[0003]
Search engines typically create an "index" of documents (such as web pages) that are being used on the WWW (world wide web). Typically, an index is to store a discrete group of characters (or other meaningful text strings) in a more compact and easily searchable form known as a "token".
[0004]
The fact that documents can have a wide variety of different formats that need to be indexed differently can complicate the process of building an effective index. For example, a valid index in a technical article may include the abstract and title of the technical article, but not the body of the technical article, while a valid index on a television schedule includes ratings in individual television programs. obtain.
[0005]
The process of generating the index is based on a common document format, such as Hypertext Markup Language (HTML) or Extensible Markup Language (XML), where a number of important information for search purposes is stored in attribute fields; Complicated by the fact that they are not usually stored in text.
[0006]
Further, the structure of a document can change over time, which can require a changing index structure. For example, assume that the product catalog structure is updated to include the consumer outlook on individual products. This change may require a changing index to include these consumer perspectives.
[0007]
Existing systems index documents using ad-hoc rules. For example, some ad hoc rules generate an index for all textual information that is not in an attribute field. Unfortunately, such ad hoc rules often contain a lot of insignificant information and often eliminate important information.
[0008]
A similar problem exists when converting a document into tokens (tokenify this document) in the index generation process. In this indexing process, relevant parts of the document are converted into tokens relating to units of text having individual meanings, for example, character form or numbers. In English, character forms are usually delineated with blanks and punctuation marks. Therefore, the tokenization process is relatively simple. In contrast, languages such as Japanese do not have such a line. As a result, this tokenization process depends on contextual information and can be very complicated.
[0009]
This tokenization process may also be domain dependent. For example, an email period such as "person.dept@companyx.com" is a connected component, while a period in other textual information typically delineates word and sentence boundaries.
[0010]
Thus, the tokenization process varies between languages and between domains.
[0011]
(Abstract)
One embodiment of the present invention provides a system for tokenizing text in a document by converting the text in a document into tokens corresponding to units of text having individual meanings to facilitate text search. The system operates by receiving a document to be tokenized and retrieving a set of tokenized instructions associated with the document. The system then tokenizes the document by translating in a manner specified by the set of token instructions into tokens corresponding to units of text having individual meanings.
[0012]
In one embodiment of the invention, tokenizing the document uses a first set of token instructions to tokenize a first section of the document, and tokenizing the second section of the document with a token. Using a second set of token instructions to generate
[0013]
In one embodiment of the invention, this set of tokenized instructions is included in a plug-in module.
[0014]
In one embodiment of the invention, this set of tokenized instructions is driven via objects defined in an object-oriented programming system.
[0015]
In some embodiments of the invention, the system further uses the tokenized document in indexing the document. In a variation of this embodiment, the system makes the index available to a search engine, which allows the search engine to scan the index.
[0016]
In one embodiment of the present invention, the system retrieves a set of tokenized instructions from a remote address over a network.
[0017]
In one embodiment of the invention, this set of tokenized instructions is added to this document.
[0018]
In one embodiment of the invention, the set of tokenization instructions is included in a tokenization procedure associated with the document.
[0019]
In one embodiment of the invention, the document is retrieved from the client at the tokenization server. In this embodiment, the tokenization server returns the tokenized document to the client.
[0020]
In one embodiment of the present invention, this set of tokenized instructions is provided over a network from a remote server.
[0021]
(Detailed description)
The following description sets out that any person skilled in the art can make and use the invention, and is given in connection with the specific application and its conditions. Various modifications of this disclosed embodiment will be readily apparent to those skilled in the art, and the general principles defined herein may be applied to other embodiments and to other embodiments without departing from the spirit and scope of the invention. It can be applied to applications. Thus, the present invention is not intended to be limited to the embodiments shown, but is to be accorded the widest scope consistent with the principles and features disclosed herein.
[0022]
The data structures and codes described in this detailed description are typically stored on computer readable storage media, and the media can be any device or code capable of storing code and / or data used by a computer system. It can be a medium. This includes, but is not limited to, magnetic and optical storage devices such as disk drives, magnetic tapes, CDs (compact disks), and DVDs (digital video disks), and further includes computer instruction signals embedded in transmission media. (This signal may or may not have a modulated carrier wave). For example, the transmission medium may include a communication network such as the Internet.
[0023]
(Distributed computer system)
FIG. 1 shows a distributed
[0024]
[0025]
[0026]
Client 102 includes a plurality of documents 104-106, which are integrated into an index 116 in
[0027]
[0028]
In operation,
[0029]
[0030]
After the index 116 is generated, the
[0031]
(Index server)
FIG. 2 illustrates how the
[0032]
An unlimited number of document types can be indexed. For example, FIG. 2 shows a
[0033]
(Index style sheet and tokenization procedure)
FIG. 3 illustrates how a style sheet for indexing and a procedure for tokenization are generated and used to index a document according to an embodiment of the present invention. In FIG. 3, an
[0034]
During the index construction process, the index constructor 310 references the index style sheet 304 and the tokenization procedures 306-307. Index style sheet 304 includes a set of instructions that generate
[0035]
Tokenization procedures 306-307 specify how certain portions of
[0036]
Index style sheet 304 is similar to a style sheet in a format specified by the XML standard. The format style sheet is used to specify display attributes, such as font and color, for displaying the XML document. Similarly, the index stylesheet 304 specifies how the index for the
[0037]
Although FIG. 3 shows index and token instructions in the form of style sheets and procedures, it should be noted that other representations are possible. For example, the index and token instructions may be included in a plug-in module that may be plugged into
[0038]
These index and token instructions can be referenced via objects defined in the object-oriented programming system. For example, an index parameter object may include a method for retrieving this instruction to build an index for
[0039]
This token procedure 306-307 can also assume the form of a code module that includes tokenized instructions, or can be provided by a remote service over a network.
[0040]
Also note that the index stylesheet 304 may include a reference term that can identify where the tokenization procedures 306-307 can be retrieved.
[0041]
The
[0042]
(Tokenization process)
FIG. 4 shows an example of this tokenization process. In this example, one text "MAY 7, 2000" is divided into three tokens 402-404. Token 402 contains the word "MAY." Token 403 contains the day number "7," and token 404 contains the year number "2000." Each of these tokens is associated with a unique token number, which is used to generate this index. Using token digits leads to a more compact re-expression, since the token digits pick up strings that are larger than uppercase and smaller than white space. Further, during this search process, it is easier to look up a digit string than a character string.
[0043]
(Index generation process)
FIG. 5 is a flowchart illustrating a process for generating an index according to an embodiment of the present invention. The system starts by downloading a configuration file (step 502). This process may include downloading the configuration file over a network. The system then parses the configuration file (step 504) and identifies the address of style sheet 304 of the index in the configuration file (step 506).
[0044]
The system then downloads the style sheet 304 for the index from the identified address (step 508). This involves retrieving this stylesheet over the network from the location specified by the Universal Resource Locator (URL). Alternatively, the style sheet can be added to this document, and in any case, the style sheet for this index can be easily retrieved.
[0045]
The system then parses the index's stylesheet 304 so that the instructions in the index's stylesheet can be used during the index generation process (step 510).
[0046]
The system similarly identifies the address of the tokenization procedure 306 (step 512). (The address of the tokenization procedure 306 may be included in this configuration file or in the style sheet 304 of the index). The system then downloads the tokenization procedure 306 from the identified address (step 514). In some embodiments of the present invention, the tokenization procedure 306 may be retrieved from the same location as the style sheet 304 of the index. In another embodiment of the invention, the tokenization procedure 306 may be retrieved from another location.
[0047]
The system then enters the plurality of documents into index 116. This is accomplished by downloading one document to the index builder 310 (step 518) and then parsing the document using the instructions specified in the index's stylesheet 304 (step 520). Can be The system converts the parsed document into a token using tokenization procedure 306 (step 522), and generates an index using the token (step 524). This process is repeated for each of the documents entered into index 116.
[0048]
After the index 116 is completed, the system makes the index 116 available to the search engine 122 (from FIG. 1) so that the
[0049]
FIG. 6 is a flowchart illustrating a process for dynamically generating an index that is updated for a document in accordance with an embodiment of the present invention. For some types of searches, the data has a limited lifetime. For example, in searching for current weather data, old weather data is not of interest.
[0050]
In these environments, certain embodiments of the present invention operate as described below. The system receives a search request (step 602). In response to the search request, the system checks the document creation date and time for any documents included in the search (step 604). If the system determines that the document is out of date (perhaps by comparing the document year to the limit year), the system causes a new version of the document to be generated (eg, by collecting new weather data) (step 606). ). The system then generates an index for the new version of the document (step 608). The process silently removes old versions of the document (step 610). Finally, the system performs a search that includes the newly updated index.
[0051]
The foregoing description of the embodiments of the present invention has been presented for purposes of illustration and description only. They are exclusive and are not intended to limit the invention to the form disclosed. Accordingly, many modifications and variations may be apparent to practitioners skilled in the art.
[0052]
For example, although the invention has been described with reference to a distributed computer system including clients and servers, the invention is not necessarily limited to a distributed client-server computer system. In general, the invention is applicable to any system that generates an index for text information or any system that tokenizes text information.
[0053]
Moreover, the above disclosure is not intended to be limited to the present invention. The scope of the invention is defined by the appended claims.
[Brief description of the drawings]
FIG.
FIG. 1 shows a distributed computer system according to an embodiment of the present invention.
FIG. 2
FIG. 2 illustrates how an index server generates indexes for different document types according to an embodiment of the present invention.
FIG. 3
FIG. 3 illustrates how indexing style sheets and tokenization procedures are used to index documents according to embodiments of the present invention.
FIG. 4
FIG. 4 shows an example of the tokenization process.
FIG. 5
FIG. 5 shows a flowchart illustrating a process for generating an index according to an embodiment of the present invention.
FIG. 6
FIG. 6 shows a flowchart illustrating a process for dynamically generating an updated index for old documents according to an embodiment of the present invention.
Claims (33)
トークン化される該ドキュメントを受けるステップと、
該ドキュメントに関連するトークン化命令のセットを取り出すステップと、
該トークン化命令のセットによって特定される方法で該ドキュメントを個別の意味を有する単位のテキストに対応するトークンに翻訳することによってトークン化するステップと
を含む、方法。A method of tokenizing text in a document by converting the text into tokens corresponding to units of text having individual meanings to facilitate searching for the text in the document,
Receiving the document to be tokenized;
Retrieving a set of tokenized instructions associated with the document;
Tokenizing the document in a manner specified by the set of tokenizing instructions by translating the document into tokens corresponding to a unit of text having individual meanings.
トークン化される該ドキュメントを受けるステップと、
該ドキュメントに関連するトークン化命令のセットを取り出すステップと、
該トークン化命令のセットによって特定される方法で該ドキュメントを個別の意味を有する単位のテキストに対応するトークンに翻訳することによってトークン化するステップと
を含む、方法。When executed by a computer, the computer translates the text in the document by converting the text into tokens corresponding to units of text having individual meanings to facilitate searching for the text in the document. A computer readable storage medium storing instructions for performing a tokenizing method,
Receiving the document to be tokenized;
Retrieving a set of tokenized instructions associated with the document;
Tokenizing the document in a manner specified by the set of tokenizing instructions by translating the document into tokens corresponding to a unit of text having individual meanings.
前記方法が該トークンされたドキュメントを該トークン化サーバから該クライアントに返すステップをさらに含む、請求項12に記載のコンピュータで読み出し可能な記憶媒体。Said document is received at a tokenization server from a client,
13. The computer readable storage medium of claim 12, wherein the method further comprises returning the tokenized document from the tokenizing server to the client.
トークン化される該ドキュメントを受けるように構成される受け取りメカニズムと、
該ドキュメントに関連するトークン化命令のセットを取り出すように構成される命令受け取りメカニズムと、
該トークン化命令のセットによって特定される方法で該ドキュメントを個別の意味を有する単位のテキストに対応するトークンに翻訳することによって該ドキュメントをトークン化するように構成されるトークン化メカニズムと
を含む、装置。An apparatus for tokenizing text in a document by converting the text into tokens corresponding to units of text having individual meanings to facilitate retrieval of the text in the document,
A receiving mechanism configured to receive the document to be tokenized;
An instruction receiving mechanism configured to retrieve a set of tokenized instructions associated with the document;
A tokenization mechanism configured to tokenize the document by translating the document in a manner specified by the set of tokenization instructions into tokens corresponding to units of text having individual meanings. apparatus.
該トークン化サーバは該トークン化されたドキュメントを該クライアントに返すように構成される、請求項23に記載の装置。The device includes a tokenization server that receives the document from a client;
The apparatus of claim 23, wherein the tokenization server is configured to return the tokenized document to the client.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17496600P | 2000-01-06 | 2000-01-06 | |
| US51343800A | 2000-02-25 | 2000-02-25 | |
| PCT/US2001/000177 WO2001050327A2 (en) | 2000-01-06 | 2001-01-02 | Method and apparatus for flexibly assigning tokenization procedures |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004501412A true JP2004501412A (en) | 2004-01-15 |
Family
ID=26870731
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001550618A Withdrawn JP2004501412A (en) | 2000-01-06 | 2001-01-02 | Method and apparatus for flexibly assigning tokenization procedures |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP1386248A2 (en) |
| JP (1) | JP2004501412A (en) |
| AU (1) | AU2757901A (en) |
| WO (1) | WO2001050327A2 (en) |
-
2001
- 2001-01-02 AU AU27579/01A patent/AU2757901A/en not_active Abandoned
- 2001-01-02 WO PCT/US2001/000177 patent/WO2001050327A2/en not_active Application Discontinuation
- 2001-01-02 JP JP2001550618A patent/JP2004501412A/en not_active Withdrawn
- 2001-01-02 EP EP01901704A patent/EP1386248A2/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| EP1386248A2 (en) | 2004-02-04 |
| WO2001050327A3 (en) | 2003-11-20 |
| AU2757901A (en) | 2001-07-16 |
| WO2001050327A2 (en) | 2001-07-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8510339B1 (en) | Searching content using a dimensional database | |
| US6094649A (en) | Keyword searches of structured databases | |
| US8271486B2 (en) | System and method for searching a bookmark and tag database for relevant bookmarks | |
| US6823492B1 (en) | Method and apparatus for creating an index for a structured document based on a stylesheet | |
| JP4857075B2 (en) | Method and computer program for efficiently retrieving dates in a collection of web documents | |
| JP4365074B2 (en) | Document expansion system with user-definable personality | |
| US6928425B2 (en) | System for propagating enrichment between documents | |
| US7437363B2 (en) | Use of special directories for encoding semantic information in a file system | |
| US7769757B2 (en) | System for automatically generating queries | |
| US6604099B1 (en) | Majority schema in semi-structured data | |
| US7117432B1 (en) | Meta-document management system with transit triggered enrichment | |
| US6778979B2 (en) | System for automatically generating queries | |
| US6684204B1 (en) | Method for conducting a search on a network which includes documents having a plurality of tags | |
| US6820075B2 (en) | Document-centric system with auto-completion | |
| US7133862B2 (en) | System with user directed enrichment and import/export control | |
| US7058944B1 (en) | Event driven system and method for retrieving and displaying information | |
| US6728705B2 (en) | System and method for selecting content for displaying over the internet based upon some user input | |
| US20020010709A1 (en) | Method and system for distilling content | |
| US20120158749A1 (en) | System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database | |
| EP1225516A1 (en) | Storing data of an XML-document in a relational database | |
| US20050022114A1 (en) | Meta-document management system with personality identifiers | |
| US7783643B2 (en) | Direct navigation for information retrieval | |
| US7620622B1 (en) | Method and system for indexing information and providing results for a search including objects having predetermined attributes | |
| JP2004501412A (en) | Method and apparatus for flexibly assigning tokenization procedures | |
| US20050235197A1 (en) | Efficient storage of XML in a directory |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080304 |