JP2002544616A

JP2002544616A - フリーフォーマットデータを処理する方法と装置

Info

Publication number: JP2002544616A
Application number: JP2000618713A
Authority: JP
Inventors: ヘザリントン、グレッグ
Original assignee: Individual
Current assignee: Individual
Priority date: 1998-04-22
Filing date: 1998-04-22
Publication date: 2002-12-24
Also published as: AU774729B2; AU7014798A

Abstract

(57)【要約】フリーフォーマットデータ（３０１）を処理し、該フリーフォーマットデータと関連した「テキストオブジェクト」を生成するための方法および装置である。該テキストオブジェクトは、フリーフォーマットテキストの要素および他のデータのための属性タイプ識別子を含む、複数の「コンポーネントノード」（３０２〜３１２）を有しており、情報を得るために、および／またはフリーフォーマットデータを変えまたは加えるために、テキストオブジェクトにアクセスすることを容易にする。この構成は、該情報の各要素用の別個のデータベースフィールドを提供する必要性を無くする。そのため、人間がフリーフォーマットデータを処理するやり方と同様に、フリーフォーマットデータを処理することができる。全ての要素は、構築されたテキストデータを通じてアクセスできる。

Description

【発明の詳細な説明】

【０００１】本発明はフリーフォーマット形式のデータを一般的に処理し、記憶させ、
分析することに関連している。より詳しくは、フリーフォーマットに書き込まれ
たテキストを通訳する方法と装置等に関するものである。

【０００２】発明の背景コンピューターシステムの主な目的の１つは情報を管理することである。情報のこの管理はデータ管理システムによって内的に行われる。データ管理
システムは一般に以下に列挙する２つのカテゴリーに分類することができる。：
1) データベース管理システム及び 2) テキスト探索再生システム

【０００３】最初のタイプのデータ管理システムはデータを内部表示部に輸入して処理
し、データの位置を定めて改良することが出来るようにするものである。これら
のシステムは、要求によって、このデータから、人が読むことが出来、他のシス
テムで使用出来るのに適した表示を生成する。このカテゴリーに属するデータ
管理システムには以下が含まれている。: 階層をなし、ネットワークを形成し、
互いに関連するオブジェクト指向のデータ管理システムと知識ベース管理システ
ム。

【０００４】階層をなし、互いに関連し、ネットワークをなすデータベースの中では、
企業や団体に関する情報(取引、ストックアイテム、人、会社、アドレス等)は通
常「記録」と呼ばれている。(当該記録には時々多くの企業や団体に関する情報
が含まれる場合がある。) 各記録の中にある実在物の様々な属性は、通常フィ
ールドに分類されている。

【０００５】オブジェクト指向のデータベース管理システムや知識ベース管理システム
の中では、これらの基本ユニットに、「オブジェクト」の如き別な名称を付ける
ことができ、オブジェクトに関する情報には、「スロット」又は「メンバー」の
如き他の名称を付けることができる。属性である当該フィールド/スロットの
各々は、例えば、整数、実数、ブーレ変数、キャラクター等であってもよいフォ
ーマットのものである。その他のものは記録/オブジェクト類である。 (例え
ば日付や時間等を含む)幾つかのフィールド/スロットは独特なフォーマットを持
っているが、その他のものはこのようなフォーマットがまだ形成されていないテ
キストである。

【０００６】データベースを構築すると、それを以下のオペレーションの実行に使用す
ることができる。: ・記録/オブジェクトの追加・記録/オブジェクトの変更と配置・記録/オブジェクトの削除と再配置・情報の再生これらのオペレーションは「通常データベースオペレーション」と呼ばれ
る。

【０００７】企業や団体に関する情報をフィールド/スロットに記憶させることは、多
くのタイプのデータに適したものである。しかし、当該記憶に適した標準構造
を持っていないタイプのデータが幾つか存在する。標準構造を持っていないデ
ータの最良な例は「アドレスデータ」である。殆どのデータベースは人々のア
ドレス情報を１個か２個か３個若しくはフリーフォーマットのフィールドに記憶
するので、アドレスの個別属性に対して通常データベースオペレーションを実行
することは非常に困難である。本明細書に使用する「属性」なる用語はデータを
構成する要素のプロパティーを意味する点に注目されたい。

【０００８】例えば、フリーフォーマットで作成されたデータである"北シドニーピッ
ト通り１２"は多くの要素を持っている。各要素はそれぞれに付随する「属性
」を持っている。要素の１つの属性である"北"については、それが地理的イン
ジケーターの１種であるということである。要素の１つの属性である"１２"に
ついては、それは“数”であるということである。例えば、要素"北"はデータ
の象徴であるように、"低いレベル"はデータの象徴に匹敵する。データによっ
ては、より高いレベルの要素も含まれている。しかし、例えば、"北シドニー"
は２個の象徴を含む要素で、この要素は"タウン"であるとする属性を持っている
。例えば、「トータル要素」であるデータ全体に対する属性、"北シドニーピ
ット通り１２"はそれらがアドレスの一種であるという訳である。要素に代わ
る用語として使用される「コンポーネント」なる用語もある。

【０００９】付随する属性ごとに、自身に固有なフィールドを使って提供されるべきフ
リーフォーマットの各要素によって、データベースのサイズや複雑さはこの単純
なアドレスの例に於いてさえ大変顕著に増加する。例えば、人々に関する情
報をそれぞれのアドレスと一緒に含む場合にあって、古いデータベースの場合は
特に、複雑さを回避する目的で、アドレスデータは「アドレス」なるラベルを付
けた１つの独立したフィールドに記憶させることができる。このフィールドに
は、フリーフォーマットのアドレスが含まれているので、現在のデータベース技
術を駆使しても、アドレスの個別要素に対して、通常データベースオペレーショ
ンを実行することが不可能である。：これらの要素には、("アドレス"に全体的
に勿論アクセス出来るアドレスの生成要素の組み合わせを除き)別々にアクセス
することが出来ない。この問題はデータベースの洗濯/洗浄の科学によって或る
程度注目されている。フリー・フォーマット・テキストの属性ごとに、データ
ベースフィールドを新たに創設するオブジェクトを使って、これらを完全に標準
化されたデータに書き込むフリー・フォーマット・テキスト解析プロセスがこの
分野で行われている商業努力に適用されている。データのこの標準化には、一
切のスペル・バリエーションを矛盾のない一つのセットに変換することが含まれ
ている。 (例："Street" -> "St") 上の例によって以下が生成される。:

【００１０】

【表１】

【００１１】その後、この新しいデータベースフィールドは通常データベースオペレー
ションを実行するのに使用される。情報を取り込んでデータベースに記憶させ
た後、情報を分析処理して情報記録の属性の為のフィールドをもっと多く含む新
しいデータベースを生成させる目的で、大きく且つ複雑で高価なソフトウェアパ
ッケージをこの分野に適用して、記録に適用出来るオペレーションにフレキシビ
リティーをより多く持たせるようにすることに産業全体が専念している。

【００１２】データベースの洗濯と洗浄の分野には、多くの論文が発表されている。(
１９９６年９月に雑誌DBMSに発表された論文「汚れたデータの取り扱い」参照)
運転に多くの時間を要し、データベースを洗浄するよう開発されたソフトウェ
アパッケージは非常に複雑であるので、大きなデータベースを完全に清掃するに
は、何百万ドルものコストを要する恐れがある。：要素に対してデータベースオ
ペレーションを実行するには、要素にそれ自身のフィールドを持たせなければな
らないと言う基本的要件によってそれはまだ制限されているのが現状である。

【００１３】これによって、商用データベースの中に電算化済み情報を記憶する現在
の方法を悩ます第２の大きな問題が我々に提起される。階層構造を持つリレー
ショナルなデータベースまたはデザインに要する時間が固定されている構造を持
つフラットなデータファイルの中に、すべての商業データが実用的に記憶される
が、情報はそれ自身の性質上非常に複雑で、同じでないほとんど無限に近い数の
属性を持っている。タイプの異なる各々及び一切の情報の為に、すべての属性
用のフィールドを含むデータベースを創設することは、すべてのタイプ情報の為
のフィールドを含むデータベースを構築する一切の試みにコストがかかることが
確かであることから全体的に不可能で、実用性がなく、人が取得できる一切のタ
イプの情報用にフィールドを創る試みはコスト的に荷が重すぎる。

【００１４】 (重要であるが)非常に平凡な例でさえこの問題のスケールを物語っている
。世界中を相手とするアドレスを含む国際アドレスを検討しなければならない
。４個又は５個のフリーフォーマットフィールドに一切のアドレスを含めること
ができるが、一切の国際アドレスがすべて持つ可能性のある属性の為のデータフ
ィールドを持つデータベーステーブルをデザインするには、数千ではなく、数百
のデータフィールドを含めればよい。イングランドには地方(カウンティー)が
あり、合衆国やオーストラリアには州があり、日本には郡があり、アドレスの順
序が同じではない等々である。

【００１５】従って、データベースの洗濯/洗浄の分野はせいぜい一部の問題だけを解
決するものにしかならない。それには、データの各属性に基本データベースと
同じ構造を持たせる必要がある。人は益々複雑なデータベースを構築すること
がで出来るようになっているが、この問題を完全には解決出来ず、情報の電算処
理が顕著に制限されている。

【００１６】中性言語処理システムは、"意味論的文法"を使用して"意味論的情報に"意
味論的文法"をエンコードするものとして有名である。これらのシステムは主
に、データベース管理システムの如きその他のシステムに、中性言語インターフ
ェースを提供するのに使用される。以下の記述は、Patterson, D.W.が書いた"
Artificial Intelligence and Expert Systems"と題するブックから抽出したも
のである。： "... 彼らは、ノンターミナル意味論的成分を持つ文脈のない書き換え規
則を使用している。成分は、属性、オブジェクト、(画面又はプリントにあるよ
うな)表示の如きカテゴリーまたはメタシンボル並びにシップ、名詞句、動詞句
、名詞、動詞等を除くものである。 ... 意味論的文法は、LIFTER、米国海軍
が広めたデータベース質疑システム・・・及び回路の不良に於けるバグ除去を教
授するのに使用されているチュートリアルシステムであって、SOPHIEと呼ばれて
いるものを含む限られた利用で成功を収めたことが公に認められた。これらのシステムの中の書き換え規則には、必然的に以下のフォームが使用さ
れている。： S -> What is <OUTPUT-PROPERTY> of <CIRCUIT-PART>? OUTPUT-PROPERTY -> the <OUTPUT-PROP> OUTPUT-PROPERTY -> <OUTPUT-PROP> CIRCUIT-PART -> C23 CIRCUIT-PART -> D12 OUTPUT-PROP -> voltage OUTPUT-PROP -> current LIFERシステムには、以下を含む膨大な数のwh質疑を扱う規則がある。：「ニューヨークに最も近い場所を走る輸送機関の名称は何か?」「ケネディーに命令を下すのは誰か?」等..

【００１７】これらの文章は分析されて、レキシコン・エントリーに含まれているメタ・シ
ンボルにマッチするように書き換えられる。例えば、'Print the length of the
Enterprise'なるインプット・ステートメントは、フォ−ムのLIFER top gramma
r (LTG) 規則に適合するようになる。 <LTG> -> <PRESENT> the <ATTRIBUTE> of <SHIP>

【００１８】ここでは、printは<PRESENT>にマッチし、lengthは<ATTRIBUTE>にマッチ
し,更にEnterpriseは<SHIP>にマッチする。<ATTRIBUTE>にマッチさせることがで
きる他の典型的なレキシコン・エントリーには、CLASS, COMMANDER, FUEL, TYPE
, BEAM, LENGTH等が含まれる。

【００１９】これらのタイプに属するシステムは構造化されたフォームかフリーフォー
マットフォームの中から情報を受け取り、これを自身に固有な表現に変換する。

【００２０】インターフェースはフレキシブルであるが、これらがインターフェースさ
れるデータベースは固定された構造を持ち、これらのシステムは、最初の(人が
読める)データに変更を施すことができない。

【００２１】構造化されたデータベースの場合、「中性言語」インターフェースを提供
する実に多くの既存特許群がある。これらのシステムのすべては、中性言語か
ら構造化されたデータの幾つかのフォームに翻訳するものである。よって、上に
述べたと同じ問題により被害を被る。

【００２２】 Bourne,D.による合衆国特許第4787035号, "META-INTERPRETER" 及びBurns
,L. Malhotra A.による合衆国特許第5454106号,"Database retrieval system us
ing natural language for presenting understood components of..." を当該
システムの例として参照されたい。

【００２３】前に述べたように、データベース管理システムの１つのタイプとして、知
識ベース管理システムがある。

【００２４】これらのシステムには、属性の概念である「スロット」がオブジェクトに
使われている。当該スロットによって、オブジェクトに関する情報が記憶され
た値に直接、又は手順に従って間接的に提供されるか、変更される。簡単なス
ロットの例を使ってこの概念を説明する。: "平方"なるオブジェクトは「長さ」
と「面積」からなる２つの属性スロットを持っている。この場合、面積の値は
長さの値を掛け合わせる計算によって定めることが出来るので、面積スロットを
記憶させる必要はない。

【００２５】これらのタイプのシステムには、固定されたデータベース構造は要求され
ないが、これらには、最初のデータを非常にプロセス指向の「言語生成」プロセ
スを経由して、人が理解できる情報を生成させてなる内部データ表示に翻訳する
必要がある。これらのタイプのシステムに他のシステムや人が使用できるよう
に元のデータを維持することが求められた場合には、小さな変更をテキストスト
リング全体に施して再生成させることが必要となる。

【００２６】テキスト探索と複製のカテゴリーに属するデータ管理システムでは、デー
タは輸入されないが、最初のデータに付ける探索可能なインデックス・システム
が構築される。このカテゴリーには、以下が含まれている。

【００２７】ドキュメント記憶再生システム及びインターネット探索エンジンこれらのタイプのシステムは、最初の情報を人が読めるフォームに保つの
で非常に有用である。この基本原理は上に述べた従来のデータベースシステム
とは異なり、包含されているデータを容易にこのタイプの多くのシステムと共有
出来ることを意味する。これらの成功が得られた他の理由は、最初のデータに
変換を施すことが要求されることなく、改善された技術が実行できることである
。データ変換には極端に高いコストがかかるのみならず、これがデータ・エラ
ーの主な原因となる。

【００２８】しかし、データ管理にこのタイプのシステムを使用することによりもたら
される欠点もある。上に述べたデータベースシステムを比較してみると、ここ
には、データを操作することが出来ないと言う重要な制限がある。- ここでは、
データを改良することができない。データは、あるがままにして置かなければな
らない。実行が非常に困難な他のデータベース機能には、以下が含まれる。：・データのクロスチェックと有効化・データベースシステムによるデータの統合・テキストデータの仕分と分類

【００２９】これらの制限から、このカテゴリーに属するデータ管理システムは構造化
されていないデータであって、変更する必要のないものに対してのみ検討される
ことがわかる。

【００３０】テキスト探索再生システムの中で、ドキュメント収集を処理して、その「
主題」トピックの如き各ドキュメントに固有な属性を他と区別されることが知ら
れている。このタイプのシステムによって処理されたドキュメントのタイプに
は、書籍, 新聞, 報告, マニュアル及び電子メールメッセージが含まれている。

【００３１】しかし、これらのタイプに属するシステムの殆どは、マッチする個々のワ
ードを求めるが、文脈に含まれるワードを見ない。他の幾つかは、名詞である
ワードを他と区別するが、名詞のタイプを分類しない。両者は固有名詞が大半
を占めているアドレスの如きデータには適していない。これに加え、最初のデータを文脈の中で変更することが出来ない。

【００３２】このエリアの詳細については、Gerald Saltonが出版した作品を参照され
たい。次の記述に使用される「オブジェクト」なる用語は、テキストデータの断
片を記憶し、テキストストリングをカプセルに入れることによって、コンピュー
ターの間に転移させるのを支援するソフトウェア技法を記述するシステムで使用
された「テキストオブジェクト」なる用語と混同すべきものではない点に注目さ
れたい。「テキストオブジェクト」なる用語が使用された技法は、(オブジェク
トに主導的な２バイトの長さ値とテキストストリングが含まれている)アップル
コンピューターのオペレーティングシステムの中で使用された「ストリング・オ
ブジェクト」から(オブジェクトがマルチ・エンコーディングや言語翻訳及びフ
ォントスタイルに関する１箇の情報をカプセルに入れている)Xウィンドウによっ
て使用されたコンパウンド・ストリング・オブジェクトまでを範囲とするもので
ある。

【００３３】発明の総括現発明の第１の面から、データの要素を調べてデータの属性を決め、デー
タの内容及び文脈に関する互いの関係を調べ、データに関する意味論的及び統語
論的情報(属性)を定め、この情報に関連する追加データ並びにデータに関する意
味論的情報及び統語的情報に関連する質疑応答問を提供する質問処理手段及び/
又はデータに接近して操作することによって接近可能となる追加データをフリー
フォーマットデータの要素への接近を可能にするポインター手段を含むテキスト
フォームで生成させることから成るコンピューターシステムに記憶されたフリー
フォーマットデータを処理する方法が提供される。

【００３４】上に述べたように、現明細書に使用される「テキスト・オブジェクト」な
る用語は、テキストストリングをカプセルに入れない。現在の発明の範囲に含
まれるテキスト・オブジェクトによって、意味論的層が、実際のテキストデータ
と例えば、アクセスが要求され及び/又はテキストデータを操作してもよいアプ
リケーション・ソフトウェア・システムの間に提供される。

【００３５】その最も単純なフォームに於いては、上に定義したように、テキスト・オ
ブジェクトは、データ要素の試験から得られた意味論的情報と統語的情報並びに
(フリーフォーマットデータを形成するテキストストリングに戻す等)フリーフォ
ーマットデータに戻るようにすることが出来る(キーの如き)ポインター手段に関
連する追加データである。

【００３６】追加データによって、データ試験によって得られたデータの属性が優先的
に他と区別され得るようになる。例えば、"北シドニーピット通り12"の中では
、序文に付与された例、例えば"ストリート"は"ピット通り12"に等しく、"通り
番号" は"12"に等しく、"タウン"は "北シドニー"に等しい等を含んでデータの
様々な属性が追加データによって他と区別され、ポインター手段によってこれら
の属性に付随するデータの要素に優先的にアクセスにされ得るようになる。追
加データによって「仮想データ・フィールド」が効果的に提供される。：各属性
毎にコラムフィールドヘッドを持つ通常のデータベースの中には、これらがある
ような状態のデータ・フィールドは存在しない。それにも拘わらず、これらの
属性の為の実際のフィールドが存在したかの如く本発明を使用してなる属性ベー
スによって、フリーフォーマットデータは１個の属性の上でアクセスされ得るよ
うになる。発明の実用的行使を行うと、フリーフォーマットテキストの為の実
在データベースフィールドを創る必要がない状態で、フリーフォーマットテキス
トの上で一切の通常データベースオペレーションを行うことが出来るようにする
仮想データ・フィールドが創られるようになる。この場合、フリーフォーマット
テキストはそのまま同じ場所(普通はデータベース)に記憶させておくことが出来
る。

【００３７】例えば、国際アドレスデータを含む多くの記録を処理することを考慮する
と、これの持つ重要性が明らかとなる。上に述べたように、すべての国際アド
レスデータは４個か５個のアドレスフィールドの中でフリーフォーマットの上に
記憶させることが出来るが、例えば、イングランドには地方(county)があり合衆
国には州がある等、各々のデータの記録が他のアドレスの属性とは異なる多くの
属性を持つ場合がある。国際アドレス用のすべての属性の為に従来のデータベ
ースフィールドを実際に生成させることは殆ど不可能に近い。しかし、現発明
を適用すると、フリーフォーマットの各記録を取り出して処理し、(小さな)多く
の仮想データ・フィールドを個々の記録ごとに、テキストオブジェクトの形で生
成させることができる。各記録の為のテキストオブジェクトはそれによってそ
の記録の為のすべての通常データベースオペレーションを提供する質疑処理手段
によって、別々に質問がなされることができるようになる。データはそれ自身
定位置に置いたままでよい。各記録毎にテキストオブジェクトが創製されるの
で、各記録毎に異なった仮想データ・フィールドを使用しても問題はない。
データベース記録をそのままにして、各記録に１個の割合で多くのテキストオブ
ジェクトを新たに生成させ、全体を網羅する多くの仮想フィールドを付与する代
わりに多くのフィールドを持つ大きなデータベースを生成させる必要はない。

【００３８】試験のステップにフリーフォーマットデータをパースするステップを含め
ることが望ましい。テキストオブジェクトでは、データを操作して記録の変更、記録要素の位
置決め、記録から情報を再生すること等を含む通常データベースオペレーション
がすべて可能であることが望ましい。テキストオブジェクトによって提供され
ることができる情報はデータの要素に関する情報を含んでいることが望ましい。実用例では, 情報には(音声組織の如き)マッチング情報やパースの優先順位を
含めて、データの記録を他のデータの記録と比較出来、曖昧なフリーフォーマッ
トテキストの処理等が支援されることが出来るようにしてもよい。

【００３９】この新しい方法を実行すると、コンピューターがフリーフォーマットデー
タを人間が行うと同じ方法で操作することができるようになるものと信じられる
。データベースの為にコラム名称が決められてしまってから、従来の慣行のよ
うに、記録を分解し、データベースにある該当するフィールドに属性に基づき標
準化された値を属性のタイプ毎に置く必要はない。各データ記録の各テキス
トオブジェクトによって、コンピューターがすべての通常データベースオペレー
ションを行うに必要とされる処理と情報が提供されるようになる。例えば、国
際アドレスを含む属性のタイプに関して、比較、操作等を、多くのフィールドの
付いた複雑なデータベースを提供することなく、実行するこが出来る。

【００４０】発明の詳細テキストオブジェクトは、フリーフォーマットデータの属性と特定属性を
持つデータの要素の位置を決めるポインター手段の名称にアクセスできるように
する属性タイプ識別子を含んでいることが望ましい。

【００４１】実用例では、テキストオブジェクトは「コンポーネントノード」のフォー
ムに納めた複数の部分からなっている。複数のコンポーネントノードを階層の中
にテキストオブジェクトと一緒に含ませるとよい。例えば、複数のコンポーネ
ントノードに予め定めた階層の中に互いに付随しあう様々なコンポーネントノー
ドを持つ複数のブランチを持たせることができることが望ましい。各コンポー
ネントは以下のものから構成することができる。: ・(そのコンポーネントノードを付属させて持つ属性を分類する為
の)属性タイプ識別子・(コンポーネントノードに付属する要素の始まりを含む)テキスト
オブジェクトのテキストストリング中にあるサブストリングの始めの部分に対す
るポインター・要素サブストリング(データ)のキャラクターの長さ情報を含む整
数・(このコンポーネントノードに付属しているか、その中に駐在し
ていないので、他のコンポーネントノードがそのコンポーネントノードを経由し
て接近可能であって)アレーとして記憶されることが望ましいゼロまたは１若し
くはそれ以上の他のコンポーネントノード・（他のテキストオブジェクトとの比較を実行する時この要素の相
対的重要さを示す)マッチング重量・この属性タイプ識別子が低いレベルのマッチング要素であるか否
かを示すブーレー変数、並びに・考慮される時間/スペースによっては、プロセスにマッチさせる
のを支援する１又はそれ以上の値 (詳細が知りたい場合には、テキストストリ
ングオペレーションに関する以下の節を参照されたい。) ・(コンポーネントノードに付属し、コンポーネントノードに優先
順位を割り当てることができ、曖昧さが存在する場合、最善の解釈を決めるのに
使用されるフリーフォーマットデータの要素に概念的「優先順位」を付与する)
パース優先順位値

【００４２】その他のコンポーネントノードは物理的にコンポーネントノードの中に駐
在させなくてもよいが、各コンポーネントノードにはコンポーネントノードに従
属して、従属コンポーネントがリストを含むコンポーネントノードから発見され
ることができるようにしたポインターのリストを含めることができる。

【００４３】コンポーネントノードの中にある属性タイプ識別子によって他と区別され
るので、各コンポーネントノードは或る特定属性のフリーフォーマットデータと
関連付けることが望ましい。階層の比較的高い部位にあるコンポーネントノー
ドには、複数の他のコンポーネントノードに固定するか含めることができる。階
層のすぐ下のステップにフリーフォーマッタデータの付属要素があるので、階層
の最下位にあるこれらのコンポーネントノードを含めないか、他のコンポーネン
トノードに固定しない方がよい。

【００４４】階層はフリーフォーマットデータの解析によって決められる。アドレスの
記録の持つ１つの属性は<通り>であっても、"ピット通り12"であってもよい。
コンポーネントのサブ属性は<通り番号> "12", <通りの名称> "ピット"及び<通
りのタイプ> "通り"であることができる。 <通り>コンポーネントノードにはそ
れ故に、それぞれが<通りの番号>, <通りの名称>及び<通りのタイプ>なる識別子
を持つ３つの他のサブコンポーネントが列記される。

【００４５】各コンポーネントノードはそれ自身がテキストオブジェクトであると考え
られるものであることが望ましい。このように機能的定義を行うと、本発明に
なるテキストオブジェクトの一切の機能が各属性に適用できるようになる。

【００４６】テキストオブジェクトは特定コンポーネントノードが速やかに位置決めさ
れるのを支援するその他のデータ構造によって構成することもできる。かかる
構造を示す例はすべての属性タイプ識別子と付随コンポーネントノードに対する
１個のポインターを含む一覧表である。

【００４７】質問処理手段は(例えば、エラーである場合それを修正することを含んで)
テキストオブジェクトを使用してデータに関する質問に答え、データに接近して
これを操作できるように設定してなるソフトウェア・アプリケーション・エンジ
ンであることが望ましい。

【００４８】この方法には複数のフリーフォーマットデータの記録要素を比較すること
を可能にするインデックスを用意する更なるステップを含めることが望ましい。このインデックスは(発明者がテキストオブジェクトインデックスなる名称を
付けた)表の形態を持ち、コラム、コラムヘッドおよびデータを含み、複数のデ
ータの各々の為に追加データから生成された点を除き、従来のデータベースに非
常に近い方法で生成されたものであることが望ましい。

【００４９】テキストオブジェクトインデックスには、属性タイプ識別子の為の欄を付
けて成る表や代表的な数値キー及びユーザーが提供した記録識別子の為の欄を含
めることが望ましい。代表的な数値キーによって、例えば固有名詞(スミス)又
は共通語(通り)の為の数値識別子を含んで、コンポーネントタイプ識別子に付属
する要素の特徴を反映してなる或る値が提供されることが望ましい。テキスト
ストリングのマッチングに関する以下の節には、代表的なキー値に関するより明
細な値が含まれている。ユーザーが提供した記録識別子はどの記録が比較の対
象となり、接近されるかを区別してユーザーに示すもので、記録にアクセスする
ことを可能にする１種のポインターでもある。

【００５０】テキストインデックスが用意されてある場合、属性タイプ識別子その他の
データを含む複数のコンポーネントノードを持つテキストオブジェクトは要求さ
れなくてもよい。データに接近するよう要求し、データベースオペレーション
を実行することが出来るものは質問処理エンジンとテキストオブジェクトインデ
ックスである。テキストオブジェクトインデックスは、データの試験から直接
準備することができ、これには、(例えば、記録に対する追加データ＋ポインタ
ーを含んで)複数の記録の為のテキストオブジェクトが含まれている。よって、
テキストオブジェクトインデックスの中に追加データ＋ポインターとして付属さ
せないで、テキストオブジェクトを別なコンポーネント・ノード・ストラクチャ
ーとして配置するか、別な実体として、最初の場所には必要のないものとするこ
とができる。

【００５１】テキストオブジェクトにレベルの低いフリーフォーマットテキスト用のマ
ッチング値(又はこれらの値を創る手順)が含まれている場合、例えば、異なった
言語で書かれた要素を含む記録を比較することは不可能である。例えば、通り
の名称値を漢字で含むフリーフォーマットの記録はそれぞれのマッチング値を比
較することによって、アラビア語で書かれた通りの名称と比較することが出来る
。各記録用の通り名称が同じであるおそれがあるが、これはフリーフォーマッ
トデータに異なった言語で表現されただけのことである。よって、本発明の第
１面に提供されたマッチング情報によって、別な言語によって書かれたフリーフ
ォーマットテキストの要素の比較が可能にされる。

【００５２】マッチングの値をテキストオブジェクトの処理中に生成させてテキストオ
ブジェクトに記憶させる必要がないようにしてもよい。即ち、これらは"Fly"の
上に、質問処理エンジンによってデザインされた手順を経由して生成させること
ができる。この後の記述参照。

【００５３】本発明になる方法では、データの要素を調べてコンポーネントを特定する
ステップは、フリーフォーマットデータをドメインオブジェクトによって適用さ
れた文法規則に準拠して解析する手順によって構成することが望ましい。ドメ
インオブジェクトはキャラクター定義データや通常表現定義データ並びに文法デ
ータをインプットデータとして使用するドメイン構築プロセスによって構築する
のが望ましい。

【００５４】テキストノードツリーのコンポーネントノードの階層はドメインオブジェ
クト毎に文法規則によって定めるのが望ましい。本発明は、ドメインオブジェクトと質問処理手段を含むソフトウェアを適
用することによって実行することができる。ドメインオブジェクトは、フリー
フォーマットデータを調べ、その後、フリーフォーマットの上で一切のデータベ
ースオペレーションを実行可能にする質問処理プロセスによって使用可能にされ
るテキストオブジェクトを生成させるように配置されている。フリーフォーマ
ットデータはコンピューターシステムにある従来のデータベースで使用するよう
な古くからある方法で記憶させることができる。フリーフォーマットデータ
はテキストオブジェクトの中にストリングとして記憶させることができる。ド
メインオブジェクトと質問処理エンジンからなるソフトウェア・アプリケーショ
ンはデータを、データベースの中で行う記憶に影響を付与することなく、データ
処理に使用することができる。よって、その他のソフトウェア・アプリケーシ
ョンも、データベースに通常なものとしてデータベースとインターフェースする
ことができるものと思われる。ドメインオブジェクトと質問処理手段は、すべて
のフリーフォーマットデータの要素に接近させることによってデータベースの能
力を高揚させるのに使用することが出来ると言う事実とは別に、そのオペレーシ
ョンが関係する限り、データベースは全体的に影響を被ることのない状態に維持
される。

【００５５】本発明は以前はデータを洗浄してより多くのフィールドを持つ新しいデー
タベースを用意しないと入手不可能であったフリーフォーマットのデータにアク
セスすることを可能にすることに加え、将来データを構造化して、データを整理
する大きな可能性も持っている。例えば、本発明を使用することによって、
１つのデータベースにデータを記憶させるに要するフィールドの数を大幅に削減
することを可能とすることができる。上に揚げた名称とアドレスの国際データ
の例から、国際アドレスデータは異なった属性を多く持っているので、現在、国
際アドレスデータをデータベースの単１フィールドの中で扱うことは可能ではな
い。しかし、本発明を利用すると、国際アドレス記録をすべて含む単１のフリ
ーフォーマットフィールドに保持することができる。本発明によって処理する
と、質問処理手段を経由して他の記録と比較し、各データ記録のすべての要素情
報にアクセスして操作することを許す仮想データ・フィールドの固有な組が各個
別国際アドレス記録に提供される。すべての国際アドレスの為に単一のドメイ
ンオブジェクトを用意することは実際に可能である。いかなるフリーフォーマ
ットデータもこの方法で処理することが可能であるものと思われる。発明はア
ドレスデータに限定してなされたものではない。

【００５６】本発明の更なる面から、本発明は、コンピューターシステムに記憶されて
いる複数のフリーフォーマットデータであって、複数のフリーフォーマットデー
タ記録を含むものへの接近を可能にする方法であって、各データ記録の為のデー
タに関する意味論的情報と統語論的情報(属性)に関連する追加データ、各データ
記録に付随するテキストオブジェクトの形態の追加データ,各フリーフォーマッ
トの要素へのアクセスを可能にするポインター手段を含むテキストオブジェクト
・データに関する意味論的情報と統語論的情報に関連する質問に対して答えを提
供する質問処理手段によって、接近可能になる及び/又はデータに接近してそれ
を操作する追加データを記憶するステップからなるものを提供する。

【００５７】発明の最初の面に関連して、テキストオブジェクトには、上に述べたテキ
ストオブジェクトの一切のプロパティーを含めることが望ましい。当該オブジェ
クトは上に述べた一切の特徴を含む試験によって生成させることが望ましい。

【００５８】本発明は更に、複数のフリーフォーマットデータ記録を含んで、コンピュ
ーターシステムに記憶されたフリーフォーマットデータへの接近を可能にする方
法であって、各データ記録のデータに関する意味論的情報と統語的情報(属性)に
関連する追加データ、属性を含むテキストオブジェクトインデックスの形態を有
する追加データ：各データ記録の要素の為のタイプ識別子及び各データ記録に対
するポインター、質問処理手段によって接近可能にされ、データに関する意味論
的情報と統語的情報に関連する質問に答えを提供する質問処理手段によって接近
が可能となる及び/又はデータに接近してこれを操作するテキストオブジェクト
インデックスを記憶するステップからなるものを提供する。

【００５９】発明の最初の面に関連して、テキストオブジェクトインデックスには、上
に述べたテキストオブジェクトインデックスの一切のプロパティーを含めること
が望ましい。当該インデックスは上に述べた一切の特徴を含む試験によって生成
させることが望ましい。

【００６０】発明の更なる面から、本発明は、コンピューターシステムに記憶されたフ
リーフォーマットデータを処理する為の処理システム、データの要素とその内容
と互いの文脈的関係を調べて、データに関する意味論的情報と統語的情報(属性)
を調べる方法によってそのデータの属性を決める手段、この情報に関連する追加
データであって、フリーフォーマットデータを含むテキストオブジェクトの形態
のものを作成する手段で、フリーフォーマットデータの要素への接近を可能にす
るポイント手段を含む装置及び追加データに接近してデータに関する意味論的情
報と統語的情報に関連する質問の答えを提供する及び/又はデータに接近してそ
れを操作する質問処理手段を提供する。

【００６１】調べる手段と生成手段は、望ましくは同じ生成方法を適用することによっ
て、発明の第１の面に関連して上に述べたように、一切の特徴を持つテキストオ
ブジェクトを生成するようにアレンジされることが望ましい。

【００６２】本発明は更に、コンピューターシステムに記憶されたフリーフォーマット
データにアクセスすることを可能にする処理システムであって、複数のフリーフ
ォーマットデータ記録、システムによって記憶され、接近可能な各データ記録の
為のデータに関する意味論的情報と統語論的情報(属性)に関連する追加データ、
各フリーフォーマットデータ記録の要素にアクセスすることを可能にするポイン
ター手段を含むテキストオブジェクト及び追加データにアクセスして、データに
関する意味論的情報と統語論的情報に関連する質問の答えを提供し、及び/又は
データに接近してデータを操作するようアレンジされた質問処理手段からなる追
加データを含むものを提供する。

【００６３】本発明は、複数のフリーフォーマットデータ記録, 各データ記録の為フリ
ーフォーマットデータに関する意味論的情報と統語論的情報(属性)に関連する追
加データ, 各データ記録の要素と各記録に対するポインターの為の属性タイプ識
別子を含むテキストオブジェクトインデックスの形態の追加データおよびデータ
に関する意味論的情報と統語論的情報に関連する質問に答えを提供する追加デー
タにアクセスする及び/又はデータに接近してデータを操作するようアレンジさ
れた質問処理手段からなる処理システムを含むシステムであって、コンピュータ
ーシステムに記憶されたフリーフォーマットデータにアクセスすることを可能に
するものを更に提供する。

【００６４】本発明は又更に、フリーフォーマットデータを処理してテキストオブジェ
クトを生成させるようアレンジされたドメインオブジェクトを含む装置や本発
明の以前に述べた面に関連して上に述べたテキストオブジェクトの一切の特徴を
含むテキストオブジェクトを提供する。

【００６５】実用例では、テキストオブジェクトに接近するステップは属性の為の１個
又はそれより多い数のテキストオブジェクトを質問して、質問された属性に呼応
する要素の値を取得することから構成することができる。例えば,フリーフォ
ーマットデータが名称とアドレスデータである場合には、人はテキストオブジェ
クト又は<通り>要素があるか否かを調べるオブジェクトを質問してもよく、もし
ある場合には、その要素の値(例えば"ピット通り12")を取得してもよい。これ
は、アドレスフィールドにはフリーフォーマットの形態を持つすべての<アドレ
ス>のみが含まれている現在のデータベースを使用しても出来ないことである。他のより古いシステムは特定テキストストリングを探索するテキストの意味に
関わりなく走査する探索装置を提供する。これらのシステムはそのストリング
を探索することによって、"Pitt"なる通りの名称を持つすべてのアドレスを見つ
け出すのに使用することが出来ると思われる。これによって、ストリングを
探索する時に別な方法を使用できると言う問題が提起される。

【００６６】図面の第２図にあるアドレスのサンプルを考慮して、システムのユーザー
はこのデータの中に"ボックスロード"の上にあるすべてのアドレスに位置させた
いと欲する。ユーザーが"ボックスロード" を探索すると、システムは記録20
1に戻り、記録205と記録207が無視される。ユーザーが探索テキストを"ボック
ス"に変えると、システムは要求されたすべての記録に戻るが、誤って記録202、
記録203、記録204および記録206にも戻る。ユーザーが別な質問に"ロード"の
バリエーションのすべてを規定しても正しい結果は得られない。システムのユ
ーザーがデータにエラーが含まれることを容認したいと欲すると、例えば、"ボ
ックスロード"と規定すると記録206に戻ることを含んで、問題の解決は益々困難
になる。

【００６７】意味を考慮することなくストリングを探索すると、誤った結果が得られる
他の例は、<通りの名称>は<タウンの名称>と同じである時のものである。例え
ば、"123 シドニーアベニュー, メルボルンブイアイシー"がそれに該当する。ストリングの探索では、町の名称として"シドニー" を持つ記録だけを見つける
ことは出来ない。

【００６８】テキストオブジェクトに接近するステップには、２つのテキストオブジェ
クトの比較と２つのオブジェクトがいかに良くマッチするかを示すコンフィデン
スの値を確認して提供することも含めてよい。例えば、各々のテキストオブジ
ェクトを比較することによって、２つのアドレスを比較することができる。この
ようにすると、これらがいかに良くマッチするかによって、異なったコンフィデ
ンス値(％で表したポイント)を付与することが出来るようになる。

【００６９】接近するステップに、特定コンポーネントに付随している値を変更するス
テップを含めてもよい。共通例には、結婚後女性の苗字を変え、ミステークが
起こった時、通り又はタウンの名称を変えることが含まれている。

【００７０】政府が通りの名称や郵便コードを変えるケースも多い。 (例えば、オオー
ストラリアにあるノーザン・テレトリーの郵便コード番号の範囲が5800-5999か
ら0800-0899に変更された。)(市のフルネームがレニングラードからセントペト
ロスブルグに変えられた。)

【００７１】本発明が持つテキストの最初のものに含まれている特定要素の値を変更す
るこの能力は、例えば、テキストオブジェクトを使用することがない等、データ
を直接使用するレガシー・コンピューターのオペレーションは影響を受けないと
言う利点を持つ。

【００７２】本発明は又更に、請求番号１から１９のいずれか１つの方法、追加データ
に接近して意味論的情報および統語論的情報に関連する質問に答えるようアレン
ジしてなる質問処理手段、データに関する意味論的情報や統語論的情報及び/又
はデータに接近してこれを操作する手段に従って、フリーフォーマットデータに
接近を可能にする為の処理システムを提供する。

【００７３】装置には、テキストオブジェクト上に付与した方法ステップに準拠してア
クセスする手段を含めることができる。本発明は更に又、コンピューターシステムに記憶されたフリーフォーマッ
トデータを処理する為の処理システムであって、データの要素に接近して、デー
タの属性をその要素の内容や文脈上の相互関係を調べることによって査定し、デ
ータに関する意味論的情報と統語論的情報を査定する手段およびこの情報を利用
して意味論的情報や統語論的情報に関連する質問の答えを提供し及び/又はデー
タに接近する質問処理手段からなるものを提供する。

【００７４】この場合、調べる方法をデータの属性を要素の内容や文脈上の相互関係を
調べることによって査定し、データに関する意味論的情報や統語論的情報(属性)
を査定するドメインオブジェクトおよびこの情報を利用してデータに関する意味
論的情報や統語論的情報(属性)に関連する質問に対して答えを提供する及び/ま
たはデータに接近する質問処理手段から構成してもよい。

【００７５】調べる手段をデータに関する意味論的情報や統語論的情報に関連するデー
タである仮想データを生成させるものであって、質問処理手段によって使用され
てデータに接近して、データの属性に関する情報を取得するものから構成しても
よい。

【００７６】本発明によって更に又、コンピューターシステムに記憶されたフリーフォ
ーマットデータを処理する為の方法であって、要素の内容と要素の相互関係を調
べ、データに関する意味論的情報や統語論的情報(属性)を査定し、この情報を利
用してデータに関する意味論的情報や統語論的情報(属性)に関連する質問に対し
て答え及び/またはデータに接近することによって、質問データの属性を調べて
これを査定するステップからなるものが提供される。

【００７７】本発明の更なる面から又、コンピューターシステムに記憶された複数のフ
リーフォーマットデータを処理する為の方法であって、各記録毎に、要素の内容
と要素の文脈上の相互関係を調べて、データの意味論的情報や統語論的情報(属
性)を査定し、この情報と付属する要素に接近することを可能にする仮想データ
・フィールドを生成させることによって、データの要素を調べてデータの属性を
査定するステップからなるものを提供する。ここでは、各記録はデータに関する
意味論的情報と統語論的情報(属性)並びにこれらの各々に付随する要素に接近を
可能にする仮想データ・フィールドと一緒に提供される。

【００７８】仮想データ・フィールドなる用語は、前と同じ意味を持つものとして使用
されている。従来のデータベースとは異なり、情報を処理して実際にデータベ
ースを生成させる必要がある場合、データ・フィールドを別途生成させる必要は
ない。それがデータベースの中にある場合、付随する仮想フィールドが意味論
的情報や統語論的情報の属性に対して生成されないで、データは定位置に保持さ
れ、仮想フィールドを求めると記録に要求されるすべての情報を取得することが
できる。この場合、通常のデータベースオペレーションをすべて実行できること
が望ましい。

【００７９】本発明によって更に又、コンピューターシステムに記憶された複数のフリ
ーフォーマットデータ記録であって、要素の内容とその文脈上の相互関係を調べ
各記録に関する意味論的情報と統語論的情報(属性)を査定することによって、各
記録データの要素を調べて、データの属性を査定する手段とこの情報およびそれ
に付随する要素に接近することを可能にする各記録に付随する仮想データ・フィ
ールドを生成させる手段からなるものを処理する為の処理システムが提供される
。この場合、各記録は付随する仮想データ・フィールドであって、記録に関す
る意味論的情報と統語論的情報並びにこれらの付属要素に接近することを可能に
するものと一緒に提供される。

【００８０】実施例の説明本発明の特徴と利点を例のみを使用し、添付図面を引用する方法で行う実
施に関する以下の説明から明白にする。

【００８１】以下の説明には英語の名称とアドレスをサンプルとして使用したが、発明
にはフリーフォーマットテキストのいかなるドメインにも等しく適用することが
できる。本明細書の序文に述べたように、本発明は、電算化され情報を処理する新
しい概念と方法に全体的に関連するものである。より詳しくは、フリーフォーマ
ットデータに関するものである。上に述べた如く、そのアイデアは、フリーフ
ォーマットデータから、コンピューターに記憶させることができ、フリーフォー
マットデータやフリーフォーマットデータに関する情報を取得して操作し、フリ
ーフォーマットデータの記録を比較するのに使用することができるテキストオブ
ジェクトを生成させるものである。これは多くのフィールドを持つ複雑なデー
タベースを数多く構築することを要せず達成される。

【００８２】第１図は本発明に基づき構築された仮想データシステムの全体外形を示す
ダイアグラムである。それはユーザーインターフェース１０２とプロセッサー
１０１から成っている。プロセッサー１０２は標準コンピューターシステムで
あってもよく、それにはCPUやコンピューターメモリー及びマス記憶装置を含む
一般基本設定が施してある。ユーザーインターフェース１０１は標準キーボー
ドとVDU及び/又は他のコンピューターに対するインターフェースであってもよい
。これらのようなユーザーインターフェースは他の同等なインターフェースと
共に良く知られているものである。

【００８３】発明になる内部記憶要件を満たす目的では、コンピューターメモリーとマ
ス記憶装置の間に差別がなく、これらはメモリーと呼ばれている。プロセッサー１０２のメモリーに負荷されてあるものはこの技術に熟達し
た者が周知しているオペレーティングシステムとデータベースシステム（未表示
）やワープロまたは会計パッケージの如き複数のアプリケーション・ソフトウェ
アシステム１０３およびテキストオブジェクト１０５を生成させる為の本発明１
０４の実施例に示す如き標準ソフトウェアである。システム１０４は複数の
インプットデータを受け入れるようにアレンジされたドメイン構築プロセス１０
６(このサンプルではデータファイルの形態)とこれによってテキストオブジェク
ト１０５が造られるドメインオブジェクト１０８から成り立っている。各ドメ
インには、フリーフォーマットデータの特定ドメインに必要な文法とシンタック
ス規則が含まれている。例えば, １つのドメインは国際名称とアドレスであっ
てもよく、これにはフリーフォーマットの国際ネームとアドレスを分析してテキ
ストを生成させるに必要な一切の情報が含まれている。他のドメインは商品説
明用の知識ベースであってもよく、その他の１つは輸送産業用の知識ベースであ
ってもよい。ドメインはフリーフォーマットデータを操作して生成させるこ
とができる。ドメイン構築プロセス１０６は知識ベース(インプットファイル)
の上で、特定ドメインタイプを対象に運転されて、ドメインオブジェクト１０８
をそのタイプの為に生成させる。

【００８４】（第１図を再び参照すると）テキストオブジェクトインデックス１０９は
多くのテキストオブジェクト１０５を処理することによって生成され得る。これ
については後でのべる。第１図に示す通り、発明１０４は１枚の層を一般アプリケーション・ソフ
トウェア・システム１０３とこれらが記憶したデータ１１０の間に生成させる点
に注目すべきである。この発明によって、上で述べた知識ベース管理システム
とは異なり、フリーフォーマットデータは最初の部位にとどまることができ、レ
ガシーアプリケーション・ソフトウェアが最初のアクセス・パス１１１を使って
運転できるようになる。

【００８５】テキストオブジェクト構造第３図は本発明に基づくサンプルテキストオブジェクトの詳細構造を示す
概略ダイアグラムであって、概念の説明を支援する目的を持つものである。第３図に図解されたフリーフォーマットデータの例は通りのアドレス"北
シドニーピット通り12" (参照番号３０１)である。従来のデータベースでは、
この情報は単一のアドレスフィールドに記憶されるか、通りの番号、通りの名称
、通りのタイプおよびタウン等を含む様々な属性に呼応して別々なフィールドに
分けて記憶されていた。オーストラリアで共通に使用されているアドレス書式
の他の例については第４図を参照されたい。序文で述べたように、従来のデー
タベースの規定に基づく各属性に独立したフィールドを求める要件の故に複雑さ
が生じ、情報が複雑で或る場合、フリーフォーマットデータのすべての属性にフ
ィールドを形成するには膨大なコストがかかり、不可能でさえある。

【００８６】 (第１図に図解してある)テキストオブジェクトは複数のコンポーネントノ
ード、３０２−３１２からなっている。テキストオブジェクトは枝(例えば３
１３等)を持つテキストノードツリーによって表すことが出来る。この場合、コ
ンポーネントノード３０２−３１２は予め決めてある階層の中に位置させられて
いる。最も低い階層はテキストノードツリーの底部にあり、最も高い階層はテ
キストノードツリーの頂部にある。ノードツリーの頂部にあるノード３０２は
ルートノードと呼ばれている。テキストオブジェクトのコンポーネントは好み
の方法で処理手段のメモリーの中に記憶出来、互いの中に巣を構え、例えば、幾
つかの方法で互いに参照し合うことができること等は重視される。テキストオ
ブジェクトはテキストノードツリーによって代表されることができるが、このこ
とは、このようにメモリーの中に記憶されることを意味しない。テキストオブ
ジェクトのコンポーネントがこのようなモードで処理出来るので、コンポーネン
トは図に示してあるように、テキストノードツリーのコンポーネントノードの如
く振る舞い、その後それは十分である。

【００８７】各コンポーネントノード３０２−３１２はテキストオブジェクトそのもの
であると考えられる点に注目されたい。この帰納的定義によって本発明のすべて
の機能が各コンポーネントに適用できるようになる。各コンポーネントノード３０２−３１２の構築物には以下が含まれている
。：・テキストオブジェクトに付随するフリーフォーマットデータ３０１のタ
イプを他と区別する属性タイプ識別子（本発明では整数）例えば、コンポーネン
トノード３０１には、このコンポーネント３０３は、例えば"ピット通り12"等、
このコンポーネントノード３０３が、それが付与するフリーフォーマットデータ
が<通り>であるフリーフォーマットデータの要素に付随していることを示す属性
タイプ識別子を含んでいる。コンポーネントノード３０２は第３図に図解した
テキストオブジェクトの為のメインコンポーネントである。これには、属性タイ
プ識別子である<アドレス>が含まれている。コンポーネントノード３０２はそ
れ故にこのケースのフリーフォーマットデータ記録である例えば住所である"北
シドニーピット通り12"全体に付属している。コンポーネントノード３０２は
テキストノードツリーの中の階層に関して、コンポーネントより高いことに注目
されたい。 <アドレス> コンポーネントには、その内部に<通り> コンポーネン
トが含まれている。テキストノードツリーの中にあるコンポーネント３０２−
３１２の階層は実際にコンポーネントノードの属性タイプ識別子とその属性は低
い階層のものか高い階層のものでなければならないと定める文法規則によって決
められる。

【００８８】・コンポーネントノードに付随するフリーフォーマットデータの実
際要素の起動位置へのポインター。フリーフォーマトットデータはメモリー中
のストリング及びキャラクターストリングの始めの部分に向けたポインターのポ
イントとして記憶される。例の中では、コンポーネント３０３はアドレスの数
値である"１"をポイントする。・エレメントのキャラクター長を含む整数。例の中では、コンポ
ーネントノード３０３は、("12"と"ピット"の後にスペースキャラクターを含ん
で)１４の長さを持っており、"ストリート"の最後の文字である「ト」を有効に
ポイントする。・従属コンポーネントノードのアレー。例えば, コンポーネント
３０３の為には、ノード３０６，３０７，３０８はすべて階層に直接従属し、ノ
ード３１１，３１２は間接的に従属している。このアレーによって、コンポー
ネントノードがテキストノードツリーの構造の中で互いに関連し合うことが出来
るようになる。・この属性タイプ識別子のマッチング要素が低いレベルのものであ
るか否かを示すブーレー変数。 <ワード>や<ナンバー>の如きレギュラーな表現
に使用される用語は互いにマッチしないものである。これらの用語のマッチング
は階層に連なる次のレベル(例えば、通りの名称３０７)で実施される。以下の
いずれかに該当する場合には、ノードには低いレベルのマッチングコンポーネン
トであることを示すフラグが付けられる。: これが辞書の中に位置するリテラル
である。これには(例えばノード308やノード309等)レギュラーに使用される用語
が含まれている。(例えばノード306、ノード307およびノード305) ・要素のマッチング重量を代表する整数。これはテキストオブジ
ェクトの間で比較を実行する時、要素の各々の相対有用性を示す。例: "レベル
3, ピット通り45"を"３階, ピット通り45"と比較する場合、要素である"レベル"
と"階"が等しくないか否かは明白ではない。マッチング重量値はドメインオブ
ジェクトを構築するのに使用できるように文法規則の中に規定されている。・タイム/スペースを考慮するか否かによってマッチングプロセス
に使用すべきその他のオプションデータ。詳細を知りたい場合には、テキスト
ストリングオペレーションに関する以下の節を参照されたい。・パースの優先順位を示す整数。これについては後で述べる。

【００８９】・このコンポーネントにそれが指定するテキストの単体を削除及
び移動する責任があるか否かを示すブーレー値。コンポーネントがそのテキス
トに責任がある為の２つの条件は以下の通りである。： 1) テキストオブジェ
クトのルートノードにはテキストストリングに責任があるとするフラグが付けら
れる。外側のプロセスがテキストオブジェクトにテキストストリング全体を管理
するよう求めた場合、テキストオブジェクトルートノードにテキストストリング
に責任があることを示すフラグがつけられる時包含されるべき値が生成される。 2) 包含されるべき値が創られた時。詳細については以下を参照されたい。・フリーフォーマットが保管されているバッファー終端部に得られ
るフリースペースを代表する整数値。この値はテキストオブジェクトの創成時
に計算され、通常テキストオブジェクトのルートノードに対してのみ適用される
。

【００９０】テキストノードツリーの中では、階層の脚部はフリーフォーマットデータ
の各象徴の要素を扱うコンポーネントノードになっている。この場合、<番号> 3
11, <ワード> 312, <通りのタイプ> 308, <地理条件> 309, <ワード> 310となる
。階層の中で更に上に向かうと、一般属性タイプ識別子の為のコンポーネントノ
ードがある。例えば、これらはそれぞれ、言葉の"ピット"に対して<通りの名
称> 307、３つの象徴"ピット通り12"に対して<通り> 303、象徴"北シドニー"に
対して<市町村> 305となり、この特定フリーフォーマットデータ記録の階層のト
ップには属性タイプ識別子<アドレス> 302が位置する。

【００９１】属性タイプ識別子属性タイプ識別子はどんなタイプの書式にしても記憶させることが出来る
ことは重視するに値する。これは整数で記憶させる必要はないが、どんな表示に
でも記憶させることができる。プログラムエンジンがテキストノードツリーに
接近できるようにする。このエンジンには属性タイプ識別子を他と区別するに必
要な情報が記憶されて付いている。

【００９２】パース優先順位曖昧なフリーフォーマットデータの処理を支援するには、要素のパース順
位を示す整数を各コンポーネントノードに含める。これらの値はテキストオブ
ジェクト構築時に割り当てられ、曖昧なフリーフォーマットテキストに複数の値
が存在している場合に、最良のテキストノードツリーを選択するのに使用される
。例: "北シドニーピット通り１２"には２つの解釈が含まれている。 "北シ
ドニーピット通り12 "は有効な通路アドレスであるが、"北シドニー"より優先順
位が低いので選択されない。これらのパース優先順位はドメインオブジェクト
の構築に使用できるように、文法規則に規定されている。(以下参照)

【００９３】包含フィールド本発明の他の特徴はオリジナルテキストには実際に明示されない情報の為
の特別コンポーネントノードの創成を通して、サブフィールドが余分に生成され
てテキストフィールドに特に包含されることである。例："ミスタージョーン
スミス"には"性別"なるサブフィールドが"男性"なる値をつけて生成された後包
含される。テキストオブジェクトをこの要素を扱う属性タイプ識別子に"性別"
を持つ特別コンポーネントノードを使って創成させることができる。

【００９４】通常、これらの包含フィールドはパースプロセスで創成された後、文法に
規定されるが、これらは必要に応じて手動で追加することができる。 "Add Su
b-component"機能に関する以下の記述参照。

【００９５】インターフェーステキストオブジェクトはフリーフォーマットデータに接近することを可能
にし、フリーフォーマットデータの上で通常データベースオペレーションを実行
する仮想インターフェースの役目を演ずる。ユーザーにはテキストオブジェク
トの内部は見えないが、彼は付随するプログラムエンジン(質問処理手段)を経由
して、記憶されたテキストオブジェクトや属性タイプ識別子並びにノードに置か
れているその他のデータの構造について問い合わせ、フリーフォーマットテキス
ト記録の上で通常データベースオペレーションをすべて実行することができる。

【００９６】以下に列挙するオペレーションをすべて実行するには特定属性タイプ毎
にテキストノードツリーを探索することが必要である。この探索は帰納手順コ
ールを使用してエンジンによってなされる。この技法はコンピューター科学の
世界で非常に良く知られているものである。帰納については、Robert Kurseが
書いてPretence Hallから出版された書籍、"Data Structures and Program Desi
gn"を参照されたい。

【００９７】本発明によると、上記のプロセスを実行して、すべてのサブ属性を含むル
ックアップ表を創成させ、属性タイプ識別子によってソーティングを行わせて上
記の手順の実行をスピードアップすることができる。この技法はこの分野の技
能に精通した人々によく知られているものである。

【００９８】これらのオペレーションには以下が含まれている。: ・属性タイプの為の各値(ゼロ、１またはそれ以上)を提供するよう
テキストオブジェクトに求める"Get Sub-component" ・２つのテキストオブジェクトを比較して、いかに密に彼らがマッ
チするかを示すコンフィデンスの値を報告する"Compare Text Objects" ・特定のテキストオブジェクトに特定要素の為の特定な値が含まれ
ているか否かをテストする"Contains component"。これを利用するとピット通
りが"通り"として含まれているすべてのフリーフォーマット記録を取得すること
ができる。これはデータベースがそのアドレスフィールドの中にフリーフォー
マットデータを含む場合に、ピット通りの中でライブなデータベースの上に、ス
トリングサーチを要求することなくいかに多くの人々がいるかを見つける１つの
方法である。 (この場合、しばしばエラーが発生する。) ・テキストオブジェクトの特定要素の値を特定値に変更する"Modif
y Sub-component"。例："Pitt"を"King"に変更・各ノードに新しいサブコンポーネントを付けることによって、テ
キストオブジェクトにエキストラ・データを追加する"Add Component"。この
情報を参照して、その後のオペレーションを行う。

【００９９】サブコンポーネントの取得(Get Sub-component) テキストオブジェクトに質問をすると、１個の属性タイプ識別子が提供さ
れて、ゼロ,１またはそれ以上のサブコンポーネントノードが戻ってくる。こ
れらのサブコンポーネントノードは要求の要素のテキストを指さす。第５図は
この方法を図解したものである。テキストオブジェクトのルートノードを使う
各手順の実行を始めると、５０１で始動がなされて、このノードの属性が要求の
属性タイプと同じであるか否かに関する査定がなされる。(５０２) このような
場合, このノードのステップ５０３の結果を示すリストにポインターが付けられ
る。ステップ５０４を続けると、このノードが参照した各サブコンポーネントが
帰納的にこの手順５０５を呼び出す。その後、コーラー５０６に戻る。第６図
は"ミスターフレッドとミセスマリースミス"の為のノードツリーを図解した
ものである。属性タイプ<名前>を使ってノードを探索すると、２つのノード、
６０１と６０２に向けたポインターを含むリストに戻る。これらのノードは
サブ・ストリングである"フレッド"と "マリー"にそれぞれにポイントを付ける
。このオペレーションの他のバージョンでは、テキストストリングをパラメータ
ーと呼んでいる。同じ属性タイプを持つ同じテキストストリングを含むノード
だけが(ケースを無視して)このリストに加えられる。例: 属性タイプ<名前>及
びテキストストリング"フレッド"を使ってこの機能を呼び出すと、１つのノード
を含むリストに戻る。

【０１００】このオペレーションの更に別なバージョンでは、テキストストリングとコ
ンフィデンスレベルをパラメーターとして取り込む。同じ属性を含み、提供さ
れたレベルより上の機密性と提供ストリングがマッチするテキストストリングを
持つノードだけがこのリストに加えられる。

【０１０１】テキストオブジェクトの比較(Compare Text Objects) このオペレーションは２つのテキストオブジェクトを比較して、いかに密
にこれらがマッチしているかを示すコンフィデンスレベルを戻すものである。
それはこれを以下の通り実行する： 1.２つのテキストオブジェクトが同じ属性タイプを持っているか否
かを査定する。これらが持っていなかった場合、呼び手にゼロのコンフィデン
スレベルを戻す。 2.または２つのテキストオブジェクトのルートノードを使って(以
下に述べる)マッチノードなるサブルーチンを呼び出し、そのオペレーションの
結果を呼び手に戻す。例: 以下のテキストオブジェクトをパスすると、１００％に等しい値のコ
ンフィデンスの度合いが戻ってくる。 <アドレス> "郵便番号２０００ニューサウスウェールス州シドニー市ピ
ット通り１２/３４" <アドレス> "郵便番号２０００ニューサウスウェールス州シドニー市２
０００ピット通り３４の１２"

【０１０２】サブコンポーネントの書き込み(Contains Sub-component) このオペレーションによって、第２のテキストオブジェクトにマッチする
サブコンポーネントの為のテキストオブジェクトを探索する。見つかった場合
、それがいかにこれらがよくマッチするかを示す秘密レベルを呼び手に戻す。
このオペレーションは第２のテキストオブジェクトのタイプをパスして、(上に
述べた) "Get Component"機能を先ず呼び出すことによって達成される。うま
くいった場合、それは第２のテキストオブジェクトのルートノードを使って(上
に述べた)"Match Node"サブルーチン及び"Get Component"機能結果のノードを呼
び出す。例:２つの次のテキストオブジェクトをパスすると(ストリングのマッチ手
順の設定方法によって)約８０％のコンフィデンスレベルに戻す。 <通り> "キャサリン通り" <住所> "郵便番号２８３０ニューサウスウェールズ州ドボキャサ
リン通り１２-１４"

【０１０３】サブコンポーネントの追加(Add Sub-component) このオペレーションは、余分なコンポーネントノードをテキストオブジェ
クトの中に付けるものである。この要素の値は元のフリーフォーマットテキス
トには含まれていないが, テキストオブジェクトの上に実施された質問によって
、正しい結果が戻ってくる。例: "クリススミス博士" を含む記録にポイント
するテキストオブジェクトは改良を施して、人が女性であることを示す必要があ
る。女性の値を持つ性の属性を含む"Add Sub-component"を提唱すると、それ
ぞれのコンポーネントがテキストオブジェクトに付けられる。

【０１０４】サブコンポーネントの改良(Modify Sub-component) 第８図は改良オペレーションのメカニズムを図解して示したものである。改良を施すべきテキストオブジェクトは８０１で表される。実際のテキスト
データは取り替えられるべきサブストリングと８０６の後で８０４の前にあるサ
ブストリングからなっている。メインテキストオブジェクト８０１の中ではサ
ブツリー８０３は、取り替えられるべきサブストリング８０５を表す。取り替
えテキストストリング８０７は他のテキストオブジェクト８０２によって表され
る。

【０１０５】第７図は改良手順に適用するのフローチャートを提供するものである。
７０１を起動すると、(上に述べた)"Get Component" 機能の呼び出しが実施され
て、要求のコンポーネントノードがステップ７０２に位置するようにされる。
この機能コールの結果はテスト(ステップ７０３)されて、１つのコンポーネント
が確保され、その１つのコンポーネントだけが戻されるようになる。ゼロまた
は１より多い数のノードが戻された場合、エラー条件７０４がセットされ、手順
は呼び手７１４に戻される。または、手順は、置き換えられるべきサブストリ
ング８０５と新しい交換サブストリング８０７の間にある長さの差を計算するこ
とによってステップ７０５を使って続行される。 (ストリングが等しくない長
さを持つ等)この差がゼロでない場合、(下に述べる)"Adjust Node Variables"
サブルーチン７０７を提唱しなければならない。サブルーチン７０７が成功し
なかった場合には、エラー条件７１１を設定して、呼び手７１４に戻らなければ
ならない。ステップ７０８で手順の実行を続けながら古いストリング８０５の
場所に新しい交換ストリング８０７をコピーする。ステップ７１０で古いノー
ドサブツリー８０３を新しいサブツリー８０２と取り替える。新しいサブツリ
ー７１２の中にあるノード毎に新しいサブストリング７１３の起点を加えること
によって、ノードのテキストスタートアドレス変数を調整する。それから、こ
の手順を終焉させて呼び手７１４に戻る。

【０１０６】第９図、第１０図および第１１図は改良オペレーションの例を提供するも
のである。第９図は改良前のテキストオブジェクトを示す。第１０図は取り
替えテキストオブジェクトを、第１１図は第９図に引用したテキストオブジェク
トの改良後をそれぞれ示す。

【０１０７】上に述べた"Get Sub-component"オペレーションのエキストラ・バージョ
ンもこのオペレーションには適用される。サブルーチン以下に述べるオペレーションは上に述べた他のテキストオブジェクト手順
から提唱されたものである。

【０１０８】マッチノードこの手順は同じ属性タイプを持つ２つの要素を比較して、これらがいかに
密にマッチしているかを示すコンフィデンスレベルの値に戻すものである。第１２図はマッチノードオペレーションに適用されるフローチャートを示
すものである。１２０１を起動させると、比較の対象であるノードがステップ
１２０２に於いて、低いレベルのマッチングコンポーネントであるか否かに関し
て査定がなされる。２つのノードが低いマッチングレベルのものである場合、
(下に述べる)ストリング比較手順をステップ１２１０で実施して、呼び手１２１
０に戻らなければならない。もしも当該２つのノードにそれぞれサブコンポー
ネントが含まれている場合には、同じ属性タイプを持つすべてのサブコンポーネ
ントの対の組み合わせ(ステップ１２０４)でこの手順１２０５を提唱しなければ
ならない。各１２０６毎に、最良のコンフィデンスレベルを記録しなければな
らない。各ノードの秘密レベルに各々のマッチング重量値１２０７を掛ける。得られたすべての値を集計して、１つのコンフィデンス値１２０８にまとめる
。その値をマッチング重量の１２０９の総計で割って、呼び手１２１０に戻す
。

【０１０９】第１３図にはマッチングプロセスを示す例が含まれている。テキストオ
ブジェクトのノードツリーの中には以下に列挙した３つのタイプのコンポーネン
トノードがある。: 1) サブコンポーネントノードを含むノード; 2) ノードツリーの脚の近くにあるレベルの低いマッチングコンポーネン
トおよび 3) レベルの低いマッチングコンポーネントの中に含まれ、簡単なレギュ
ラー表現用語を表すノード。 (より詳細が知りたい場合、文法ファイルの説明を
参照されたい。) これらのノードはマッチングプロセスの中では使用されない
。

【０１１０】この例では、ノード1301, 1302, 1313 および1314にはサブコンポーネン
トノードは含まれない。ノード 1304, 1305, 1306, 1307, 1308, 1309, 1315,
1316, 1317 および 1318 はレベルの低いマッチングノードである。ノード 1
309, 1310, 1311, 1312, 1319, 1320 および1321は簡単なレギュラー表現を条件
とするものである。

【０１１１】以下の計算では括弧の中にある最初の番号がそのコンポーネントの重量値
を表す。２番目の番号はそのノードの為のノードマッチング手順から得られ
た最良の結果である。トップにある番号は第１３図の中にあるノード参照ラベ
ルである。「通り」コンポーネントの為のマッチングコンフィデンスを計算するには
、: 1304 1305 1306 1307 1308 (20*100) + (0*0) + (10*0) + (60*80) + (10*100) + 1316 1317 1318 (30*100) + (60*80) + (10*100) = 15400 (20 + 0 + 10 + 60 + 10 + 30 + 60 + 10 ) = 200 15400 / 200 = 77 %

【０１１２】「アドレス」コンポーネントの為のマッチングコンフィデンスを計算する
には、我々は「通り」コンポーネントや「タウン」コンポーネントで使用したと
同じ手順を実行しなければならない。: 1302 1303 (60*77) + (40*100) + 1314 1315 (60*77) + (40*100) = 8620 60 + 40 + 60 + 40 = 100 17240 / 200 = 86.2%

【０１１３】この値は２個のテキストが全く密にマッチしていることを示すものである
。９０％より大きい値はマッチングが大変密であることを示す。上記の手順はファジーロジック技法を適用して改良することができる。
ファジーロジック技法はこの分野に精通した人に良く知られているもので、これ
を知るに適した参考書が数多く入手できる。

【０１１４】ノード調整変数このサブルーチンは、上に述べたコンポーネント改良手順から呼び出され
る。このルーチンの目的は実際のフリーフォーマットテキストと対応するすべ
てのサブコンポーネントを調整し、ノード交換後位置決めして、交換された新し
いサブストリングとサブツリーを正確にフィットさせることである。古いサブ
ストリングと新しい交換サブストリングが同じ長さを持っているばあい、このサ
ブルーチンは提唱されない。

【０１１５】第１４図は、必要なステップのフローチャートを示すものである。１４
０１から起動すると、現在のテキストバッファーが変更を受け入れるに十分なス
ペースを持っているか否かに関する査定がステップ１４０２でなされる。これ
は(上に述べた)テキストオブジェクトのルートノードにあるフリースペース変数
を参照してなされる。十分なスペースがない場合、 "Relocate Text Data" サ
ブルーチンが提唱１４１５されて、テキストオブジェクトの中にフリースペース
が新たに生成されるようになる。このルーチンが成功しなかった場合、１４０
４、エラー条件が設定され、１４１５の手順が終焉させられて、呼び手１４１６
に戻される。その他の場合、手順は１４０５で続行され、交換された古いサブ
ツリーのサイズから新しい交換サブツリーのサイズを引くことによって、余分な
スペースに対する要件が計算される。ゼロまたは負の値はテキストオブジェ
クトが変更を受け入れるに十分なスペースを持っていることを示す。テキスト
オブジェクトにもっとスペースが必要な場合１４０６、 "Relocate Text Object
"サブルーチンが提唱されて、フリースペースがテキストオブジェクトの中に新
たに生成される。このルーチンの実行が不成功に終わった場合１４０８、エ
ラー条件が設定１４１５されて、手順の実行が終焉し、呼び手１４１６に戻る。上記のステップが成功裏に終わった場合、手順はステップ１４０９で続行され
、古いサブストリング８０５と新しい交換サブストリング８０７の間の差だけ
第８図にある"after" ストリング８０６側にシフトする。交換ノード１４１０
の後に位置するコンポーネントを参照する各ノードの為に, この差をノードの起
動変数１４１１に加えなければならない。サブコンポーネント１４１２として
交換ノードを持つ各ノードの為に、ノードの長さ変数１４１３に差を加算しなけ
ればならない。テキストオブジェクトのフリースペースから差１４１４を引く
ことによって、これを調整して呼び手１４１６に戻さなければならない。

【０１１６】テキスト移転データこのサブルーチンは、ノード調整変数によって、現在のフリーフォーマッ
トテキストを要求の改良を収容するに十分なスペースに移すよう提唱するもので
ある。このオペレーションを実行するこのルーチンの能力はどこにテキストデ
ータが記憶されたかによって決まる。通常、アドレス情報の如きフリーフォー
マットデータは長さが決められているデータベースのフィールドに記憶され、移
転させることはできない。この場合、このルーチンによって、エラー条件が設
定されて呼び手に戻される。しかし、テキストデータが非永続性オブジェクト
としてコンピューターメモリーの如き移動可能な倉庫に記憶されるかオブジェク
ト指向のデータベースを使用して記憶される場合には、この手順によって、テキ
ストデータは移転させられ、そのデータの新しい住所と一緒に呼び手に戻される
。

【０１１７】テキスト移転オブジェクトこのサブルーチンはノード調整変数によって、現在のテキストオブジェク
トを要求の改良を収容するに十分なスペースに移すよう提唱するものである。このオペレーションを実行するこのルーチンの能力はこの発明を実施する方法
によって決まる。テキストオブジェクトが非永続性オブジェクトとしてコン
ピューターメモリーの如き移動可能な倉庫に記憶されるか、オブジェクト指向の
データベースを使用して記憶される場合には、この手順によって、テキストデー
タは移転させられ、そのオブジェクトの新しい住所と一緒に呼び手に戻される。

【０１１８】オブジェクト指向のデータベースおよびオブジェクトの持続性の説明につ
いては、 Setrag Khoshafianが書いてWiley Press社が出版した書籍、「Object-
Oriented Databases」を参照されたい。

【０１１９】Get Keys このオペレーションは以下に述べるテキストオブジェクトインデックスに
よって専ら使用される。これによって、テキストオブジェクトインデックスを
アップデートし、これに質問をする重要な情報が提供される。これによって、
テキストオブジェクトノードが帰納的に探索され、レベルの低いマッチングコン
ポーネントとしてフラグを付けた一切のノードのリストが戻される。レベルの
低いマッチングコンポーネントの定義については、上記を参照されたい。この
機能のアウトプットの例について、以下のテキスト・オブジェクト・インデック
スの説明を参照されたい。

【０１２０】テキストオブジェクトの持つ利点、まとめフリーフォーマットの多くの記録は本発明によって処理されて、このケー
スのテキストオブジェクトを生成させることができるようになる。異なったテ
キストオブジェクトは異なった属性タイプの識別子を持つことができるが、各属
性のタイプ毎に独立したフィールドを持つ複雑なデータベース構造を生成させる
必要はない。フリーフォーマットテキストは基本的に、フリーフォーマットデ
ータの上で通常データベースオペレーションを行う為に要求される一切の施設を
提供する付随テキストオブジェクトと一緒に、そのまま記憶される。これによ
って、コンピューターを人が行うと殆ど同じ方法で情報を処理できるようにされ
る。

【０１２１】テキストオブジェクトの構造、概括テキストオブジェクトは既存技術分野で既知なパースの如き自然言語処理
技法やフリーフォーマットデータの試験によって生成される。当該言語処理技
法は大型で複雑なソフトウェアシステムが適用されているデータベースの清掃と
洗浄に適用されてきた。従来技術の各ケースでは、自然言語処理は、データを
分析して、新しいデータベースフィールドの創成を可能にする目的に適用されて
きた。フリーフォーマットデータをそのまま維持し、前述のテキストオブジェ
クトを創成させるアイデアは全体的に新しい概念のものである。本発明では、フ
リーフォーマットテキストの各アイテムを処理して、テキストオブジェクトを生
成させることには先ず最初に、フリーフォ−フォーマットテキストをレギュラー
表現分析装置に読み取らせ、そのテキストのアイテム(例えば、ワード, ナンバ
ー, コンマ等)をこれらに付随する属性タイプ識別子を使って、象徴の中にグル
ープ化するレキシコン分析学が関与している。各象徴は適用すべき他の属性タ
イプ識別子(例えば、通りのタイプ、状態等)の為に辞書を使ってチェックされる
。

【０１２２】その後、ションタックス分析が適用され、本発明では、フリーフォーマッ
トデータの象徴の各々のポジションも分析されて、属性タイプ識別子が提供され
るようになる。例えば、第５図の中では、例の"ピット"は辞書にはない只の言
葉である。よって多分固有名詞であると判断される。本発明では、フリーフォ
ーマットデータの他の要素に関連するそのポジションを分析することによって、
それは<通りの名称>であると暗示することができるようになる。よって、"ピ
ット通り１２"を象徴の相対ポジションから<通り>と分類することができるよう
になる。

【０１２３】ドメインオブジェクトドメインオブジェクト１０８(第１図)の主な機能はテキストオブジェクト
１０５を生成することである。この機能は下に説明する通りである。ドメイ
ンオブジェクトが実施する他の機能は、属性タイプ表を維持することに関連して
いる。この表には、そのドメインの為に定義された一切の属性タイプが含まれ
ている。

【０１２４】構造第１５図はドメインオブジェクトのアーキテクチャー１０８を明細に示し
たものである。それはシンボル表(<通りの名称>の場合、これはシンボル（属
性タイプ識別子と同等である点に注意）を含むルックアップ表１５０２と(文法
適用の為の規則を含む)パース表１５０４からなっている。それはまた、キャ
ラクター定義表１５０５、レギュラー表現分析装置１５０６および辞書１５０７
を含むレキシコン１５０３(NSW, VIC, SA)から構成されている。 (後で述べる)
改良富田パーサーでは、これらのパーツのすべてがフリーフォーマットテキスト
を処理してテキストオブジェクトを生成させるのに使用されている。

【０１２５】テキストオブジェクトの構造第１６図は第１図のテキストオブジェクト１０５を創成するドメインオブ
ジェクトと１０８のオペレーションを概括して示すものである。オペレーションでは、ドメインオブジェクト１６０５には属性タイプ１６
０８が使用されて、それぞれのパース規則の位置が決められ、それからフリーフ
ォーマットデータ１６０７がパースされて、テキストオブジェクト１６０６が生
成される。パースはフリーフォーマットデータを分析する技法として既知のもので、
熟達した人は適したパースをアレンジすることができるだろう。

【０１２６】パーサーのタイプパーサーを比決定論的パーサーからなるようにすることができる。普通
のパース技法は以下に列記するものがある。：・トップダウンバックトラックパーサー・ボトムアップトラックパーサー・トップダウンチャートパーサー・ボトムアップチャートパーサー・増強トランジションネットワークパーサー・バックトラック付きシフトレデュースパーサー・富田のグラフ・スタックシフト・レデジュースパーサー・発明の
最良な実施に富田のグラフ・スタック・シフト・レデュースパーサーを選択する
主な理由は以下の通りである: ・アルゴリズムの詳細な記述が容易に得られる。・アルゴリズムが曖昧なテキストデータを非常に良く処理する。・結果として得られるデータの構造が曖昧なテキストデータを非常
に効率的な形で表現する。パースプロセスの構造とオペレーションはTomita, M.が書きKluwerによっ
て１９８６年に発表された論文"Efficient Parsing for Natural Language"に説
明されている。この記述の総括コピーを本仕様書の付録にも掲載した。

【０１２７】富田のパーサーに施した改良富田が述べたコンポーネントノードツリーの生成に加え, 数多くの強化策
がテキストオブジェクトには要求される。これらの強化策によって、テキスト
オブジェクトが仮想データ・フィールドを提供できるようになる。本発明の為富田のグラフ・スタック・シフト・レデュースパーサーに施し
た改良は以下の通りである。：・レキコンアナライザーから戻された象徴とパース表にある規則に
パース優先順位を付与した。これらの優先順位を集計して、最適なコンポーネ
ントノードツリーを与えられたフィリーフォーマットテキストの為に取得した。これらの優先順位をすべてのインプット文法ファイル１６０３に規定した。（
第１６図）・シンタックスツリーのコンポーネントノードを見えるものと見え
ないものに分類した。 <ワード> の如きレベルの低いレギュラーな表現を見え
ないものに分類した。・すべてのコンポーネントノードにマッチ重量を割り当てた。これ
らの値を文法データに規定して２つのフリーフォーマットテキストをマッチさせ
る時、コンポーネントの各々の相対的重要性を査定するのに使用するようにした
。

【０１２８】手順第１６図は、第１図のテキストオブジェクト１０５を創成させるドメイン
オブジェクト１０８のオペレーションを概括して付与するものである。この手順を実行すると、フリーフォーマットテキストストリング１６０７
と属性タイプ識別子１６０８が取り込まれ、テキストオブジェクト１６０６が創
成される。 1.属性タイプ識別子１６０８を使用して、シンボル表１５０２(第
１５図)を調べて対応するパース表を取得する。 2.パーサーを呼び出して、富田のブックの2.4節に定義されている"
shared parse forest"を創らせる。"shared parse forest"は、或る構造の中に
ある曖昧なパースを表示するのに使用する。これはツリーに共通サブツリーが
分与されることができるようにして実行される。 3.各ノードのすべてのサブコンポーネントノードの一切のパース優
先順位を帰納的に累積させる。 4.前のステップでの値に基づき、最良のパースツリーを選択する。 5.選択したパースツリーを使ってテキストオブジェクトを新規に生
成させる。 6.パースツリーを帰納的に探索して、場所をつきとめ、それに、例
えばマッチングレベルの低いコンポーネントの如きフラグを付ける。 (定義に
ついては、上を参照されたい。) テキストオブジェクトの簡単な例については、第３図参照。

【０１２９】ドメイン・オブジェクトの構築第１６図はドメインを構築するプロセスを示したものである。ドメインを
構築するプロセス１６０４用のインプットファイルには、以下が含まれている。

【０１３０】キャラクター定義ファイル１６０１これはドメインのすべての有効キャラクターを定義して、その使用を規定
するものである。使用の範囲には典型的に以下が含まれる。：アルファベッ
ト、数字, 句読点, スペース。これは以下に述べるテキストストリングマッチ
ングを実行するに必要なすべての情報も規定する。発明を最良な状態で実施するには、このファイルには、キャラクターあた
り１つの記録を含め、各々の記録には以下を含める。：・問題のキャラクター・キャラクターのタイプ(アルファベト, 数字等) ・ケース毎のベースキャラクターおよび発音記号へのマッチング (例えば、"a", "A", "a", "A" -> "A" ) ・キャラクターの重要性を示すフラグ (例えば、母音は重要でな
いとみなす。) ・標準国際訳字の為の複数のキャラクター (サンプル表について
は、第１７図参照) このファイルによって、いかなる組み合わせ(例えば "PH" -> "F")が発音
学的表示に翻訳されるかも定義される。音声学は既知の技術で、これに熟達し
た人は適切な翻訳表をアレンジすることができる。

【０１３１】レギュラー表現の定義１６０２これによって、システムの基本的象徴の構造が定義される。例えば: ・１つの単語は２つ以上のアルファベットの文字によって構成され
ている。これらの象徴は文法に単語なる用語で表されている。・ナンバーは１つまたはそれ以上の数値キャラクターによって構成
されている。文法では、"nbr"なる用語で明示されている。レギュラー表現定義の構造は基本状態変遷表である。この技法は、コン
ピューター科学の世界で有名なものである。その実際的サンプルを第１８図に
示す。

【０１３２】文法１６０３文法ファイルたる基本的条件はその言語ドメインに創成されたテキストオ
ブジェクトの為に可能なすべてのツリー構造を定義することである。文法ファイルは"A -> B₁ B₂ B₃..."の形態を持つ数多くの文法規則から
なっている。文法規則はLHSシンボル<A>やゼロ、１または多くのRHSシンボル<B_n >からなっている。 The LHSシンボル<A>はコンポーネントタイプの名称でRHSシ
ンボル<B_n>はサブコンポーネントを定義するものである。RHSシンボル<B_n>は以
下のいずれか１つであることができる。：・他のコンポーネントタイプ名称・A 字義 (引用部に同封) ・リザーブ語リザーブ語は以下の単純なレギュラー表現用語を表す。：・"word"：１つまたはそれ以上のアルファベットのキャラクター・"nbr" - １つまたはそれ以上の数値キャラクター・"A" - １つのアルファベットキャラクター・"9" - １つの数値キャラクター更に, 各属性タイプ(例えば、LHSシンボル)には、マッチ重量調整を割り
当てることが出来る。これはデフォルトマッチ重量を変えるのに使用する。
マッチ重量はテキストオブジェクトを比較する時、マッチ・コンフィデンスの計
算に於いて、サブコンポーネントの重要さを示すのに使用する。以上に加え、各文法規則には、パース優先順位を付与することができる。これは２つまたはそれ以上の曖昧な構造が得られた時、テキストオブジェクト
の構築に於いて最良な構造を選択するのを支援するのに使用される。最も低い階層にある規則にあるすべての枝や文法で定義された属性タイプ
の名称は字義を持つか可逆語で終わるものでなければならない。簡単な例を第
１９図に示す。

【０１３３】手順第２０図と第２１図はドメインオブジェクトを構築するプロセスのフロー
チャートを提供するものである。２００１を始めると、ステップ２００２でキ
ャラクター定義データがメモリーにロードされ、それから、ステップ２００３で
レギュラー表現定義がロードされる。文法定義データを読み込むことによって
、処理が続行され、文法２００４の中にある各規則の為に、一時的規則表２１０
２の中に新しい規則を創成することによって、一時的規則表２００５が処理され
る。それがすでに存在しなくなっている場合には、規則のLHSシンボルを使用し
てシンボル表の中に新しいシンボル/コンポーネントタイプを創成させ、その後
、規則のRHSの上にある各シンボル(ステップ２１０４)の為に、それが字義語２
１０５であるなら、辞書２１０６にそれを追記し、もしそれが、"ワード"または
"ナンバー"２１７０の如き認められたレギュラー表現語である場合には、何もせ
ず２１０８、その他の場合に於いてはそれは属性/シンボルであり、ステップ２
１０９で既に存在していな時には、それはシンボル表に新しいシンボル/属性タ
イプとして加えられる。すべての文法規則の処理が終わった後、ステップ２
００６では、シンボル表に加えられた各シンボル/属性タイプが定義されて、例
えば、少なくとも１回文法規則のＬＨＳ上に現れたか否かをチェックする(ステ
ップ２００７)ことによって、処理は続行される。いずれかが未定義のシンボ
ル/属性タイプである場合にはステップ２０１１に於いて、エラー条件が設定さ
れて、手順が終焉し、呼び手２０１２に戻される。その他の場合、処理はステ
ップ２００８に於いて続行される。ステップ２００９に於いて、シンボル表に
加えられた各シンボル/属性タイプ毎に、パース表が再び創成され、この新しい
パース表に対する参照情報が対応するシンボル表の入口に記録される。要求さ
れたすべてのパース表が創成され終わった後、手順は解消されて呼び手２１０２
に戻る。

【０１３４】パース表の作成はコンピューター科学の世界では有名な技術である。パ
ース表は言語のプログラミングの為に最初開発されたものである。ＬＲパース
表構築の為のアルゴリズムはAho A.V.とUllman,J.D.が書いて１９７７年にAddis
on Wesley社によって発表された論文"Principles of Compiler Design" に見る
ことができる。富田はこれらの技術を、表への各入れ込みに１つ以上のアクシ
ョンを要することがある点で決定性を欠くパース表を作成することによって自然
言語処理に応用した。ドメインオブジェクト１６０５はメモリーに記憶するか、フリーフォーマ
ットデータの記録の上にロードして運転することができる点に注目されたい。

【０１３５】テキストオブジェクトインデックステキストオブジェクトインデックス１０９（第１図）は複数のテキストオ
ブジェクトとそれらに付随するフリーフォーマットテキストの仮想データ・フィ
ールドの上で通常データベースオペレーションを遂行する手段として利用される
。テキストオブジェクトインデックスの基本概念は、John R. Andersonが書
き１９７３年にWiley社から出版された"Human Associative Memory"と題する書
籍にある概念と同等なものである。この作品は文章の中にある名詞が指定され
たオブジェクトのデータベースが参照するのにいかに使用され、その後、これら
のオブジェクトの間にある関係リンクが元の文章に包含された関係にいかによく
マッチするかを述べたものである。これらの関係は"アクター-オブジェクト-
アクション"モデルに従う。

【０１３６】同等であるが、テキストオブジェクトインデックスは主要な２つの方法の
中に含まれているこの方法とは異なっている。 1) フリーフォーマットテキス
トの成分は分類され、インデックスの参照に使用される。 (名詞だけに限定さ
れない。) 2) オブジェクトとオブジェクトの間にはリンク関係はない。別な観点からテキストオブジェクトインデックスを見てみると、テキスト
オブジェクトインデックスは無限の寸法を持つアレーであると見なすことができ
、ここでは、各寸法が上に述べたマッチングレベルの低い属性タイプの１つであ
る。フリーフォーマットテキストストリングから創成されたテキストオブジェ
クトはテキストオブジェクトインデックスを問いただすのに使用されるマッチン
グレベルの低いコンポーネントを提供する。これによって、供給されたコンポ
ーネントの交差点に位置する他のテキストオブジェクトに対する一切の参照情報
は戻される。

【０１３７】この基本概念に基づく性能に対する改善策をプロセスにファジーロジック
技法を適用することによって提供することができる。ファジーロジック技法は
この種の技術に熟達した者たちの間で有名なもので、これに関して適当な参考書
が数多く入手できる。

【０１３８】構造本発明では、テキストオブジェクトインデックスの主要な部分は、以下の
フィールドを持つ３つの欄である。: ・属性タイプ識別子・代表的値キー・ユーザー支給記録識別子単純なこの構造にすると、テキストオブジェクトが各々のコンピューター
の上で入手可能なデータベース技術を使用して、テキストオブジェクトインデッ
クスを実行され得るようになる。

【０１３９】以下の例はこれら３つの欄をいかに使用するかを示すものである。テキ
ストオブジェクトインデックスの背景をなす基本的アイデアは一切のマッチング
フリーフォーマットテキストに同じレベルの低いマッチングレベルを持たせるこ
とである。例えば、以下の記録で、テキストオブジェクトにユーザーの参照用
に１２３を追加したと仮定すると、

【０１４０】 "ニューサウスウェールス州シドニー市ピット通り１２の３４、郵便番号２
０００" 各テキストオブジェクトのマッチングレベルの低い属性を取得した後, 以下
のエントリーをインデックスに加える。： <ユニット番号> "12" 123 <通りの番号> "34" 123 <通りの名称> "ピット" 123 <通りのタイプ> "ST" 123 <タウンの名称> "シドニー市" 123 <州> "ニューサウスウェールス" 123 <郵便番号> "2000" 123

【０１４１】例１質問が実施されて、以下のアドレスがデータベースに存在するか否かがチ
ェックされる。 "ニューウェールス州シドニー市ピット通り12/34" このインプットの為に、テキストオブジェクトを創成しレベルの低いマッ
チング属性を生成させた後、: <ユニット番号> "12" <通り番号> "34" <通りの名称> "ピット" <通りのタイプ> "通り" <タウンの名称> "シドニー市" <州> "ニューサウスウェールス"

【０１４２】上記の属性タイプ識別子と値を使って複製したすべてのインデックスエン
トリーに対して交差分析を実行すると、この節の始めに規定した記録が得られる
。

【０１４３】例２質問を行って、通りを含む一切のアドレスを見つける。: "ピット通り" このインプットの為にテキストオブジェクトを創成してインデックスキー
セットを生成させた後: <通りの名称> "ピット" <通りのタイプ> "通り" 上記の属性タイプ識別子と値を使って複製したすべてのインデックスエン
トリーに対して交差分析を再び実行すると、この節の始めに規定した記録を含む
記録の正しいサブセットが得られる。

【０１４４】上の例は概念をデモンストレートする為に過度に単純化したものである。実用システムでは、レベルの低いマッチングキーセットが一旦生成されてしま
うと、キーワードサーチに使用されるすべての技法が属性タイプの各サブセット
に適用できるようになる。キーワードサーチ技法に関する詳細情報については
、Gerald Salton が発表または出版した数多くの書籍や雑誌記事を参照されたい
。

【０１４５】本発明に適用されるキーワードサーチ技法には以下が含まれる。：・高速キャッシュに極く普通の用語を記憶させて、これを多過ぎる
エントリーを戻す条件を持つインデックス上で探索を行うことを回避すること。・共通なミススペルを許す複数の代表値キーの使用。これは大抵
、音声を付けたオリジナルな値で、２重の制約を除去してなるものである。・元の値を複数の音声表示になるようエンコードする１個またはそ
れ以上の代表値キーの使用。・元の値を国際標準音訳表示になるようエンコードする代表値キー
の使用。 (ギリシャ語および日本語カタカナ音訳表の例については、第１７図参
照) ・元の値を同義語辞書でチェックして、同義語をすべて含むセット
を代表する値を得ること。

【０１４６】インターフェース/オペレーションテキストオブジェクトインデックスによって、以下のオペレーションが提
供されうる。：テキストオブジェクトインデックスのインターフェースはＳＱＬの標準コ
マンドを反映するようデザインされている。ＳＱＬはリレーショナルデータベ
ースの標準質問言語で、コンピューター産業の中で有名なものである。

【０１４７】テキストオブジェクトの挿入前の例が示すように、このオペレーションはテキストオブジェクトインデ
ックスに要求されたすべての変更を施して、同等なフリーフォーマットテキスト
またはそこのサブコンポーネントを使用して、それぞれのテキストオブジェクト
リファレンスが位置決めされうるようにするものである。このオペレーションによって要求されるステップは: 1.各テキストオブジェクトの"Get Key" 機能を呼び出して、マッチ
ングレベルの低いそのコンポーネントの一切を取得する。 2.レベルの低い各マッチングコンポーネントの為に、テキストイン
デックスの３つの欄にエントリーを追加する。 3.現在のコンピューターシステムになされた技術的配慮の結果に基
づいて、各テキストオブジェクトを随意に記憶させる。

【０１４８】テキストオブジェクトの選択このオペレーションによって、供給フリーフォーマットテキストを含むフ
リーフォーマットテキスト(通常、システムユーザーが供給した記録識別子であ
る)に一切のリファレンスが戻される。例: "ボックスロード"を含む一切の記
録の位置を決める。このオペレーションを以下のステップを実行して進める： 1.質問インプットデータからテキストオブジェクトを建造する。 2.テキストオブジェクトの"Get Keys" 機能を提唱して、マッチングレベルの低いそのコンポーネントをすべて含む表を取得する。 3.属性タイプ識別子とコンポーネントノードの各代表値を使用して
、共通低レベルマッチングアイテムを含む一切のリファレンスを再現する。 4.前のステップから戻されたリファレンスの上で交差分析を実施し
て、質問データの重要な低レベルマッチング要素をすべて含むフリーフォーマッ
トテキストを選択する。 5.元のテキストオブジェクトを取得する。 6.各々の上でテキストオブジェクト比較を実施して、コンフィデン
スを取得する。 7.コンフィデンスに従ってソーテングを行う。 8.結果を呼び手に戻す。

【０１４９】テキストオブジェクトの削除このオペレーションはユーザーが供給したリファレンスキーを取り込んで
、このキーを使って一切の記録を削除するものである。

【０１５０】テキストオブジェクトのアップデートこのオペレーションは先ず以前のエントリーをすべて削除し、それから上
に述べた挿入オペレーションによって新しいエントリーを再挿入することによっ
て、改良されたテキストオブジェクトをアップデートするものである。

【０１５１】テキストストリングオペレーション２つテキストストリングを比較して、マッチングコンフィデンスを得るの
に使用される技法はコンピューター産業の中で有名なものでる。どんなテキス
トストリングマッチングが通常関与するかをこの節で速やかに概括する。典型的なマッチング手順で、以下のステップを実行することができる。: 1.ケースが低いか高いかに関わりなく、正確なチャラクターマッチ
をチェックする。 2.発音と２重制約を除去することによって、普通のスペルミスをチ
ェックし、それからその結果を比較する。 3.キャラクターの削除、挿入並びに転移を許す比較機能を実施する
ことによって、スペルミスをチェックする。 4.標準国際訳字との同等性をチェックする。訳字表のサンプルに
関して、第１７図参照。 5.ストリングを標準発音表示に翻訳した後、発音上の同等性をチェ
ックする。

【０１５２】本発明では、レベルの低いマッチングコンポーネントノードの上でテキス
トストリングマッチングを実施する。上の手順のステップ１,２,４および５で
使用する値はストリング比較を行う度かテキストオブジェクトが創成されて、各
々のコンポーネントノードに記憶された時に発生させることができる。これら
の値は上に述べたテキストインデックスの中で、代表値キーとしても使用するこ
とができる。

【０１５３】上の手順のステップ４と５を実行すると、発明が例えば日本語漢字を含ん
で外国語で書かれたフリーフォーマットデータを比較することができるようにな
る。発音値は漢字シンボル用に記憶させることができる。これを漢字と漢字以
外の他のフリーフォーマットデータの要素と比較するのに使用することができる
。言い換えると、この特徴は外国語で書かれたフリーフォーマットデータを処
理可能にする。第１７図と前の説明参照。

【０１５４】発明の応用例第２２図は本発明が運転中のSQLリレーショナルデータベースの中で、ど
のように実行され得るかを示す例を付与するものである。ＳＱＬステートメン
トの説明は以下の通りである。： 1.合衆国アドレスと呼ばれるドメインを創成する。 2.それを(キャラクター定義、上に述べたレギュラー表現定義およ
び文法定義からなる)言語定義を使って初期化する。 3.アドレスとよばれるテキストオブジェクトクラスを創成する。 4.USアドレスに対するそのドメインとアドレスに対するそのタイプ
を設定する。(タイプの名称は文法の中に定義しなければならない。) 5."ホームアドレス"と呼ばれる"アドレス"テキストオブジェクトで
ある要素の１つを持つ"パーソン"と呼ばれるデータベース表を創成する。 6.記録を表の中に挿入する。 7.特定アドレスを持つ一切の記録を"パーソン"表の中から選択する
。 8."カリフォルニア"にマッチする値を持つサブコンポーネントであ
る"State"を含む"ホームアドレス"欄にデータを持つ"パーソン"表の中にあるす
べての記録を選択する。 9.コンフィデンスレベルが８０％より高い"キャシー通り"にマッチ
するサブコンポーネント"通り"を含む"ホームアドレス"欄の中にデータを持つ"
パーソン"表の中にあるすべての記録を選択する。

【０１５５】結末備考フリーフォーマットデータ記録はドメイン構築プロセスと適当に設計され
たインプットファイルを使って本発明を適用して、適したドメインを構築するこ
とによって分析することができる。すべてのデータはすべてのフリーフォーマ
ットで作成されたすべての記述の為にテキストオブジェクトを生成するこの方法
で、コンピューターによって分析させることができる。本発明によってフリーフォーマットデータを処理する為の処理ステップが
数多くあることは重視すべきである。これらのステップの各々はシステムを初
期化し、その結果を記憶させてから実行することができ、これらは、それが必要
とされる時にだけ実行できる点にも注目しなければならない。 (実行しようとす
る度毎に質問がなされる。) これらのステップを総括すると以下の通りとなる
。：・ドメインオブジェクトの構築・テキストオブジェクトノードツリーの構築・テキストオブジェクトエクストラ包含サブフィールドの構築これに加え、複数のテキストオブジェクトからテキストオブジェクトイン
デックスを生成させるその他の関連ステップがある。

【０１５６】範囲を広げて述べた発明の範囲に含まれる精神を逸脱することなく、個々
の実施例に示す通り、発明にはバリエーションが数多くあり、発明に対して膨大
な改良を施すことができる点をこの技術に熟達した人々は注目すべきである。
従って、本発明はすべての面で図示するようなもので、これらに限定すべきもの
でないと考えるべきものである。

【０１５７】付録本付録は発明の最良な実施に使用されるパースアルゴリズムについて述べたもの
である。 "quotes"の中のすべての記述はTomita, M.が著述し、１９８６年にKlu
wer社が出版した書籍であって、Efficient Parsing for Natural Languageなる
表題を有するものから引用したものである。

【０１５８】データ構造一般用語シンボル複数の特定象徴ストリングを表すもの。シンボルには以
下のデータアイテムが含まれている。：整数を表すシンボル識別子(シンボルID)
、このシンボルが見えるか否かを示すブーレー変数; このシンボルが低いマッ
チイングコンポーネントであるか否かを示すブーレー変数、マッチ重量を代表す
る整数、呼応するパース表がどれであるかを規定する整数。この情報はすべて文
法定義データの中に規定されている。

【０１５９】規則シンボルのグループがレベルの高い１つのシンボルに縮小
する方法を規定する文法規則を表す。規則には、以下のデータアイテムが含ま
れている。：規則識別子を表す整数 (規則id); LHSシンボルに対するポインター
：規則のRHSを代表するナンバーを含むベクター：１セットの包含サブフィー
ルド：規則のパース優先順位を規定する整数。この情報はすべて文法定義データ
の中に規定されている。

【０１６０】ノードインプットテキストストリングの１つのコンポーネントを
表す。ルートノードは、インプットストリング全体を表す。ノードは以下の
データアイテムからなっている。：コンポーネントの始めに対するポインター;
コンポーネントの終わりに対するポインター; シンボルID（コンポーネントタイ
プ）を示す整数 ; サブノードのアレー; マッチングに使用するオプションテキ
ストストリング; パース優先順位を示す整数; コンポーネントがユーザーに見え
るか否かを示すブーレー変数; このシンボルがレベルの低いマッチコンポーネン
トであるか否かを示すブーレー変数；マッチ重量を代表する整数。

【０１６１】サブノードこれはインプットテキストストリングを解釈する曖昧な方
法を示すのに使用される。曖昧なテキストストリングの場合、各コンポーネン
トにはそのサブノードアレーの中に１つだけのサブノードしかない。各サブノ
ードにはノードのアレーが含まれている。

【０１６２】象徴変数各象徴の１つの解釈に関連する１組のデータセットを規定
するもの。象徴変数には、以下のデータアイテムが含まれている。：象徴の為の
シンボル識別子を代表する整数; 象徴のパース優先順位を規定する整数; マッチ
ングに使用スルテキストストリング; １組の包含サブフィールド。この情報は
すべて文法定義データの中に規定されている。

【０１６３】包含サブフィールドテキストノードを余分に生成するに必要な情報を
規定するもの。これには以下のデータアイテムが含まれている。：サブフィー
ルドのシンボル識別子を代表する整数; サブフィールドの値を代表する整数。
例: TITLE "Mr" なるタイトルは SEX = "Male"なる包含サブフィールドをもって
いる。この情報はすべて文法定義データの中に規定されている。

【０１６４】グローバル変数パース表パース表を作成するのに、我々は標準LRパース表を利用す
るパースアルゴリズムを使用する。当該ＬＲパース表は既存の方法で取得する
ことができる。 ...我々のパーサーに要求される唯一の改良は、表の各エントリ
ーは単一のアクションではなく、１組のアクションでなければならない。矛盾
が生じた場合、即ち複数のアクションが表の１つのエントリーの中に記憶されな
ければならない時,表の従来の構築者は、停止させるか、エラーを繰り返すか、
若しくは、たった１つの随意に選択されたアクションを記憶して警告を付与する
。我々の表構築者はこれらのすべてを１組のアクションとして記憶する。ア
ルゴリズムは、Aho, A.V.と Ullman, J.D. が書き、１９７７年にAddison Wesle
y社が出版したPrinciples of Compiler Designと題する書籍に掲載されている。
このアルゴリズムは見えることを示すフラグがつけられたすべての文法シンボ
ルの為のパース表を創成させる目的で適用される。注: 見えるシンボルは以下の
２つの方法で使用される。： 1) フィリーフォーマットテキストストリングを表
す。 2) 質問オペレーションに対するインプットパラメーターであるフリーフ
ォーマットテキストストリングを表す。

【０１６５】グラフスタック "...これは指示されたアクリグラフで、状態番号０と書
かれたラベルの付いた僅か１枚のvertex 'v₀'を持っている。特別バーテック
ス 'v₀'はグラフスタックの底と呼ばれている。 'v₀' からの距離が正数(２ｎ
、但しｎは正の整数)であるすべてのバーテックスは状態バーテックスと呼ばれ
、これには、状態ナンバーの付いたラベルが貼られる。 'v₀' からの距離が奇数
であるすべてのバーテックスはシンボルバーテックスと呼ばれる、文法シンボ
ルの付いたラベルが貼られる。 ... また、状態バーテックスは通常、変数''v'
, 'w' および 'u'によって代表されるが、シンボルバーテックスは変数 'x', 'y
' および 'z'によって代表される。

【０１６６】ベルテックス表 'U[i]' これは、[i] をパースする時創成されるグラフス
タック(インプットストリングの中のI番目の象徴)の中にある１組のベルテック
スである。U[i]は象徴を最も新しいものシフトさせる。すると、U[i] は１組の
トップベルテックスとなる。

【０１６７】アクテブリスト 'A' 処理されるべきU[i] の中にある１組のアクテブ
ベルテックス。 ... 標準LRパースでは、その要素のナンバー常に１より大きく
ない。

【０１６８】レデュース表 'R' １組の縮小すべきトップエッジ。各要素は、3-tu
ple <v,x,p>、但し 'v' ∈ U[i] (縮小すべきパスの起点ベルテックス) x ∈ SU
CCESSORS 但し(v)は直接 'v'にリンク) 並びに 'p'は生産(文法規則). 縮小表
'R'の中に <v,x,p> を存在させるとことは、適用すべき''reduce p' と一緒に
、'reduce p' を edge <v,x>."で起動するすべてのパスに適用することを意味す
る。

【０１６９】シフト表 'Q' １組のシフトするべきベルテックス。標準LRパースでは
、その要素のナンバー常に１より大きくない。各要素は 2-tuple <v,s> 但し '
v' ∈ U[i]シフトすべきベルテックス) 。s は状態ナンバー。 The existence o
f <v,s> in 'Q'の中に of <v,s> が存在することは、 'shift s'を'v'の上に適
用すべきあることを意味する。シフトエントリーに施す改良は、象徴変数の組
を追加することである。その中身については、以下を参照。

【０１７０】象徴変数表 'T' これは多数のシンボル識別子を１つの象徴に割り当てる
ことができる富田のパーサーに対する改良である。この表の中にある各エントリ
ーには、シンボルid、パース優先順位、マッチングストリングおよびサブフィ
ールド定義のすべての番号が含まれている。

【０１７１】機能テキストオブジェクトの創成 (パーサー) ・シンボルをインプットするには、各パース表を取得する。・グラフスタックの中に初期ベルテックスを創成させる。・象徴ポジション"i"を１に設定する。・象徴がなくなるまで繰り返す・次の象徴とその変形を示す表を取得する。・象徴を解剖する。・象徴をシフトさせる。・象徴ポジション"i"を増やす。・"インプットの終わりの部分"を解剖する。・(ストリングが受け入れられ)ルートノードのセットが完了した場合・エラーメッセージが戻ってくる。・各コンポーネントノードのパース優先順位を分析して、最も近いと思われるパースツリーを取得する。・ノードツリーとインプットテキストストリングを使って新たにテキストオブジェクトを創成する。・新しいテキストオブジェクトを戻す。

【０１７２】次の象徴とその変形表の取得・現在のパースポジションに於いて、レギュラー表現アナライザーをストリングに適用して、１つの象徴を取得する。・得られた象徴をルックアップ辞書に使用する。・各マッチング辞書エントリーの為、・１つのエントリーを象徴変数表"T"に加える。・レギュラー表現変数を象徴変数表"T"に加える。・この象徴の最後にある１つのキャラクターになるように現在のパースポジションをアップデートする。

【０１７３】象徴の解剖(パース) ・アクテブ表 "A" <= Vertex List "U[i]" ・レデュース表"R"とシフト表"Q"を再セットする。・アクテブ表"A"とレデュース表"R"が空になるまで繰り返す。・アクテブ表"A"が空でない場合・アクター・そうでない場合・レデュース表"R"が空でない場合・レデューサー

【０１７４】アクター・アクテブ表"A"からベルテックス"v"を除去する。・ベルテックス"v"から現在の状態を得る。・象徴変数表の中にある各エントリーの為に・変数表の中にある現エントリーからシンボルのIDを取得する。・現在の状態とシンボルIDを使ってパース表を調べる。・パース表が空である場合には、象徴変数表の中にある次のエントリーを使って操作を続ける。・パース表のエントリーから"accept state"なる表示が得られる場合、・現在のベルテックスのノードをシンタックスツリーのルートノードになるよう設定する。・パース表のエントリーの中にある各シフトエントリーの為に・シフト表"Q"に１つのエントリーを加える。・パース表エントリーの中にある各レデュースエントリーの為に・レデュース表"R"に１箇のエントリーを加える。

【０１７５】レデューサー・レデュース表"R"から１個のレデュースエントリーを除去する。・レデュースエントリーから現在のレダクション規則"p"を取得する。・レデュースエントリーから現在のシンボルベルテックス"x"を取得する。・"p"の右側(RHS)の長さを取得する。・グラフスタックを探索して、以下の長さを有する現在のシンボルベルテックス"x"への通路を持つすべてのシンボルベルテックス"y"を見つける。: 2 * (RHS規則"p"の長さ) - 2 ・見つかった各シンボルベルテックス"y"の為に・ノードを創成させる。・シンボルベルテックス"y"にリンクされた各状態ベルテックス "w"の為に・表をアップデートする。

【０１７６】ノードの創成・ノード"q"を新たに創成させる。・シンボルベルテックス"y"に向かう通路の中に、各シンボルボルテックスから、ノードを含むサブノード"r"を創成させる。・規則"p"の右手長さが１である場合・シングルノードを創成させる。・その他の場合・マルチノードを創成させる。・規則"p"の左手シンボルからシンボル属性を付与する。・サブフィールドを創成する。

【０１７７】シングルノードの創成・サブノード"r"の中に、シングルノードからテキストポインターをコピーする。・アタラシイノード"q"にサブノードを加える。

【０１７８】マルチノードの創成・サブノード"r"の中にある最初のノードからテキストスタードポインターを取得する。・サブノード"r"の中の最後のノードからフィニシポインターを取得する。・新しいノード"q"にサブノード"r"を加える。

【０１７９】サブフィールドの創成・象徴変数の中にある各包含サブフィールドの為に・新しいノードを創成する。・包含サブフィールドからシンポルに属性を割り当てる。・包含サブフィールドのテキストストリングからテキストストリングを創成する。・このテキストストリングの始めに新しいスタートポインターをセットする。・このテキストストリングの終わりに新しいノードのフィニシポインターをセットする。

【０１８０】表のアップデート・状態ボルテックス"w"から前の状態を取得する。・現在の生産規則"p"の左手シンボルを取得する。・このシンボルからシンボルID"N"を取得する。・前の状態とシンボルID"N"を使用してパース表を調べる。・パース表エントリーから新しい状態"s"を取得する。・同じパージ状態"s"を持つ状態ボルテックスの為にボルテックス表[i ] を探索する。・見つかった場合・この状態ボルテックス"u"から現在の状態ボルテックス"w"に向かう通路（ダイレクトパス）の長さ２が既に存在する場合・これらの状態ボルテックスの間にシンボルボルテックス "z"を取得する。・このシンボルボルテックスノード"z"に現在のサブノードを加える。・または、・新しいシンボルボルテックスを使って縮小させる。・見つからなかった場合・新しいすべてのものを使って縮小させる。

【０１８１】新しいシンボルボルテックスを使用して行う縮小・新しいシンボルボルテックス"z"を創成させる。・このシンボルボルテックス"z"に現在のノードを割り当てる。・新しいシンボルボルテックス"z"を状態ボルテックス"w"にリンクさせる。・新しいシンボルボルテックス"z"を同じパース状態"u"を使って見つかった状態ボルテックスにリンクさせる。・この状態ボルテックス"u"がアクテブ表"A"の中にない場合・状態ボルテックス"u"から新しいパース状態を取得する。・レデュースエントリーからシンボルIDを取得する。・新しいパース状態とシンボルIDを使用してパース表を調べる。・パース表が空である場合・パース表の中にある各レデュースエントリーの為に・レデュース表"R"に１つのエントリーを加える。

【０１８２】新しいすべてを使った縮小・状態ボルテックス"u"を新たに創成させる。・状態ボルテックス"u"のパース状態を状態"s"に設定する。・シンボルボルテックス"x"を新たに創成させる。・新しいシンボルボルテックス"z"に現在のノードを割り当てる。・状態ボルテックス"w"を新しいシンボルボルテックス"x"にリンクさせる。・新しいシンボルボルテックス"x"を新しいシンボルボルテックス"u" にリンクさせる。" ・状態ボルテックス"u"をアクテブ表"A"に加える。・状態ボルテックス"u"をボルテックス表"U[i]"に加える。

【０１８３】象徴のシフト・ボルテックス表"U[i+1]"を初期化する。・シンボルidによってシフト表"Q"をソートした後、状態ボルテックス "v"によって更にソートし、その後、状態ボルテックス"v"によってソートする。・シフト表の中の同じシンボルidを持つすべてのエントリーの為に・象徴と象徴変数表から、新しいノードを創成させる。・辞書エントリーの中にある各包含サブフィールドの為に・上の新しいノードにサブフィールドを新たに加える。・シンボルidのサブセットの中にあるユニークな各パース状態"s "の為に・状態ボルテックス"w"を新たに創成させる。・パース状態"s"に状態ボルテックス"w"のパース状態を設定する。・シンボルボルテックス"x"を新たに創成させる。・新しいシンボルボルテックス"x"に新しいノードを割り当てる。・新しいシンボルボルテックス"x"を新しいボルテックス "w"にリンクさせる。・ボルテックス表"U[i+1]"に状態ボルテックス"w"を加える。・パース状態のサブセットの中にある各シフトエントリーの為に・シフトエントリーから状態ボルテックス"v"を取得する。・新しいシンボルボルテックス"x"を状態ボルテックス"v"に加える。

【０１８４】"end of input"のパース・１つの象徴変数を使って１個の象徴を創成させる。・"End of input"シンボルにシンボルidを設定する。・象徴をパースする。

【図面の簡単な説明】

【図１】第１図は本発明の実施に従ってフリーフォーマットデータを処理すること
を可能にするシステムの構造を説明するダイアグラムである。

【図２】第２図はサンプルの"アドレス"を説明したものである。

【図３】第３図はフリーフォーマットの上で本発明になるオペレーションを実行し
たことによって生成されたサンプルテキストオブジェクトに関して構造をより詳
細に示したものである。

【図４】第４図はサンプル"アドレス"フォーマットを説明したものである。

【図５】第５図は特定タイプのサブコンポーネントを発明になるテキストオブジェ
クトから取得する方法を説明したものである。;

【図６】第６図はサブコンポーネント取得法の実行結果を説明したものである。

【図７】第７図は発明になるテキストオブジェクトのサブコンポーネントを改良す
る方法を説明したものである。

【図８】第８図は発明になるテキストオブジェクが改良されるメカニズムを説明し
たものである。

【図９】第９図,第１０図および第１１図は発明になるテキストオブジェクトの改
良例を提供するものであり、第９図は改良前のテキストオブジェクトを示す。

【図１０】第１０図はテキストオブジェクトの取り替えを示す。

【図１１】第１１図は第９図に引用されたテキストオブジェクトの改良後を示す。

【図１２】第１２図は他の方法で使用されるノードマッチングサブルーチンを説明し
たフローチャートである。

【図１３】第１３図は本発明に基づくテキストオブジェクトのサンプルであって、本
発明になるテキストオブジェクトを比較する方法を説明する目的のものを示す。

【図１４】第１４図は他の方法で使用される"adjust node"サブルーチンを説明する
フローチャートである。

【図１５】第１５図は第１図のドメインオブジェクトブロックの構造を説明するダイ
アグラムである。

【図１６】第１６図は第１図のドメイン構築プロセスをより詳細に図解して示したも
のである。

【図１７】第１７図は１つを日本語のカタカナ、他をギリシャ文字とする２つの標準
字訳表を示したものである。

【図１８】第１８図にはレギュラー表現定義データを説明する表が含まれている。

【図１９】第１９図は文法データ・デモンストレーション・ファイルを説明したもの
である。

【図２０】第２０図と第２１図は第１図のドメインオブジェクト構築プロセス・ブロ
ックのフローチャートを提供するものである。

【図２１】第２０図と第２１図は第１図のドメインオブジェクト構築プロセス・ブロ
ックのフローチャートを提供するものである。

【図２２】第２２図はＳＱＬリレーショナルデータベースシステムの中に発明の実施
に付けたサンプルセッションを説明したものである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＧＷ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ

Claims

【特許請求の範囲】

【請求項１】要素の内容と要素の互いの関係を調べることによって、フリー
フォーマットデータの要素にアクセスすることを可能にするポインター手段およ
びテキストオブジェクトおよびデータに関する意味論的情報および統語論的情報
に関連する質問に対する答えを提供する質問処理手段によってアクセス可能な追
加データを含むテキストオブジェクトのフォームで、データの要素を調べてその
データの属性を査定し、データに関する意味論的情報と統語論的情報（属性）を
査定し、および/またはデータにアクセスしてそのデータを操作するステップか
らなるコンピューターシステムに記憶されたフリーフォーマットデータを処理す
る方法。
【請求項２】クレーム１に基づく方法であって、フリーフォーマットデータ
がデータベースのフリーフォーマットの中に記録として記憶されるもの。
【請求項３】クレーム１またはクレーム２に基づく方法であって、データは
コンピュータシステムに始めて記憶されたように記憶され、他のアプリケーショ
ンによってこれにアクセスすることができるもの。
【請求項４】前になされたクレームに基づく方法であって、テキストオブジ
ェクトは１つの属性を含み、当該属性がデータの要素の属性タイプを他と区別す
るタイプ識別子であるもの。
【請求項５】前になされたクレームに基づく方法であって、テキストオブジ
ェクトがデータの要素のキャラクターの長さを示す値を含むもの。
【請求項６】クレーム４またはクレーム５に基づく方法であって、要素が意
味論的階層の中で低いレベルのものであるかより高いレベルのもであるかを示す
値を含み、当該方法によって処理された他のデータにマッチさせる時、当該要素
がマッチングの目的に使用できるものであるもの。
【請求項７】前になされたクレームに基づく方法であって、データの要素の
為のマッチ重量値を含むテキストオブジェクトが他のフリーフォーマットデータ
とマッチさせる時、その要素の重要性を査定するのに使用することができるもの
であるもの。
【請求項８】前になされたクレームに基づく方法であって、テキストオブジ
ェクトがフリーフォーマットデータの意味論的構造に準拠して配置された複数の
コンポーネントノード, フリーフォーマットデータの意味論的構造に呼応して階
層の中に配置されるコンポーネントノードおよびフリーフォーマットデータの呼
応する要素に関連する追加データを含む各コンポーネントノードからなるもの。
【請求項９】前になされたクレームに基づく方法であって、フリーフォーマ
ットデータの要素を現在の方法に準拠して処理された他のフリーフォーマットデ
ータの要素と比較する為のマッチング値を生成する更なるステップからなるもの
。
【請求項１０】クレーム９に基づく方法であって、マッチング値がフリーフ
ォーマットデータの要素を発音学的に比較する為の発音学的値であるもの。
【請求項１１】前になされたクレームに基づく方法であって、テキストオブ
ジェクトがフリーフォーマットデータから暗示された情報に関連する包含データ
を含むものであるもの。
【請求項１２】前になされたクレームに基づく方法であって,複数のフリー
フォーマットデータ記録が処理され、各フリーフォーマットデータ記録に付随す
るテキストオブジェクトが生成されるもの。
【請求項１３】クレーム１２に基づく方法であって、テキストオブジェクト
がコンピューターに記憶され、これが質問処理手段を経由して付随するフリーフ
ォーマットデータ記録の上にある質問に対して得られるもの。
【請求項１４】クレーム１２に基づく方法であって、各データ記録の要素の
為の属性タイプ識別子と各データ記録に対するポインターを含むテキストオブジ
ェクトインデックスを生成する更なるステップからなるもので、インデックスが
データに関する意味論的情報と統語論的情報に関連する質問によって質問されて
も、インデックスを経由してアクセスされてもよいものであるもの。
【請求項１５】クレーム１４に基づく方法であって、テキストオブジェクト
インデックスの中にある各エントリーが代表的な値のキーを含み、当該エントリ
ーが属性-識別子に付随する要素の特徴を代表する値を付与するものであるもの
。
【請求項１６】前になされたクレームに基づく方法であって, ドメイン定義
データファイルから、文法規則に準拠してフリーフォーマットデータを解剖する
ことによって試験プロセスを実行するようアレンジされたドメインオブジェクト
を構築するドメイン構築プロセスを実行する更なるステップからなるもの。
【請求項１７】クレーム１６に基づく方法であって、ドメイン定義データフ
ァイルがキャラクターで意義データ、レギュラー表現定義データおよび文法デー
タを含むものであるもの。
【請求項１８】前になされたクレームに基づく方法であって, フリーフォー
マットデータが郵便アドレスデータであるもの。
【請求項１９】前になされたクレームに基づく方法であって, 質問処理手段
が追加データを経由してデータの上で通常データベースオペレーションを行うこ
とができるものであるもの。
【請求項２０】コンピューターシステム、要素の内容と要素の文脈上の相互
関係を調べてデータに関する意味論的情報および統語論的情報（属性）を査定す
ることによってデータの要素を調べる為の手段を含む装置、この情報と関連する
追加データをフリーフォーマットデータの要素にアクセスを可能にするポインタ
ー手段を含むテキストオブジェクトのフォームで生成する為の手段および追加デ
ータにアクセスしてデータに関する意味論的情報および統語的情報に関連する質
問に対する答えを提供するおよび/またはデータにアクセスしてデータを操作す
るようアレンジされた質問処理手段に記憶されたフリーフォーマットデータを処
理する処理システム。
【請求項２１】クレーム２０に基づく処理システムであって、フリーフォー
マットデータが、データベースのフリーフォーマットフィールドに記録として記
憶されるもの。
【請求項２２】クレーム２０またはクレーム２１に基づく処理システムであ
って、データの記憶が調べる手段によって影響を被らないもの。
【請求項２３】２０から２２までのクレームのいずれか１つに基づく処理シ
ステムであって、テキストオブジェクトがデータの要素の属性タイプを他と区別
するタイプ識別子である１つの属性を含むもの。
【請求項２４】２０から２３までのクレームのいずれか１つに基づく処理シ
ステムであって、テキストオブジェクトがデータの要素のキャラクターの長さを
示す値を含むもの。
【請求項２５】クレーム２３またはクレーム２４に基づく処理システムであ
って、属性 − 要素のタイプがシンタックスの階層の中で低いレベルのものであ
るか高いレベルのものであるかを示す値を含み、当該値がこのシステムに従って
処理された他のフリーフォーマットデータとマッチさせる時のマッチング目的に
使用できるものであるもの。
【請求項２６】２０から２５までのクレームのいずれか１つに基づく処理シ
ステムであって、テキストオブジェクトがデータの要素の為のマッチ重量値を含
み、これが他のフリーフォーマットデータとのマッチングに於いて要素の重要さ
を査定するのに使用可能であるもの。
【請求項２７】２０から２６までのクレームのいずれか１つに基づく処理シ
ステムであって、テキストオブジェクトがフリーフォーマットの訳字構造に従っ
て配置された複数のコンポーネントからなり、コンポーネントノードがフリーフ
ォーマットデータの訳字学的構造に対応する階層およびフリーフォーマットデー
タの対応する要素に関連する追加データを含む各コンポーネントの中に配置され
ているものであるもの。
【請求項２８】２０から２７までのクレームのいずれか１つに基づく処理シ
ステムであって、テキストオブジェクトがフリーフォーマットデータの要素を処
理システムによって処理された他のフリーフォーマットデータの要素と比較する
為のマッチング値を生成させることを意味するものであるもの。
【請求項２９】２０から２７までのクレームのいずれか１つに基づく処理
システムであって、マッチング値がフリーフォーマットデータを発音学的に比較
する為の発音学的値であるもの。
【請求項３０】２０から２９までのクレームのいずれか１つに基づく処理
システムであって、テキストオブジェクトがフリーフォーマトデータから暗示さ
れた情報に関連して包含されたデータを含むもの。
【請求項３１】２０から３０までのクレームのいずれか１つに基づく処理
システムであって、複数のフリーフォーマットデータ記録を処理し、各フリーフ
ォーマットデータ記録に付随するテキストオブジェクトを作成するようアレンジ
されたものであるもの。
【請求項３２】クレーム３１に基づく処理システムであって、追加データ
を生成する為の手段が各データ記録の要素の為のタイプ識別子および各データ記
録に対するポインターからなる属性を含むテキストオブジェクトインデックスを
生成するようアレンジされているもので、質問処理手段がテキストオブジェクト
インデックスにアクセスして、データに関する意味論的情報おおび統語論的情報
(属性)データに関連する質問に対する答えを提供しおよび/またはデータにアク
セスしてそれを操作するようアレンジされているものであるもの。
【請求項３３】クレーム３２に基づく処理システムであって、テキストオ
ブジェクトインデックスがこのシステムによって処理された他のフリーフォーマ
ットデータとのマッチングを確保する為のエントリー用識別子である属性に付属
する要素の特徴を代表する値を付与するエントリーの為の代表的値キーを含むも
の。
【請求項３４】２０から３３までのクレームのいずれか１つに基づく処理
システムであって、文法規則に準拠してフリーフォーマットデータを解剖（パー
ジ）することによって、試験プロセスを遂行するようアレンジされたドメインオ
ブジェクトによって更に構成されてなるもの。
【請求項３５】クレーム３４に基づく処理システムであって、ドメインオ
ブジェクトがドメイン定義ファイルからドメインを構築するプロセスによって生
成されるもの。
【請求項３６】クレーム３５に基づく処理システムであって、更に、ドメ
イン構築プロセスを実行する為のドメインコンストラクターからなるもの。
【請求項３７】クレーム３５またはクレーム３６に基づく処理システムで
あって、ドメイン定義データファイルがキャラクター定義データ、レギュラー表
現定義データおよび文法データを含むものであるもの。
【請求項３８】２０から３７までのクレームのいずれか１つに基づく処理
システムであって、フリーフォーマットデータが郵便アドレスデータであるもの
。
【請求項３９】２０から３８までのクレームのいずれか１つに基づく処理
システムであって、質問処理手段が追加データを経由してデータの上で、通常デ
ータベースオペレーションを実行するようアレンジされものであるもの。
【請求項４０】コンピュータシステムに記憶された複数のフリーフォーマ
ットデータ記録を含むフリーフォーマットデータにアクセスすることを可能にす
る方法であって、各データ記録に関連するテキストオブジェクトの形の追加デー
タ、各フリーフォーマットデータ記録の要素にアクセスすることを可能にするポ
インター手段を含むテキストオブジェクト、各データ記録の為のデータに関する
意味論的情報おおび統語論的情報(属性)に関連する追加データ、データに関する
意味論的情報と統語論的情報に関連する質問に答えを提供する質問処理手段によ
ってアクセス可能な追加データをソーテングするステップおよび/またはデータ
にアクセスしてそのデータを操作するステップからなるもの。
【請求項４１】処理システムに記憶され、当該システムによってアクセス
可能な複数のフリーフォーマットデータ記録、各データ記録の為のデータに関す
る意味論的情報および統語論的情報（属性）に関連する追加データ、各データ記
録に付随するテキストオブジェクトの形のの追加データ、各フリーフォーマット
データ記録の要素にアクセス可能なポインター手段を含むテキストオブジェクト
および追加データにアクセスして、データに関する意味論的情報と統語論的情報
に関連する質問に対する答えを提供するようアレンジされたポイント手段お含む
テキストオブジェクトを含み、コンピュータシステムに記憶されたフリーフォー
マットデータにアクセスを可能にする処理システム。
【請求項４２】コンピューターシステムの中に記憶されている複数のフリー
フォーマットデータ記録を含むフリーフォーマットデータにアクセスすることを
可能にする方法であって, 各データ記録の各データに関する意味論的情報および
統語論的情報(属性)に関連する追加データをソートしおよび/またはデータにア
クセスしてデータを操作する段階からなり、当該追加データが属性-各データ記
録の要素の為の識別子と各データ記録に対するポインターを含むテキストオブジ
ェクトのフォームのものであり、テキストインデックスがデータに関する意味論
的情報と統語論的情報に関連する質問に答えを提供する質問処理手段によってア
クセス可能であるものであるもの。
【請求項４３】コンピューターシステムの中に記憶されている複数のフリー
フォーマットデータ記録を含むフリーフォーマットデータにアクセスすることを
可能にする処理システムであって、各データ記録の為フリーフォーマットデータ
に関する意味論的情報および統語論的情報(属性)に関連する追加データ、各デー
タ記録の為の属性タイプ識別子と各データ記録の各データに対するポンインター
を含むテキストオブジェクトの形を持つ追加データおよびデータに関する意味論
的情報と統語論的情報に関連する質問に答えを提供するおよび/またはデータに
アクセスしてデータを操作するようアレンジされた質問処理手段からなるもの。
【請求項４４】１から１９までのクレームのいずれか１つの方法に準拠する
フリーフォーマットデータを評価する方法であって、データに関する意味論的情
報と統語論的情報に関連する質問に答えを提供するおよび/またはデータにアク
セスしてデータを操作する追加データを評価するステップによって構成してなる
もの。
【請求項４５】１から１９までのクレームのいずれか１つの方法に準拠して
処理されたフリーフォーマットデータにアクセスすることを可能にする為の処理
システムであって、追加データにアクセスして、データに関する意味論的情報と
統語論的情報に関連する質問に答えを提供するおよび/またはデータにアクセス
してデータを操作するようアレンジされた質問処理手段を含めてなるもの。
【請求項４６】コンピューターに記憶されたフリーフォーマットデータを処
理する為の処理システムであって、データの要素やその要素の内容と文脈的相互
関係を調べてそのデータの属性を査定し、当該データに関する訳字論的情報とシ
ンタックス情報(属性)を査定する手段および当該情報を利用して、データに関す
る意味論的情報と統語論的情報に関連する質問に答えを提供しおよび/または当
該データにアクセスしてこれを操作する質問処理手段によって構成させてなるも
の。
【請求項４７】クレーム４６に準拠した処理システムであって、試験手段は
、フリーフォーマットデータをコンピューターシステムに、当該手段に影響を付
与することなく記憶させたままに保つものであることを条件とするもの。
【請求項４８】コンピューターシステムに記憶されたフリーフォーマットデ
ータを処理する方法であって、以下によって構成させてなるもの, データの要素
やその要素の内容と文脈的相互関係を調べてそのデータの属性を査定し、当該デ
ータに関する訳字論的情報とシンタックス情報(属性)を査定し、当該情報を利用
して、データに関する訳字論的情報とシンタックス情報に関連する質問に答えを
提供しおよび/または当該データにアクセスしてこれを操作するステップによっ
て構成させてなるもの。
【請求項４９】クレーム４８に準拠してフリーフォーマットデータを処理す
る方法であって、フリーフォーマットデータが試験プロセスによって影響されず
、最初に記憶されたと同じに、コンピューターシステムに記憶されたままに維持
されるこを条件とするもの。
【請求項５０】１から１９までのクレーム９のいずれか１つの方法に基づき
コンピューターシステムに記憶されたフリーフォーマットデータを処理するコン
ピューターを管理する為のコンピューターの読めるメモリーのソーテングインス
トラクション。
【請求項５１】クレーム４８の方法に基づきコンピューターシステムに記憶
されたフリーフォーマットデータを処理するコンピューターを管理する為のコン
ピューターの読めるメモリーのソーテングインストラクション。
【請求項５２】コンピューターシステムの中に記憶された複数のフリーフォ
ーマットデータの記録を処理する方法であって、要素の内容と要素の文脈上の相
互関係を調べて、各記録に関する意味論的情報および統語論的情報(属性)を査定
することによって、各記録の為にデータの要素を調べてそのデータの属性を査定
し、この情報と付随する要素にアクセス可能にする各記録に付随する仮想データ
・フィールドを生成するステップによって構成させてなるもので、各記録はその
記録に関する訳字論的情報とシンタックス情報にアクセス可能にする付随仮想デ
ータフィールドによって提供され、付随する要素にアクセスすることを条件とす
るもの。
【請求項５３】コンピューターシステムの中に記憶されたフリーフォーマッ
トデータの記録を処理する方法であって、要素の内容と要素の文脈上の相互関係
を調べて、各記録に関する意味論的情報および統語論的情報(属性)を査定するこ
とによって、データの要素を調べて当該データの属性を査定し、各記録に関する
訳字論的情報とシンタックス情報を査定する手段およびその記録に関する訳字論
的情報とシンタックス情報に並びに付随要素にアクセスを可能にする付随仮想デ
ータ・フィールドを生成させる手段によって構成させてなり、各記録は訳字論的
情報とシンタックス情報並びに付随要素へのアクセスを可能にする付随仮想デー
タフィールドを使って提供されることを条件とするもの。