JP2002544616A - フリーフォーマットデータを処理する方法と装置 - Google Patents
フリーフォーマットデータを処理する方法と装置Info
- Publication number
- JP2002544616A JP2002544616A JP2000618713A JP2000618713A JP2002544616A JP 2002544616 A JP2002544616 A JP 2002544616A JP 2000618713 A JP2000618713 A JP 2000618713A JP 2000618713 A JP2000618713 A JP 2000618713A JP 2002544616 A JP2002544616 A JP 2002544616A
- Authority
- JP
- Japan
- Prior art keywords
- data
- free format
- text
- information
- format data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
分析することに関連している。より詳しくは、フリーフォーマットに書き込まれ
たテキストを通訳する方法と装置等に関するものである。
システムは一般に以下に列挙する2つのカテゴリーに分類することができる。:
1) データベース管理システム 及び 2) テキスト探索再生システム
し、データの位置を定めて改良することが出来るようにするものである。これら
のシステムは、要求によって、このデータから、人が読むことが出来、他のシス
テムで使用出来るのに適した表示を生成する。 このカテゴリーに属するデータ
管理システムには以下が含まれている。: 階層をなし、ネットワークを形成し、
互いに関連するオブジェクト指向のデータ管理システムと知識ベース管理システ
ム。
企業や団体に関する情報(取引、ストックアイテム、人、会社、アドレス等)は通
常「記録」と呼ばれている。(当該記録には時々多くの企業や団体に関する情報
が含まれる場合がある。) 各記録の中にある実在物の様々な属性は、通常フィ
ールドに分類されている。
の中では、これらの基本ユニットに、「オブジェクト」の如き別な名称を付ける
ことができ、オブジェクトに関する情報には、「スロット」又は「メンバー」の
如き他の名称を付けることができる。 属性である当該フィールド/スロットの
各々は、例えば、整数、実数、ブーレ変数、キャラクター等であってもよいフォ
ーマットのものである。 その他のものは記録/オブジェクト類である。 (例え
ば日付や時間等を含む)幾つかのフィールド/スロットは独特なフォーマットを持
っているが、その他のものはこのようなフォーマットがまだ形成されていないテ
キストである。
ることができる。: ・記録/オブジェクトの追加 ・記録/オブジェクトの変更と配置 ・記録/オブジェクトの削除と再配置 ・情報の再生 これらのオペレーションは「通常データベースオペレーション」と呼ばれ
る。
くのタイプのデータに適したものである。 しかし、当該記憶に適した標準構造
を持っていないタイプのデータが幾つか存在する。 標準構造を持っていないデ
ータの最良な例は「アドレスデータ」である。 殆どのデータベースは人々のア
ドレス情報を1個か2個か3個若しくはフリーフォーマットのフィールドに記憶
するので、アドレスの個別属性に対して通常データベースオペレーションを実行
することは非常に困難である。本明細書に使用する「属性」なる用語はデータを
構成する要素のプロパティーを意味する点に注目されたい。
ト通り12"は多くの要素を持っている。 各要素はそれぞれに付随する「属性
」を持っている。 要素の1つの属性である"北"については、それが地理的イン
ジケーターの1種であるということである。 要素の1つの属性である"12"に
ついては、それは“数”であるということである。 例えば、要素"北"はデータ
の象徴であるように、"低いレベル"はデータの象徴に匹敵する。 データによっ
ては、より高いレベルの要素も含まれている。 しかし、例えば、"北シドニー"
は2個の象徴を含む要素で、この要素は"タウン"であるとする属性を持っている
。 例えば、「トータル要素」であるデータ全体に対する属性、"北シドニーピ
ット通り12"はそれらがアドレスの一種であるという訳である。 要素に代わ
る用語として使用される「コンポーネント」なる用語もある。
リーフォーマットの各要素によって、データベースのサイズや複雑さはこの単純
なアドレスの例に於いてさえ大変顕著に増加する。 例えば、人々に関する情
報をそれぞれのアドレスと一緒に含む場合にあって、古いデータベースの場合は
特に、複雑さを回避する目的で、アドレスデータは「アドレス」なるラベルを付
けた1つの独立したフィールドに記憶させることができる。 このフィールドに
は、フリーフォーマットのアドレスが含まれているので、現在のデータベース技
術を駆使しても、アドレスの個別要素に対して、通常データベースオペレーショ
ンを実行することが不可能である。:これらの要素には、("アドレス"に全体的
に勿論アクセス出来るアドレスの生成要素の組み合わせを除き)別々にアクセス
することが出来ない。この問題はデータベースの洗濯/洗浄の科学によって或る
程度注目されている。 フリー・フォーマット・テキストの属性ごとに、データ
ベースフィールドを新たに創設するオブジェクトを使って、これらを完全に標準
化されたデータに書き込むフリー・フォーマット・テキスト解析プロセスがこの
分野で行われている商業努力に適用されている。 データのこの標準化には、一
切のスペル・バリエーションを矛盾のない一つのセットに変換することが含まれ
ている。 (例:"Street" -> "St") 上の例によって以下が生成される。:
ションを実行するのに使用される。 情報を取り込んでデータベースに記憶させ
た後、情報を分析処理して情報記録の属性の為のフィールドをもっと多く含む新
しいデータベースを生成させる目的で、大きく且つ複雑で高価なソフトウェアパ
ッケージをこの分野に適用して、記録に適用出来るオペレーションにフレキシビ
リティーをより多く持たせるようにすることに産業全体が専念している。
1996年9月に雑誌DBMSに発表された論文「汚れたデータの取り扱い」参照)
運転に多くの時間を要し、データベースを洗浄するよう開発されたソフトウェ
アパッケージは非常に複雑であるので、大きなデータベースを完全に清掃するに
は、何百万ドルものコストを要する恐れがある。:要素に対してデータベースオ
ペレーションを実行するには、要素にそれ自身のフィールドを持たせなければな
らないと言う基本的要件によってそれはまだ制限されているのが現状である。
の方法を悩ます第2の大きな問題が我々に提起される。 階層構造を持つリレー
ショナルなデータベースまたはデザインに要する時間が固定されている構造を持
つフラットなデータファイルの中に、すべての商業データが実用的に記憶される
が、情報はそれ自身の性質上非常に複雑で、同じでないほとんど無限に近い数の
属性を持っている。 タイプの異なる各々及び一切の情報の為に、すべての属性
用のフィールドを含むデータベースを創設することは、すべてのタイプ情報の為
のフィールドを含むデータベースを構築する一切の試みにコストがかかることが
確かであることから全体的に不可能で、実用性がなく、人が取得できる一切のタ
イプの情報用にフィールドを創る試みはコスト的に荷が重すぎる。
。 世界中を相手とするアドレスを含む国際アドレスを検討しなければならない
。4個又は5個のフリーフォーマットフィールドに一切のアドレスを含めること
ができるが、一切の国際アドレスがすべて持つ可能性のある属性の為のデータフ
ィールドを持つデータベーステーブルをデザインするには、数千ではなく、数百
のデータフィールドを含めればよい。 イングランドには地方(カウンティー)が
あり、合衆国やオーストラリアには州があり、日本には郡があり、アドレスの順
序が同じではない等々である。
決するものにしかならない。 それには、データの各属性に基本データベースと
同じ構造を持たせる必要がある。 人は益々複雑なデータベースを構築すること
がで出来るようになっているが、この問題を完全には解決出来ず、情報の電算処
理が顕著に制限されている。
味論的文法"をエンコードするものとして有名である。 これらのシステムは主
に、データベース管理システムの如きその他のシステムに、中性言語インターフ
ェースを提供するのに使用される。 以下の記述は、Patterson, D.W.が書いた"
Artificial Intelligence and Expert Systems"と題するブックから抽出したも
のである。: "... 彼らは、ノンターミナル意味論的成分を持つ文脈のない書き換え規
則を使用している。 成分は、属性、オブジェクト、(画面又はプリントにあるよ
うな)表示の如きカテゴリーまたはメタシンボル並びにシップ、名詞句、動詞句
、名詞、動詞等を除くものである。 ... 意味論的文法は、LIFTER、米国海軍
が広めたデータベース質疑システム・・・及び回路の不良に於けるバグ除去を教
授するのに使用されているチュートリアルシステムであって、SOPHIEと呼ばれて
いるものを含む限られた利用で成功を収めたことが公に認められた。 これらのシステムの中の書き換え規則には、必然的に以下のフォームが使用さ
れている。: S -> What is <OUTPUT-PROPERTY> of <CIRCUIT-PART>? OUTPUT-PROPERTY -> the <OUTPUT-PROP> OUTPUT-PROPERTY -> <OUTPUT-PROP> CIRCUIT-PART -> C23 CIRCUIT-PART -> D12 OUTPUT-PROP -> voltage OUTPUT-PROP -> current LIFERシステムには、以下を含む膨大な数のwh質疑を扱う規則がある。: 「ニューヨークに最も近い場所を走る輸送機関の名称は何か?」 「ケネディーに命令を下すのは誰か?」等..
ンボルにマッチするように書き換えられる。例えば、'Print the length of the
Enterprise'なるインプット・ステートメントは、フォ−ムのLIFER top gramma
r (LTG) 規則に適合するようになる。 <LTG> -> <PRESENT> the <ATTRIBUTE> of <SHIP>
し,更にEnterpriseは<SHIP>にマッチする。<ATTRIBUTE>にマッチさせることがで
きる他の典型的なレキシコン・エントリーには、CLASS, COMMANDER, FUEL, TYPE
, BEAM, LENGTH等が含まれる。
マットフォームの中から情報を受け取り、これを自身に固有な表現に変換する。
れるデータベースは固定された構造を持ち、これらのシステムは、最初の(人が
読める)データに変更を施すことができない。
する実に多くの既存特許群がある。 これらのシステムのすべては、中性言語か
ら構造化されたデータの幾つかのフォームに翻訳するものである。よって、上に
述べたと同じ問題により被害を被る。
,L. Malhotra A.による合衆国特許第5454106号,"Database retrieval system us
ing natural language for presenting understood components of..." を当該
システムの例として参照されたい。
識ベース管理システムがある。
使われている。 当該スロットによって、オブジェクトに関する情報が記憶され
た値に直接、又は手順に従って間接的に提供されるか、変更される。 簡単なス
ロットの例を使ってこの概念を説明する。: "平方"なるオブジェクトは「長さ」
と「面積」からなる2つの属性スロットを持っている。 この場合、面積の値は
長さの値を掛け合わせる計算によって定めることが出来るので、面積スロットを
記憶させる必要はない。
ないが、これらには、最初のデータを非常にプロセス指向の「言語生成」プロセ
スを経由して、人が理解できる情報を生成させてなる内部データ表示に翻訳する
必要がある。 これらのタイプのシステムに他のシステムや人が使用できるよう
に元のデータを維持することが求められた場合には、小さな変更をテキストスト
リング全体に施して再生成させることが必要となる。
タは輸入されないが、最初のデータに付ける探索可能なインデックス・システム
が構築される。 このカテゴリーには、以下が含まれている。
で非常に有用である。 この基本原理は上に述べた従来のデータベースシステム
とは異なり、包含されているデータを容易にこのタイプの多くのシステムと共有
出来ることを意味する。 これらの成功が得られた他の理由は、最初のデータに
変換を施すことが要求されることなく、改善された技術が実行できることである
。 データ変換には極端に高いコストがかかるのみならず、これがデータ・エラ
ーの主な原因となる。
される欠点もある。 上に述べたデータベースシステムを比較してみると、ここ
には、データを操作することが出来ないと言う重要な制限がある。- ここでは、
データを改良することができない。データは、あるがままにして置かなければな
らない。 実行が非常に困難な他のデータベース機能には、以下が含まれる。: ・データのクロスチェックと有効化 ・データベースシステムによるデータの統合 ・テキストデータの仕分と分類
されていないデータであって、変更する必要のないものに対してのみ検討される
ことがわかる。
主題」トピックの如き各ドキュメントに固有な属性を他と区別されることが知ら
れている。 このタイプのシステムによって処理されたドキュメントのタイプに
は、書籍, 新聞, 報告, マニュアル及び電子メールメッセージが含まれている。
ードを求めるが、文脈に含まれるワードを見ない。 他の幾つかは、名詞である
ワードを他と区別するが、名詞のタイプを分類しない。 両者は固有名詞が大半
を占めているアドレスの如きデータには適していない。 これに加え、最初のデータを文脈の中で変更することが出来ない。
たい。 次の記述に使用される「オブジェクト」なる用語は、テキストデータの断
片を記憶し、テキストストリングをカプセルに入れることによって、コンピュー
ターの間に転移させるのを支援するソフトウェア技法を記述するシステムで使用
された「テキストオブジェクト」なる用語と混同すべきものではない点に注目さ
れたい。 「テキストオブジェクト」なる用語が使用された技法は、(オブジェク
トに主導的な2バイトの長さ値とテキストストリングが含まれている)アップル
コンピューターのオペレーティングシステムの中で使用された「ストリング・オ
ブジェクト」から(オブジェクトがマルチ・エンコーディングや言語翻訳及びフ
ォントスタイルに関する1箇の情報をカプセルに入れている)Xウィンドウによっ
て使用されたコンパウンド・ストリング・オブジェクトまでを範囲とするもので
ある。
タの内容及び文脈に関する互いの関係を調べ、データに関する意味論的及び統語
論的情報(属性)を定め、この情報に関連する追加データ並びにデータに関する意
味論的情報及び統語的情報に関連する質疑応答問を提供する質問処理手段及び/
又はデータに接近して操作することによって接近可能となる追加データをフリー
フォーマットデータの要素への接近を可能にするポインター手段を含むテキスト
フォームで生成させることから成るコンピューターシステムに記憶されたフリー
フォーマットデータを処理する方法が提供される。
る用語は、テキストストリングをカプセルに入れない。 現在の発明の範囲に含
まれるテキスト・オブジェクトによって、意味論的層が、実際のテキストデータ
と例えば、アクセスが要求され及び/又はテキストデータを操作してもよいアプ
リケーション・ソフトウェア・システムの間に提供される。
ブジェクトは、データ要素の試験から得られた意味論的情報と統語的情報並びに
(フリーフォーマットデータを形成するテキストストリングに戻す等)フリーフォ
ーマットデータに戻るようにすることが出来る(キーの如き)ポインター手段に関
連する追加データである。
に他と区別され得るようになる。 例えば、"北シドニーピット通り12"の中では
、序文に付与された例、例えば"ストリート"は"ピット通り12"に等しく、"通り
番号" は"12"に等しく、"タウン"は "北シドニー"に等しい等を含んでデータの
様々な属性が追加データによって他と区別され、ポインター手段によってこれら
の属性に付随するデータの要素に優先的にアクセスにされ得るようになる。 追
加データによって「仮想データ・フィールド」が効果的に提供される。:各属性
毎にコラムフィールドヘッドを持つ通常のデータベースの中には、これらがある
ような状態のデータ・フィールドは存在しない。 それにも拘わらず、これらの
属性の為の実際のフィールドが存在したかの如く本発明を使用してなる属性ベー
スによって、フリーフォーマットデータは1個の属性の上でアクセスされ得るよ
うになる。 発明の実用的行使を行うと、フリーフォーマットテキストの為の実
在データベースフィールドを創る必要がない状態で、フリーフォーマットテキス
トの上で一切の通常データベースオペレーションを行うことが出来るようにする
仮想データ・フィールドが創られるようになる。この場合、フリーフォーマット
テキストはそのまま同じ場所(普通はデータベース)に記憶させておくことが出来
る。
と、これの持つ重要性が明らかとなる。 上に述べたように、すべての国際アド
レスデータは4個か5個のアドレスフィールドの中でフリーフォーマットの上に
記憶させることが出来るが、例えば、イングランドには地方(county)があり合衆
国には州がある等、各々のデータの記録が他のアドレスの属性とは異なる多くの
属性を持つ場合がある。 国際アドレス用のすべての属性の為に従来のデータベ
ースフィールドを実際に生成させることは殆ど不可能に近い。 しかし、現発明
を適用すると、フリーフォーマットの各記録を取り出して処理し、(小さな)多く
の仮想データ・フィールドを個々の記録ごとに、テキストオブジェクトの形で生
成させることができる。 各記録の為のテキストオブジェクトはそれによってそ
の記録の為のすべての通常データベースオペレーションを提供する質疑処理手段
によって、別々に質問がなされることができるようになる。 データはそれ自身
定位置に置いたままでよい。 各記録毎にテキストオブジェクトが創製されるの
で、各記録毎に異なった仮想データ・フィールドを使用しても問題はない。
データベース記録をそのままにして、各記録に1個の割合で多くのテキストオブ
ジェクトを新たに生成させ、全体を網羅する多くの仮想フィールドを付与する代
わりに多くのフィールドを持つ大きなデータベースを生成させる必要はない。
ることが望ましい。 テキストオブジェクトでは、データを操作して記録の変更、記録要素の位
置決め、記録から情報を再生すること等を含む通常データベースオペレーション
がすべて可能であることが望ましい。 テキストオブジェクトによって提供され
ることができる情報はデータの要素に関する情報を含んでいることが望ましい。 実用例では, 情報には(音声組織の如き)マッチング情報やパースの優先順位を
含めて、データの記録を他のデータの記録と比較出来、曖昧なフリーフォーマッ
トテキストの処理等が支援されることが出来るようにしてもよい。
タを人間が行うと同じ方法で操作することができるようになるものと信じられる
。 データベースの為にコラム名称が決められてしまってから、従来の慣行のよ
うに、記録を分解し、データベースにある該当するフィールドに属性に基づき標
準化された値を属性のタイプ毎に置く必要はない。 各データ記録の各テキス
トオブジェクトによって、コンピューターがすべての通常データベースオペレー
ションを行うに必要とされる処理と情報が提供されるようになる。 例えば、国
際アドレスを含む属性のタイプに関して、比較、操作等を、多くのフィールドの
付いた複雑なデータベースを提供することなく、実行するこが出来る。
持つデータの要素の位置を決めるポインター手段の名称にアクセスできるように
する属性タイプ識別子を含んでいることが望ましい。
ムに納めた複数の部分からなっている。複数のコンポーネントノードを階層の中
にテキストオブジェクトと一緒に含ませるとよい。 例えば、複数のコンポーネ
ントノードに予め定めた階層の中に互いに付随しあう様々なコンポーネントノー
ドを持つ複数のブランチを持たせることができることが望ましい。 各コンポー
ネントは以下のものから構成することができる。: ・(そのコンポーネントノードを付属させて持つ属性を分類する為
の)属性タイプ識別子 ・(コンポーネントノードに付属する要素の始まりを含む)テキスト
オブジェクトのテキストストリング中にあるサブストリングの始めの部分に対す
るポインター ・要素サブストリング(データ)のキャラクターの長さ情報を含む整
数 ・(このコンポーネントノードに付属しているか、その中に駐在し
ていないので、他のコンポーネントノードがそのコンポーネントノードを経由し
て接近可能であって)アレーとして記憶されることが望ましいゼロまたは1若し
くはそれ以上の他のコンポーネントノード ・(他のテキストオブジェクトとの比較を実行する時この要素の相
対的重要さを示す)マッチング重量 ・この属性タイプ識別子が低いレベルのマッチング要素であるか否
かを示すブーレー変数、並びに ・考慮される時間/スペースによっては、プロセスにマッチさせる
のを支援する1又はそれ以上の値 (詳細が知りたい場合には、テキストストリ
ングオペレーションに関する以下の節を参照されたい。) ・(コンポーネントノードに付属し、コンポーネントノードに優先
順位を割り当てることができ、曖昧さが存在する場合、最善の解釈を決めるのに
使用されるフリーフォーマットデータの要素に概念的「優先順位」を付与する)
パース優先順位値
在させなくてもよいが、各コンポーネントノードにはコンポーネントノードに従
属して、従属コンポーネントがリストを含むコンポーネントノードから発見され
ることができるようにしたポインターのリストを含めることができる。
るので、各コンポーネントノードは或る特定属性のフリーフォーマットデータと
関連付けることが望ましい。 階層の比較的高い部位にあるコンポーネントノー
ドには、複数の他のコンポーネントノードに固定するか含めることができる。階
層のすぐ下のステップにフリーフォーマッタデータの付属要素があるので、階層
の最下位にあるこれらのコンポーネントノードを含めないか、他のコンポーネン
トノードに固定しない方がよい。
記録の持つ1つの属性は<通り>であっても、"ピット通り12"であってもよい。
コンポーネントのサブ属性は<通り番号> "12", <通りの名称> "ピット"及び<通
りのタイプ> "通り"であることができる。 <通り>コンポーネントノードにはそ
れ故に、それぞれが<通りの番号>, <通りの名称>及び<通りのタイプ>なる識別子
を持つ3つの他のサブコンポーネントが列記される。
られるものであることが望ましい。 このように機能的定義を行うと、本発明に
なるテキストオブジェクトの一切の機能が各属性に適用できるようになる。
れるのを支援するその他のデータ構造によって構成することもできる。 かかる
構造を示す例はすべての属性タイプ識別子と付随コンポーネントノードに対する
1個のポインターを含む一覧表である。
テキストオブジェクトを使用してデータに関する質問に答え、データに接近して
これを操作できるように設定してなるソフトウェア・アプリケーション・エンジ
ンであることが望ましい。
を可能にするインデックスを用意する更なるステップを含めることが望ましい。 このインデックスは(発明者がテキストオブジェクトインデックスなる名称を
付けた)表の形態を持ち、コラム、コラムヘッドおよびデータを含み、複数のデ
ータの各々の為に追加データから生成された点を除き、従来のデータベースに非
常に近い方法で生成されたものであることが望ましい。
けて成る表や代表的な数値キー及びユーザーが提供した記録識別子の為の欄を含
めることが望ましい。 代表的な数値キーによって、例えば固有名詞(スミス)又
は共通語(通り)の為の数値識別子を含んで、コンポーネントタイプ識別子に付属
する要素の特徴を反映してなる或る値が提供されることが望ましい。 テキスト
ストリングのマッチングに関する以下の節には、代表的なキー値に関するより明
細な値が含まれている。 ユーザーが提供した記録識別子はどの記録が比較の対
象となり、接近されるかを区別してユーザーに示すもので、記録にアクセスする
ことを可能にする1種のポインターでもある。
データを含む複数のコンポーネントノードを持つテキストオブジェクトは要求さ
れなくてもよい。 データに接近するよう要求し、データベースオペレーション
を実行することが出来るものは質問処理エンジンとテキストオブジェクトインデ
ックスである。 テキストオブジェクトインデックスは、データの試験から直接
準備することができ、これには、(例えば、記録に対する追加データ+ポインタ
ーを含んで)複数の記録の為のテキストオブジェクトが含まれている。 よって、
テキストオブジェクトインデックスの中に追加データ+ポインターとして付属さ
せないで、テキストオブジェクトを別なコンポーネント・ノード・ストラクチャ
ーとして配置するか、別な実体として、最初の場所には必要のないものとするこ
とができる。
ッチング値(又はこれらの値を創る手順)が含まれている場合、例えば、異なった
言語で書かれた要素を含む記録を比較することは不可能である。 例えば、通り
の名称値を漢字で含むフリーフォーマットの記録はそれぞれのマッチング値を比
較することによって、アラビア語で書かれた通りの名称と比較することが出来る
。 各記録用の通り名称が同じであるおそれがあるが、これはフリーフォーマッ
トデータに異なった言語で表現されただけのことである。 よって、本発明の第
1面に提供されたマッチング情報によって、別な言語によって書かれたフリーフ
ォーマットテキストの要素の比較が可能にされる。
ブジェクトに記憶させる必要がないようにしてもよい。即ち、これらは"Fly"の
上に、質問処理エンジンによってデザインされた手順を経由して生成させること
ができる。この後の記述参照。
ステップは、フリーフォーマットデータをドメインオブジェクトによって適用さ
れた文法規則に準拠して解析する手順によって構成することが望ましい。 ドメ
インオブジェクトはキャラクター定義データや通常表現定義データ並びに文法デ
ータをインプットデータとして使用するドメイン構築プロセスによって構築する
のが望ましい。
クト毎に文法規則によって定めるのが望ましい。 本発明は、ドメインオブジェクトと質問処理手段を含むソフトウェアを適
用することによって実行することができる。 ドメインオブジェクトは、フリー
フォーマットデータを調べ、その後、フリーフォーマットの上で一切のデータベ
ースオペレーションを実行可能にする質問処理プロセスによって使用可能にされ
るテキストオブジェクトを生成させるように配置されている。 フリーフォーマ
ットデータはコンピューターシステムにある従来のデータベースで使用するよう
な古くからある方法で記憶させることができる。 フリーフォーマットデータ
はテキストオブジェクトの中にストリングとして記憶させることができる。 ド
メインオブジェクトと質問処理エンジンからなるソフトウェア・アプリケーショ
ンはデータを、データベースの中で行う記憶に影響を付与することなく、データ
処理に使用することができる。 よって、その他のソフトウェア・アプリケーシ
ョンも、データベースに通常なものとしてデータベースとインターフェースする
ことができるものと思われる。ドメインオブジェクトと質問処理手段は、すべて
のフリーフォーマットデータの要素に接近させることによってデータベースの能
力を高揚させるのに使用することが出来ると言う事実とは別に、そのオペレーシ
ョンが関係する限り、データベースは全体的に影響を被ることのない状態に維持
される。
タベースを用意しないと入手不可能であったフリーフォーマットのデータにアク
セスすることを可能にすることに加え、将来データを構造化して、データを整理
する大きな可能性も持っている。 例えば、本発明を使用することによって、
1つのデータベースにデータを記憶させるに要するフィールドの数を大幅に削減
することを可能とすることができる。 上に揚げた名称とアドレスの国際データ
の例から、国際アドレスデータは異なった属性を多く持っているので、現在、国
際アドレスデータをデータベースの単1フィールドの中で扱うことは可能ではな
い。 しかし、本発明を利用すると、国際アドレス記録をすべて含む単1のフリ
ーフォーマットフィールドに保持することができる。 本発明によって処理する
と、質問処理手段を経由して他の記録と比較し、各データ記録のすべての要素情
報にアクセスして操作することを許す仮想データ・フィールドの固有な組が各個
別国際アドレス記録に提供される。 すべての国際アドレスの為に単一のドメイ
ンオブジェクトを用意することは実際に可能である。 いかなるフリーフォーマ
ットデータもこの方法で処理することが可能であるものと思われる。 発明はア
ドレスデータに限定してなされたものではない。
いる複数のフリーフォーマットデータであって、複数のフリーフォーマットデー
タ記録を含むものへの接近を可能にする方法であって、各データ記録の為のデー
タに関する意味論的情報と統語論的情報(属性)に関連する追加データ、各データ
記録に付随するテキストオブジェクトの形態の追加データ,各フリーフォーマッ
トの要素へのアクセスを可能にするポインター手段を含むテキストオブジェクト
・データに関する意味論的情報と統語論的情報に関連する質問に対して答えを提
供する質問処理手段によって、接近可能になる及び/又はデータに接近してそれ
を操作する追加データを記憶するステップからなるものを提供する。
ストオブジェクトの一切のプロパティーを含めることが望ましい。当該オブジェ
クトは上に述べた一切の特徴を含む試験によって生成させることが望ましい。
ーターシステムに記憶されたフリーフォーマットデータへの接近を可能にする方
法であって、各データ記録のデータに関する意味論的情報と統語的情報(属性)に
関連する追加データ、属性を含むテキストオブジェクトインデックスの形態を有
する追加データ:各データ記録の要素の為のタイプ識別子及び各データ記録に対
するポインター、質問処理手段によって接近可能にされ、データに関する意味論
的情報と統語的情報に関連する質問に答えを提供する質問処理手段によって接近
が可能となる及び/又はデータに接近してこれを操作するテキストオブジェクト
インデックスを記憶するステップからなるものを提供する。
に述べたテキストオブジェクトインデックスの一切のプロパティーを含めること
が望ましい。当該インデックスは上に述べた一切の特徴を含む試験によって生成
させることが望ましい。
リーフォーマットデータを処理する為の処理システム、データの要素とその内容
と互いの文脈的関係を調べて、データに関する意味論的情報と統語的情報(属性)
を調べる方法によってそのデータの属性を決める手段、この情報に関連する追加
データであって、フリーフォーマットデータを含むテキストオブジェクトの形態
のものを作成する手段で、フリーフォーマットデータの要素への接近を可能にす
るポイント手段を含む装置及び追加データに接近してデータに関する意味論的情
報と統語的情報に関連する質問の答えを提供する及び/又はデータに接近してそ
れを操作する質問処理手段を提供する。
て、発明の第1の面に関連して上に述べたように、一切の特徴を持つテキストオ
ブジェクトを生成するようにアレンジされることが望ましい。
データにアクセスすることを可能にする処理システムであって、複数のフリーフ
ォーマットデータ記録、システムによって記憶され、接近可能な各データ記録の
為のデータに関する意味論的情報と統語論的情報(属性)に関連する追加データ、
各フリーフォーマットデータ記録の要素にアクセスすることを可能にするポイン
ター手段を含むテキストオブジェクト及び追加データにアクセスして、データに
関する意味論的情報と統語論的情報に関連する質問の答えを提供し、及び/又は
データに接近してデータを操作するようアレンジされた質問処理手段からなる追
加データを含むものを提供する。
ーフォーマットデータに関する意味論的情報と統語論的情報(属性)に関連する追
加データ, 各データ記録の要素と各記録に対するポインターの為の属性タイプ識
別子を含むテキストオブジェクトインデックスの形態の追加データおよびデータ
に関する意味論的情報と統語論的情報に関連する質問に答えを提供する追加デー
タにアクセスする及び/又はデータに接近してデータを操作するようアレンジさ
れた質問処理手段からなる処理システムを含むシステムであって、コンピュータ
ーシステムに記憶されたフリーフォーマットデータにアクセスすることを可能に
するものを更に提供する。
クトを生成させるようアレンジされたドメインオブジェクトを含む装置や 本発
明の以前に述べた面に関連して上に述べたテキストオブジェクトの一切の特徴を
含むテキストオブジェクトを提供する。
又はそれより多い数のテキストオブジェクトを質問して、質問された属性に呼応
する要素の値を取得することから構成することができる。 例えば,フリーフォ
ーマットデータが名称とアドレスデータである場合には、人はテキストオブジェ
クト又は<通り>要素があるか否かを調べるオブジェクトを質問してもよく、もし
ある場合には、その要素の値(例えば"ピット通り12")を取得してもよい。 これ
は、アドレスフィールドにはフリーフォーマットの形態を持つすべての<アドレ
ス>のみが含まれている現在のデータベースを使用しても出来ないことである。 他のより古いシステムは特定テキストストリングを探索するテキストの意味に
関わりなく走査する探索装置を提供する。 これらのシステムはそのストリング
を探索することによって、"Pitt"なる通りの名称を持つすべてのアドレスを見つ
け出すのに使用することが出来ると思われる。 これによって、ストリングを
探索する時に別な方法を使用できると言う問題が提起される。
はこのデータの中に"ボックスロード"の上にあるすべてのアドレスに位置させた
いと欲する。 ユーザーが"ボックスロード" を探索すると、システムは記録20
1に戻り、記録205と記録207が無視される。 ユーザーが探索テキストを"ボック
ス"に変えると、システムは要求されたすべての記録に戻るが、誤って記録202、
記録203、記録204および記録206にも戻る。 ユーザーが別な質問に"ロード"の
バリエーションのすべてを規定しても正しい結果は得られない。 システムのユ
ーザーがデータにエラーが含まれることを容認したいと欲すると、例えば、"ボ
ックスロード"と規定すると記録206に戻ることを含んで、問題の解決は益々困難
になる。
他の例は、<通りの名称>は<タウンの名称>と同じである時のものである。 例え
ば、"123 シドニーアベニュー, メルボルン ブイアイシー"がそれに該当する。 ストリングの探索では、町の名称として"シドニー" を持つ記録だけを見つける
ことは出来ない。
クトの比較と2つのオブジェクトがいかに良くマッチするかを示すコンフィデン
スの値を確認して提供することも含めてよい。 例えば、各々のテキストオブジ
ェクトを比較することによって、2つのアドレスを比較することができる。この
ようにすると、これらがいかに良くマッチするかによって、異なったコンフィデ
ンス値(%で表したポイント)を付与することが出来るようになる。
テップを含めてもよい。 共通例には、結婚後女性の苗字を変え、ミステークが
起こった時、通り又はタウンの名称を変えることが含まれている。
ストラリアにあるノーザン・テレトリーの郵便コード番号の範囲が5800-5999か
ら0800-0899に変更された。)(市のフルネームがレニングラードからセントペト
ロスブルグに変えられた。)
るこの能力は、例えば、テキストオブジェクトを使用することがない等、データ
を直接使用するレガシー・コンピューターのオペレーションは影響を受けないと
言う利点を持つ。
に接近して意味論的情報および統語論的情報に関連する質問に答えるようアレン
ジしてなる質問処理手段、データに関する意味論的情報や統語論的情報及び/又
はデータに接近してこれを操作する手段に従って、フリーフォーマットデータに
接近を可能にする為の処理システムを提供する。
クセスする手段を含めることができる。 本発明は更に又、コンピューターシステムに記憶されたフリーフォーマッ
トデータを処理する為の処理システムであって、データの要素に接近して、デー
タの属性をその要素の内容や文脈上の相互関係を調べることによって査定し、デ
ータに関する意味論的情報と統語論的情報を査定する手段およびこの情報を利用
して意味論的情報や統語論的情報に関連する質問の答えを提供し及び/又はデー
タに接近する質問処理手段からなるものを提供する。
調べることによって査定し、データに関する意味論的情報や統語論的情報(属性)
を査定するドメインオブジェクトおよびこの情報を利用してデータに関する意味
論的情報や統語論的情報(属性)に関連する質問に対して答えを提供する及び/ま
たはデータに接近する質問処理手段から構成してもよい。
タである仮想データを生成させるものであって、質問処理手段によって使用され
てデータに接近して、データの属性に関する情報を取得するものから構成しても
よい。
ーマットデータを処理する為の方法であって、要素の内容と要素の相互関係を調
べ、データに関する意味論的情報や統語論的情報(属性)を査定し、この情報を利
用してデータに関する意味論的情報や統語論的情報(属性)に関連する質問に対し
て答え及び/またはデータに接近することによって、質問データの属性を調べて
これを査定するステップからなるものが提供される。
リーフォーマットデータを処理する為の方法であって、各記録毎に、要素の内容
と要素の文脈上の相互関係を調べて、データの意味論的情報や統語論的情報(属
性)を査定し、この情報と付属する要素に接近することを可能にする仮想データ
・フィールドを生成させることによって、データの要素を調べてデータの属性を
査定するステップからなるものを提供する。ここでは、各記録はデータに関する
意味論的情報と統語論的情報(属性)並びにこれらの各々に付随する要素に接近を
可能にする仮想データ・フィールドと一緒に提供される。
されている。 従来のデータベースとは異なり、情報を処理して実際にデータベ
ースを生成させる必要がある場合、データ・フィールドを別途生成させる必要は
ない。 それがデータベースの中にある場合、付随する仮想フィールドが意味論
的情報や統語論的情報の属性に対して生成されないで、データは定位置に保持さ
れ、仮想フィールドを求めると記録に要求されるすべての情報を取得することが
できる。この場合、通常のデータベースオペレーションをすべて実行できること
が望ましい。
ーフォーマットデータ記録であって、要素の内容とその文脈上の相互関係を調べ
各記録に関する意味論的情報と統語論的情報(属性)を査定することによって、各
記録データの要素を調べて、データの属性を査定する手段とこの情報およびそれ
に付随する要素に接近することを可能にする各記録に付随する仮想データ・フィ
ールドを生成させる手段からなるものを処理する為の処理システムが提供される
。 この場合、各記録は付随する仮想データ・フィールドであって、記録に関す
る意味論的情報と統語論的情報並びにこれらの付属要素に接近することを可能に
するものと一緒に提供される。
施に関する以下の説明から明白にする。
にはフリーフォーマットテキストのいかなるドメインにも等しく適用することが
できる。 本明細書の序文に述べたように、本発明は、電算化され情報を処理する新
しい概念と方法に全体的に関連するものである。より詳しくは、フリーフォーマ
ットデータに関するものである。 上に述べた如く、そのアイデアは、フリーフ
ォーマットデータから、コンピューターに記憶させることができ、フリーフォー
マットデータやフリーフォーマットデータに関する情報を取得して操作し、フリ
ーフォーマットデータの記録を比較するのに使用することができるテキストオブ
ジェクトを生成させるものである。 これは多くのフィールドを持つ複雑なデー
タベースを数多く構築することを要せず達成される。
ダイアグラムである。 それはユーザーインターフェース102とプロセッサー
101から成っている。 プロセッサー102は標準コンピューターシステムで
あってもよく、それにはCPUやコンピューターメモリー及びマス記憶装置を含む
一般基本設定が施してある。 ユーザーインターフェース101は標準キーボー
ドとVDU及び/又は他のコンピューターに対するインターフェースであってもよい
。 これらのようなユーザーインターフェースは他の同等なインターフェースと
共に良く知られているものである。
ス記憶装置の間に差別がなく、これらはメモリーと呼ばれている。 プロセッサー102のメモリーに負荷されてあるものはこの技術に熟達し
た者が周知しているオペレーティングシステムとデータベースシステム(未表示
)やワープロまたは会計パッケージの如き複数のアプリケーション・ソフトウェ
アシステム103およびテキストオブジェクト105を生成させる為の本発明1
04の実施例に示す如き標準ソフトウェアである。 システム104は複数の
インプットデータを受け入れるようにアレンジされたドメイン構築プロセス10
6(このサンプルではデータファイルの形態)とこれによってテキストオブジェク
ト105が造られるドメインオブジェクト108から成り立っている。 各ドメ
インには、フリーフォーマットデータの特定ドメインに必要な文法とシンタック
ス規則が含まれている。 例えば, 1つのドメインは国際名称とアドレスであっ
てもよく、これにはフリーフォーマットの国際ネームとアドレスを分析してテキ
ストを生成させるに必要な一切の情報が含まれている。 他のドメインは商品説
明用の知識ベースであってもよく、その他の1つは輸送産業用の知識ベースであ
ってもよい。 ドメインはフリーフォーマットデータを操作して生成させるこ
とができる。 ドメイン構築プロセス106は知識ベース(インプットファイル)
の上で、特定ドメインタイプを対象に運転されて、ドメインオブジェクト108
をそのタイプの為に生成させる。
多くのテキストオブジェクト105を処理することによって生成され得る。これ
については後でのべる。 第1図に示す通り、発明104は1枚の層を一般アプリケーション・ソフ
トウェア・システム103とこれらが記憶したデータ110の間に生成させる点
に注目すべきである。 この発明によって、上で述べた知識ベース管理システム
とは異なり、フリーフォーマットデータは最初の部位にとどまることができ、レ
ガシーアプリケーション・ソフトウェアが最初のアクセス・パス111を使って
運転できるようになる。
概略ダイアグラムであって、概念の説明を支援する目的を持つものである。 第3図に図解されたフリーフォーマットデータの例は通りのアドレス"北
シドニーピット通り12" (参照番号301)である。 従来のデータベースでは、
この情報は単一のアドレスフィールドに記憶されるか、通りの番号、通りの名称
、通りのタイプおよびタウン等を含む様々な属性に呼応して別々なフィールドに
分けて記憶されていた。 オーストラリアで共通に使用されているアドレス書式
の他の例については第4図を参照されたい。 序文で述べたように、従来のデー
タベースの規定に基づく各属性に独立したフィールドを求める要件の故に複雑さ
が生じ、情報が複雑で或る場合、フリーフォーマットデータのすべての属性にフ
ィールドを形成するには膨大なコストがかかり、不可能でさえある。
ード、302−312からなっている。 テキストオブジェクトは枝(例えば3
13等)を持つテキストノードツリーによって表すことが出来る。 この場合、コ
ンポーネントノード302−312は予め決めてある階層の中に位置させられて
いる。 最も低い階層はテキストノードツリーの底部にあり、最も高い階層はテ
キストノードツリーの頂部にある。 ノードツリーの頂部にあるノード302は
ルートノードと呼ばれている。 テキストオブジェクトのコンポーネントは好み
の方法で処理手段のメモリーの中に記憶出来、互いの中に巣を構え、例えば、幾
つかの方法で互いに参照し合うことができること等は重視される。 テキストオ
ブジェクトはテキストノードツリーによって代表されることができるが、このこ
とは、このようにメモリーの中に記憶されることを意味しない。 テキストオブ
ジェクトのコンポーネントがこのようなモードで処理出来るので、コンポーネン
トは図に示してあるように、テキストノードツリーのコンポーネントノードの如
く振る舞い、その後それは十分である。
であると考えられる点に注目されたい。この帰納的定義によって本発明のすべて
の機能が各コンポーネントに適用できるようになる。 各コンポーネントノード302−312の構築物には以下が含まれている
。: ・テキストオブジェクトに付随するフリーフォーマットデータ301のタ
イプを他と区別する属性タイプ識別子(本発明では整数)例えば、コンポーネン
トノード301には、このコンポーネント303は、例えば"ピット通り12"等、
このコンポーネントノード303が、それが付与するフリーフォーマットデータ
が<通り>であるフリーフォーマットデータの要素に付随していることを示す属性
タイプ識別子を含んでいる。 コンポーネントノード302は第3図に図解した
テキストオブジェクトの為のメインコンポーネントである。これには、属性タイ
プ識別子である<アドレス>が含まれている。 コンポーネントノード302はそ
れ故にこのケースのフリーフォーマットデータ記録である例えば住所である"北
シドニーピット通り12"全体に付属している。 コンポーネントノード302は
テキストノードツリーの中の階層に関して、コンポーネントより高いことに注目
されたい。 <アドレス> コンポーネントには、その内部に<通り> コンポーネン
トが含まれている。 テキストノードツリーの中にあるコンポーネント302−
312の階層は実際にコンポーネントノードの属性タイプ識別子とその属性は低
い階層のものか高い階層のものでなければならないと定める文法規則によって決
められる。
際要素の起動位置へのポインター。 フリーフォーマトットデータはメモリー中
のストリング及びキャラクターストリングの始めの部分に向けたポインターのポ
イントとして記憶される。 例の中では、コンポーネント303はアドレスの数
値である"1"をポイントする。 ・エレメントのキャラクター長を含む整数。 例の中では、コンポ
ーネントノード303は、("12"と"ピット"の後にスペースキャラクターを含ん
で)14の長さを持っており、"ストリート"の最後の文字である「ト」を有効に
ポイントする。 ・従属コンポーネントノードのアレー。 例えば, コンポーネント
303の為には、ノード306,307,308はすべて階層に直接従属し、ノ
ード311,312は間接的に従属している。 このアレーによって、コンポー
ネントノードがテキストノードツリーの構造の中で互いに関連し合うことが出来
るようになる。 ・この属性タイプ識別子のマッチング要素が低いレベルのものであ
るか否かを示すブーレー変数。 <ワード>や<ナンバー>の如きレギュラーな表現
に使用される用語は互いにマッチしないものである。これらの用語のマッチング
は階層に連なる次のレベル(例えば、通りの名称307)で実施される。 以下の
いずれかに該当する場合には、ノードには低いレベルのマッチングコンポーネン
トであることを示すフラグが付けられる。: これが辞書の中に位置するリテラル
である。これには(例えばノード308やノード309等)レギュラーに使用される用語
が含まれている。(例えばノード306、ノード307およびノード305) ・要素のマッチング重量を代表する整数。 これはテキストオブジ
ェクトの間で比較を実行する時、要素の各々の相対有用性を示す。 例: "レベル
3, ピット通り45"を"3階, ピット通り45"と比較する場合、要素である"レベル"
と"階"が等しくないか否かは明白ではない。 マッチング重量値はドメインオブ
ジェクトを構築するのに使用できるように文法規則の中に規定されている。 ・タイム/スペースを考慮するか否かによってマッチングプロセス
に使用すべきその他のオプションデータ。 詳細を知りたい場合には、テキスト
ストリングオペレーションに関する以下の節を参照されたい。 ・パースの優先順位を示す整数。 これについては後で述べる。
び移動する責任があるか否かを示すブーレー値。 コンポーネントがそのテキス
トに責任がある為の2つの条件は以下の通りである。: 1) テキストオブジェ
クトのルートノードにはテキストストリングに責任があるとするフラグが付けら
れる。外側のプロセスがテキストオブジェクトにテキストストリング全体を管理
するよう求めた場合、テキストオブジェクトルートノードにテキストストリング
に責任があることを示すフラグがつけられる時包含されるべき値が生成される。 2) 包含されるべき値が創られた時。 詳細については以下を参照されたい。 ・フリーフォーマットが保管されているバッファー終端部に得られ
るフリースペースを代表する整数値。 この値はテキストオブジェクトの創成時
に計算され、通常テキストオブジェクトのルートノードに対してのみ適用される
。
の各象徴の要素を扱うコンポーネントノードになっている。この場合、<番号> 3
11, <ワード> 312, <通りのタイプ> 308, <地理条件> 309, <ワード> 310となる
。階層の中で更に上に向かうと、一般属性タイプ識別子の為のコンポーネントノ
ードがある。 例えば、これらはそれぞれ、言葉の"ピット"に対して<通りの名
称> 307、3つの象徴"ピット通り12"に対して<通り> 303、象徴"北シドニー"に
対して<市町村> 305となり、この特定フリーフォーマットデータ記録の階層のト
ップには属性タイプ識別子<アドレス> 302が位置する。
ことは重視するに値する。これは整数で記憶させる必要はないが、どんな表示に
でも記憶させることができる。 プログラムエンジンがテキストノードツリーに
接近できるようにする。このエンジンには属性タイプ識別子を他と区別するに必
要な情報が記憶されて付いている。
位を示す整数を各コンポーネントノードに含める。 これらの値はテキストオブ
ジェクト構築時に割り当てられ、曖昧なフリーフォーマットテキストに複数の値
が存在している場合に、最良のテキストノードツリーを選択するのに使用される
。 例: "北シドニーピット通り12"には2つの解釈が含まれている。 "北シ
ドニーピット通り12 "は有効な通路アドレスであるが、"北シドニー"より優先順
位が低いので選択されない。 これらのパース優先順位はドメインオブジェクト
の構築に使用できるように、文法規則に規定されている。(以下参照)
の特別コンポーネントノードの創成を通して、サブフィールドが余分に生成され
てテキストフィールドに特に包含されることである。 例:"ミスター ジョーン
スミス"には"性別"なるサブフィールドが"男性"なる値をつけて生成された後包
含される。 テキストオブジェクトをこの要素を扱う属性タイプ識別子に"性別"
を持つ特別コンポーネントノードを使って創成させることができる。
規定されるが、これらは必要に応じて手動で追加することができる。 "Add Su
b-component"機能に関する以下の記述参照。
にし、フリーフォーマットデータの上で通常データベースオペレーションを実行
する仮想インターフェースの役目を演ずる。 ユーザーにはテキストオブジェク
トの内部は見えないが、彼は付随するプログラムエンジン(質問処理手段)を経由
して、記憶されたテキストオブジェクトや属性タイプ識別子並びにノードに置か
れているその他のデータの構造について問い合わせ、フリーフォーマットテキス
ト記録の上で通常データベースオペレーションをすべて実行することができる。
にテキストノードツリーを探索することが必要である。 この探索は帰納手順コ
ールを使用してエンジンによってなされる。 この技法はコンピューター科学の
世界で非常に良く知られているものである。 帰納については、Robert Kurseが
書いてPretence Hallから出版された書籍、"Data Structures and Program Desi
gn"を参照されたい。
ックアップ表を創成させ、属性タイプ識別子によってソーティングを行わせて上
記の手順の実行をスピードアップすることができる。 この技法はこの分野の技
能に精通した人々によく知られているものである。
テキストオブジェクトに求める"Get Sub-component" ・2つのテキストオブジェクトを比較して、いかに密に彼らがマッ
チするかを示すコンフィデンスの値を報告する"Compare Text Objects" ・特定のテキストオブジェクトに特定要素の為の特定な値が含まれ
ているか否かをテストする"Contains component"。 これを利用するとピット通
りが"通り"として含まれているすべてのフリーフォーマット記録を取得すること
ができる。 これはデータベースがそのアドレスフィールドの中にフリーフォー
マットデータを含む場合に、ピット通りの中でライブなデータベースの上に、ス
トリングサーチを要求することなくいかに多くの人々がいるかを見つける1つの
方法である。 (この場合、しばしばエラーが発生する。) ・テキストオブジェクトの特定要素の値を特定値に変更する"Modif
y Sub-component"。 例:"Pitt"を"King"に変更 ・各ノードに新しいサブコンポーネントを付けることによって、テ
キストオブジェクトにエキストラ・データを追加する"Add Component"。 この
情報を参照して、その後のオペレーションを行う。
れて、ゼロ,1またはそれ以上のサブコンポーネントノードが戻ってくる。 こ
れらのサブコンポーネントノードは要求の要素のテキストを指さす。 第5図は
この方法を図解したものである。 テキストオブジェクトのルートノードを使う
各手順の実行を始めると、501で始動がなされて、このノードの属性が要求の
属性タイプと同じであるか否かに関する査定がなされる。(502) このような
場合, このノードのステップ503の結果を示すリストにポインターが付けられ
る。ステップ504を続けると、このノードが参照した各サブコンポーネントが
帰納的にこの手順505を呼び出す。 その後、コーラー506に戻る。第6図
は"ミスター フレッドとミセス マリー スミス"の為のノードツリーを図解した
ものである。 属性タイプ<名前>を使ってノードを探索すると、2つのノード、
601と602に向けたポインターを含むリストに戻る。 これらのノードは
サブ・ストリングである"フレッド"と "マリー"にそれぞれにポイントを付ける
。このオペレーションの他のバージョンでは、テキストストリングをパラメータ
ーと呼んでいる。 同じ属性タイプを持つ同じテキストストリングを含むノード
だけが(ケースを無視して)このリストに加えられる。 例: 属性タイプ<名前>及
びテキストストリング"フレッド"を使ってこの機能を呼び出すと、1つのノード
を含むリストに戻る。
ンフィデンスレベルをパラメーターとして取り込む。 同じ属性を含み、提供さ
れたレベルより上の機密性と提供ストリングがマッチするテキストストリングを
持つノードだけがこのリストに加えられる。
にこれらがマッチしているかを示すコンフィデンスレベルを戻すものである。
それはこれを以下の通り実行する: 1.2つのテキストオブジェクトが同じ属性タイプを持っているか否
かを査定する。 これらが持っていなかった場合、呼び手にゼロのコンフィデン
スレベルを戻す。 2.または 2つのテキストオブジェクトのルートノードを使って(以
下に述べる)マッチノードなるサブルーチンを呼び出し、そのオペレーションの
結果を呼び手に戻す。 例: 以下のテキストオブジェクトをパスすると、100%に等しい値のコ
ンフィデンスの度合いが戻ってくる。 <アドレス> "郵便番号2000 ニューサウスウェールス州シドニー市ピ
ット通り12/34" <アドレス> "郵便番号2000 ニューサウスウェールス州シドニー市2
000ピット通り34の12"
サブコンポーネントの為のテキストオブジェクトを探索する。 見つかった場合
、それがいかにこれらがよくマッチするかを示す秘密レベルを呼び手に戻す。
このオペレーションは第2のテキストオブジェクトのタイプをパスして、(上に
述べた) "Get Component"機能を先ず呼び出すことによって達成される。 うま
くいった場合、それは第2のテキストオブジェクトのルートノードを使って(上
に述べた)"Match Node"サブルーチン及び"Get Component"機能結果のノードを呼
び出す。 例:2つの次のテキストオブジェクトをパスすると(ストリングのマッチ手
順の設定方法によって)約80%のコンフィデンスレベルに戻す。 <通り> "キャサリン通り" <住所> "郵便番号2830 ニューサウスウェールズ州ドボ キャサ
リン通り12-14"
クトの中に付けるものである。 この要素の値は元のフリーフォーマットテキス
トには含まれていないが, テキストオブジェクトの上に実施された質問によって
、正しい結果が戻ってくる。 例: "クリス スミス博士" を含む記録にポイント
するテキストオブジェクトは改良を施して、人が女性であることを示す必要があ
る。 女性の値を持つ性の属性を含む"Add Sub-component"を提唱すると、それ
ぞれのコンポーネントがテキストオブジェクトに付けられる。
データは取り替えられるべきサブストリングと806の後で804の前にあるサ
ブストリングからなっている。 メインテキストオブジェクト801の中ではサ
ブツリー803は、取り替えられるべきサブストリング805を表す。 取り替
えテキストストリング807は他のテキストオブジェクト802によって表され
る。
701を起動すると、(上に述べた)"Get Component" 機能の呼び出しが実施され
て、要求のコンポーネントノードがステップ702に位置するようにされる。
この機能コールの結果はテスト(ステップ703)されて、1つのコンポーネント
が確保され、その1つのコンポーネントだけが戻されるようになる。 ゼロまた
は1より多い数のノードが戻された場合、エラー条件704がセットされ、手順
は呼び手714に戻される。 または、手順は、置き換えられるべきサブストリ
ング805と新しい交換サブストリング807の間にある長さの差を計算するこ
とによってステップ705を使って続行される。 (ストリングが等しくない長
さを持つ等)この差がゼロでない場合、(下に述べる)"Adjust Node Variables"
サブルーチン707を提唱しなければならない。 サブルーチン707が成功し
なかった場合には、エラー条件711を設定して、呼び手714に戻らなければ
ならない。 ステップ708で手順の実行を続けながら古いストリング805の
場所に新しい交換ストリング807をコピーする。 ステップ710で古いノー
ドサブツリー803を新しいサブツリー802と取り替える。 新しいサブツリ
ー712の中にあるノード毎に新しいサブストリング713の起点を加えること
によって、ノードのテキストスタートアドレス変数を調整する。 それから、こ
の手順を終焉させて呼び手714に戻る。
のである。 第9図は改良前のテキストオブジェクトを示す。 第10図は取り
替えテキストオブジェクトを、第11図は第9図に引用したテキストオブジェク
トの改良後をそれぞれ示す。
ンもこのオペレーションには適用される。 サブルーチン 以下に述べるオペレーションは上に述べた他のテキストオブジェクト手順
から提唱されたものである。
密にマッチしているかを示すコンフィデンスレベルの値に戻すものである。 第12図はマッチノードオペレーションに適用されるフローチャートを示
すものである。 1201を起動させると、比較の対象であるノードがステップ
1202に於いて、低いレベルのマッチングコンポーネントであるか否かに関し
て査定がなされる。 2つのノードが低いマッチングレベルのものである場合、
(下に述べる)ストリング比較手順をステップ1210で実施して、呼び手121
0に戻らなければならない。 もしも当該2つのノードにそれぞれサブコンポー
ネントが含まれている場合には、同じ属性タイプを持つすべてのサブコンポーネ
ントの対の組み合わせ(ステップ1204)でこの手順1205を提唱しなければ
ならない。 各1206毎に、最良のコンフィデンスレベルを記録しなければな
らない。 各ノードの秘密レベルに各々のマッチング重量値1207を掛ける。 得られたすべての値を集計して、1つのコンフィデンス値1208にまとめる
。 その値をマッチング重量の1209の総計で割って、呼び手1210に戻す
。
ブジェクトのノードツリーの中には以下に列挙した3つのタイプのコンポーネン
トノードがある。: 1) サブコンポーネントノードを含むノード; 2) ノードツリーの脚の近くにあるレベルの低いマッチングコンポーネン
トおよび 3) レベルの低いマッチングコンポーネントの中に含まれ、簡単なレギュ
ラー表現用語を表すノード。 (より詳細が知りたい場合、文法ファイルの説明を
参照されたい。) これらのノードはマッチングプロセスの中では使用されない
。
トノードは含まれない。 ノード 1304, 1305, 1306, 1307, 1308, 1309, 1315,
1316, 1317 および 1318 はレベルの低いマッチングノードである。 ノード 1
309, 1310, 1311, 1312, 1319, 1320 および1321は簡単なレギュラー表現を条件
とするものである。
を表す。 2番目の番号はそのノードの為のノードマッチング手順から得られ
た最良の結果である。 トップにある番号は第13図の中にあるノード参照ラベ
ルである。 「通り」コンポーネントの為のマッチングコンフィデンスを計算するには
、: 1304 1305 1306 1307 1308 (20*100) + (0*0) + (10*0) + (60*80) + (10*100) + 1316 1317 1318 (30*100) + (60*80) + (10*100) = 15400 (20 + 0 + 10 + 60 + 10 + 30 + 60 + 10 ) = 200 15400 / 200 = 77 %
には、我々は「通り」コンポーネントや「タウン」コンポーネントで使用したと
同じ手順を実行しなければならない。: 1302 1303 (60*77) + (40*100) + 1314 1315 (60*77) + (40*100) = 8620 60 + 40 + 60 + 40 = 100 17240 / 200 = 86.2%
。 90%より大きい値はマッチングが大変密であることを示す。 上記の手順はファジーロジック技法を適用して改良することができる。
ファジーロジック技法はこの分野に精通した人に良く知られているもので、これ
を知るに適した参考書が数多く入手できる。
る。 このルーチンの目的は実際のフリーフォーマットテキストと対応するすべ
てのサブコンポーネントを調整し、ノード交換後位置決めして、交換された新し
いサブストリングとサブツリーを正確にフィットさせることである。 古いサブ
ストリングと新しい交換サブストリングが同じ長さを持っているばあい、このサ
ブルーチンは提唱されない。
01から起動すると、現在のテキストバッファーが変更を受け入れるに十分なス
ペースを持っているか否かに関する査定がステップ1402でなされる。 これ
は(上に述べた)テキストオブジェクトのルートノードにあるフリースペース変数
を参照してなされる。 十分なスペースがない場合、 "Relocate Text Data" サ
ブルーチンが提唱1415されて、テキストオブジェクトの中にフリースペース
が新たに生成されるようになる。 このルーチンが成功しなかった場合、140
4、エラー条件が設定され、1415の手順が終焉させられて、呼び手1416
に戻される。 その他の場合、手順は1405で続行され、交換された古いサブ
ツリーのサイズから新しい交換サブツリーのサイズを引くことによって、余分な
スペースに対する要件が計算される。 ゼロまたは負の値はテキストオブジェ
クトが変更を受け入れるに十分なスペースを持っていることを示す。 テキスト
オブジェクトにもっとスペースが必要な場合1406、 "Relocate Text Object
"サブルーチンが提唱されて、フリースペースがテキストオブジェクトの中に新
たに生成される。 このルーチンの実行が不成功に終わった場合1408、 エ
ラー条件が設定1415されて、手順の実行が終焉し、呼び手1416に戻る。 上記のステップが成功裏に終わった場合、手順はステップ1409で続行され
、 古いサブストリング805と新しい交換サブストリング807の間の差だけ
第8図にある"after" ストリング806側にシフトする。 交換ノード1410
の後に位置するコンポーネントを参照する各ノードの為に, この差をノードの起
動変数1411に加えなければならない。 サブコンポーネント1412として
交換ノードを持つ各ノードの為に、ノードの長さ変数1413に差を加算しなけ
ればならない。 テキストオブジェクトのフリースペースから差1414を引く
ことによって、これを調整して呼び手1416に戻さなければならない。
トテキストを要求の改良を収容するに十分なスペースに移すよう提唱するもので
ある。 このオペレーションを実行するこのルーチンの能力はどこにテキストデ
ータが記憶されたかによって決まる。 通常、アドレス情報の如きフリーフォー
マットデータは長さが決められているデータベースのフィールドに記憶され、移
転させることはできない。 この場合、このルーチンによって、エラー条件が設
定されて呼び手に戻される。 しかし、テキストデータが非永続性オブジェクト
としてコンピューターメモリーの如き移動可能な倉庫に記憶されるかオブジェク
ト指向のデータベースを使用して記憶される場合には、この手順によって、テキ
ストデータは移転させられ、そのデータの新しい住所と一緒に呼び手に戻される
。
トを要求の改良を収容するに十分なスペースに移すよう提唱するものである。 このオペレーションを実行するこのルーチンの能力はこの発明を実施する方法
によって決まる。 テキストオブジェクトが非永続性オブジェクトとしてコン
ピューターメモリーの如き移動可能な倉庫に記憶されるか、オブジェクト指向の
データベースを使用して記憶される場合には、この手順によって、テキストデー
タは移転させられ、そのオブジェクトの新しい住所と一緒に呼び手に戻される。
いては、 Setrag Khoshafianが書いてWiley Press社が出版した書籍、「Object-
Oriented Databases」を参照されたい。
よって専ら使用される。 これによって、テキストオブジェクトインデックスを
アップデートし、これに質問をする重要な情報が提供される。 これによって、
テキストオブジェクトノードが帰納的に探索され、レベルの低いマッチングコン
ポーネントとしてフラグを付けた一切のノードのリストが戻される。 レベルの
低いマッチングコンポーネントの定義については、上記を参照されたい。 この
機能のアウトプットの例について、以下のテキスト・オブジェクト・インデック
スの説明を参照されたい。
スのテキストオブジェクトを生成させることができるようになる。 異なったテ
キストオブジェクトは異なった属性タイプの識別子を持つことができるが、各属
性のタイプ毎に独立したフィールドを持つ複雑なデータベース構造を生成させる
必要はない。 フリーフォーマットテキストは基本的に、フリーフォーマットデ
ータの上で通常データベースオペレーションを行う為に要求される一切の施設を
提供する付随テキストオブジェクトと一緒に、そのまま記憶される。 これによ
って、コンピューターを人が行うと殆ど同じ方法で情報を処理できるようにされ
る。
技法やフリーフォーマットデータの試験によって生成される。 当該言語処理技
法は大型で複雑なソフトウェアシステムが適用されているデータベースの清掃と
洗浄に適用されてきた。 従来技術の各ケースでは、自然言語処理は、データを
分析して、新しいデータベースフィールドの創成を可能にする目的に適用されて
きた。 フリーフォーマットデータをそのまま維持し、前述のテキストオブジェ
クトを創成させるアイデアは全体的に新しい概念のものである。本発明では、フ
リーフォーマットテキストの各アイテムを処理して、テキストオブジェクトを生
成させることには先ず最初に、フリーフォ−フォーマットテキストをレギュラー
表現分析装置に読み取らせ、そのテキストのアイテム(例えば、ワード, ナンバ
ー, コンマ等)をこれらに付随する属性タイプ識別子を使って、象徴の中にグル
ープ化するレキシコン分析学が関与している。 各象徴は適用すべき他の属性タ
イプ識別子(例えば、通りのタイプ、状態等)の為に辞書を使ってチェックされる
。
トデータの象徴の各々のポジションも分析されて、属性タイプ識別子が提供され
るようになる。 例えば、第5図の中では、例の"ピット"は辞書にはない只の言
葉である。よって多分固有名詞であると判断される。 本発明では、フリーフォ
ーマットデータの他の要素に関連するそのポジションを分析することによって、
それは<通りの名称>であると暗示することができるようになる。 よって、"ピ
ット通り12"を象徴の相対ポジションから<通り>と分類することができるよう
になる。
105を生成することである。 この機能は下に説明する通りである。 ドメイ
ンオブジェクトが実施する他の機能は、属性タイプ表を維持することに関連して
いる。 この表には、そのドメインの為に定義された一切の属性タイプが含まれ
ている。
たものである。 それはシンボル表(<通りの名称>の場合、これはシンボル(属
性タイプ識別子と同等である点に注意)を含むルックアップ表1502と(文法
適用の為の規則を含む)パース表1504からなっている。 それはまた、キャ
ラクター定義表1505、レギュラー表現分析装置1506および辞書1507
を含むレキシコン1503(NSW, VIC, SA)から構成されている。 (後で述べる)
改良富田パーサーでは、これらのパーツのすべてがフリーフォーマットテキスト
を処理してテキストオブジェクトを生成させるのに使用されている。
ジェクトと108のオペレーションを概括して示すものである。 オペレーションでは、ドメインオブジェクト1605には属性タイプ16
08が使用されて、それぞれのパース規則の位置が決められ、それからフリーフ
ォーマットデータ1607がパースされて、テキストオブジェクト1606が生
成される。 パースはフリーフォーマットデータを分析する技法として既知のもので、
熟達した人は適したパースをアレンジすることができるだろう。
のパース技法は以下に列記するものがある。: ・トップダウンバックトラックパーサー ・ボトムアップトラックパーサー ・トップダウンチャートパーサー ・ボトムアップチャートパーサー ・増強トランジションネットワークパーサー ・バックトラック付きシフトレデュースパーサー ・富田のグラフ・スタックシフト・レデジュースパーサー・発明の
最良な実施に富田のグラフ・スタック・シフト・レデュースパーサーを選択する
主な理由は以下の通りである: ・アルゴリズムの詳細な記述が容易に得られる。 ・アルゴリズムが曖昧なテキストデータを非常に良く処理する。 ・結果として得られるデータの構造が曖昧なテキストデータを非常
に効率的な形で表現する。 パースプロセスの構造とオペレーションはTomita, M.が書きKluwerによっ
て1986年に発表された論文"Efficient Parsing for Natural Language"に説
明されている。 この記述の総括コピーを本仕様書の付録にも掲載した。
がテキストオブジェクトには要求される。 これらの強化策によって、テキスト
オブジェクトが仮想データ・フィールドを提供できるようになる。 本発明の為富田のグラフ・スタック・シフト・レデュースパーサーに施し
た改良は以下の通りである。: ・レキコンアナライザーから戻された象徴とパース表にある規則に
パース優先順位を付与した。 これらの優先順位を集計して、最適なコンポーネ
ントノードツリーを与えられたフィリーフォーマットテキストの為に取得した。 これらの優先順位をすべてのインプット文法ファイル1603に規定した。(
第16図) ・シンタックスツリーのコンポーネントノードを見えるものと見え
ないものに分類した。 <ワード> の如きレベルの低いレギュラーな表現を見え
ないものに分類した。 ・すべてのコンポーネントノードにマッチ重量を割り当てた。これ
らの値を文法データに規定して2つのフリーフォーマットテキストをマッチさせ
る時、コンポーネントの各々の相対的重要性を査定するのに使用するようにした
。
オブジェクト108のオペレーションを概括して付与するものである。 この手順を実行すると、フリーフォーマットテキストストリング1607
と属性タイプ識別子1608が取り込まれ、テキストオブジェクト1606が創
成される。 1.属性タイプ識別子1608を使用して、シンボル表1502(第
15図)を調べて対応するパース表を取得する。 2.パーサーを呼び出して、富田のブックの2.4節に定義されている"
shared parse forest"を創らせる。"shared parse forest"は、或る構造の中に
ある曖昧なパースを表示するのに使用する。 これはツリーに共通サブツリーが
分与されることができるようにして実行される。 3.各ノードのすべてのサブコンポーネントノードの一切のパース優
先順位を帰納的に累積させる。 4.前のステップでの値に基づき、最良のパースツリーを選択する。 5.選択したパースツリーを使ってテキストオブジェクトを新規に生
成させる。 6.パースツリーを帰納的に探索して、場所をつきとめ、それに、例
えばマッチングレベルの低いコンポーネントの如きフラグを付ける。 (定義に
ついては、上を参照されたい。) テキストオブジェクトの簡単な例については、第3図参照。
構築するプロセス1604用のインプットファイルには、以下が含まれている。
するものである。 使用の範囲には典型的に以下が含まれる。: アルファベッ
ト、数字, 句読点, スペース。 これは以下に述べるテキストストリングマッチ
ングを実行するに必要なすべての情報も規定する。 発明を最良な状態で実施するには、このファイルには、キャラクターあた
り1つの記録を含め、各々の記録には以下を含める。: ・問題のキャラクター ・キャラクターのタイプ(アルファベト, 数字等) ・ケース毎のベースキャラクターおよび発音記号へのマッチング (例えば、"a", "A", "a", "A" -> "A" ) ・キャラクターの重要性を示すフラグ (例えば、母音は重要でな
いとみなす。) ・標準国際訳字の為の複数のキャラクター (サンプル表について
は、第17図参照) このファイルによって、いかなる組み合わせ(例えば "PH" -> "F")が発音
学的表示に翻訳されるかも定義される。 音声学は既知の技術で、これに熟達し
た人は適切な翻訳表をアレンジすることができる。
ている。 これらの象徴は文法に単語なる用語で表されている。 ・ナンバーは1つまたはそれ以上の数値キャラクターによって構成
されている。 文法では、"nbr"なる用語で明示されている。 レギュラー表現定義の構造は基本状態変遷表である。 この技法は、コン
ピューター科学の世界で有名なものである。 その実際的サンプルを第18図に
示す。
ブジェクトの為に可能なすべてのツリー構造を定義することである。 文法ファイルは"A -> B1 B2 B3 ..."の形態を持つ数多くの文法規則から
なっている。文法規則はLHSシンボル<A>やゼロ、1または多くのRHSシンボル<Bn >からなっている。 The LHSシンボル<A>はコンポーネントタイプの名称でRHSシ
ンボル<Bn>はサブコンポーネントを定義するものである。RHSシンボル<Bn>は以
下のいずれか1つであることができる。: ・他のコンポーネントタイプ名称 ・A 字義 (引用部に同封) ・リザーブ語 リザーブ語は以下の単純なレギュラー表現用語を表す。: ・"word":1つまたはそれ以上のアルファベットのキャラクター ・"nbr" - 1つまたはそれ以上の数値キャラクター ・"A" - 1つのアルファベットキャラクター ・"9" - 1つの数値キャラクター 更に, 各属性タイプ(例えば、LHSシンボル)には、マッチ重量調整を割り
当てることが出来る。 これはデフォルトマッチ重量を変えるのに使用する。
マッチ重量はテキストオブジェクトを比較する時、マッチ・コンフィデンスの計
算に於いて、サブコンポーネントの重要さを示すのに使用する。 以上に加え、各文法規則には、パース優先順位を付与することができる。 これは2つまたはそれ以上の曖昧な構造が得られた時、テキストオブジェクト
の構築に於いて最良な構造を選択するのを支援するのに使用される。 最も低い階層にある規則にあるすべての枝や文法で定義された属性タイプ
の名称は字義を持つか可逆語で終わるものでなければならない。 簡単な例を第
19図に示す。
チャートを提供するものである。 2001を始めると、ステップ2002でキ
ャラクター定義データがメモリーにロードされ、それから、ステップ2003で
レギュラー表現定義がロードされる。 文法定義データを読み込むことによって
、処理が続行され、文法2004の中にある各規則の為に、一時的規則表210
2の中に新しい規則を創成することによって、一時的規則表2005が処理され
る。 それがすでに存在しなくなっている場合には、規則のLHSシンボルを使用し
てシンボル表の中に新しいシンボル/コンポーネントタイプを創成させ、その後
、規則のRHSの上にある各シンボル(ステップ2104)の為に、それが字義語2
105であるなら、辞書2106にそれを追記し、もしそれが、"ワード"または
"ナンバー"2170の如き認められたレギュラー表現語である場合には、何もせ
ず2108、その他の場合に於いては それは属性/シンボルであり、ステップ2
109で既に存在していな時には、それはシンボル表に新しいシンボル/属性タ
イプとして加えられる。 すべての文法規則の処理が終わった後、ステップ2
006では、シンボル表に加えられた各シンボル/属性タイプが定義されて、例
えば、少なくとも1回文法規則のLHS上に現れたか否かをチェックする(ステ
ップ2007)ことによって、処理は続行される。 いずれかが未定義のシンボ
ル/属性タイプである場合にはステップ2011に於いて、エラー条件が設定さ
れて、手順が終焉し、呼び手2012に戻される。 その他の場合、処理はステ
ップ2008に於いて続行される。 ステップ2009に於いて、シンボル表に
加えられた各シンボル/属性タイプ毎に、パース表が再び創成され、この新しい
パース表に対する参照情報が対応するシンボル表の入口に記録される。 要求さ
れたすべてのパース表が創成され終わった後、手順は解消されて呼び手2102
に戻る。
ース表は言語のプログラミングの為に最初開発されたものである。 LRパース
表構築の為のアルゴリズムはAho A.V.とUllman,J.D.が書いて1977年にAddis
on Wesley社によって発表された論文"Principles of Compiler Design" に見る
ことができる。 富田はこれらの技術を、表への各入れ込みに1つ以上のアクシ
ョンを要することがある点で決定性を欠くパース表を作成することによって自然
言語処理に応用した。 ドメインオブジェクト1605はメモリーに記憶するか、フリーフォーマ
ットデータの記録の上にロードして運転することができる点に注目されたい。
ブジェクトとそれらに付随するフリーフォーマットテキストの仮想データ・フィ
ールドの上で通常データベースオペレーションを遂行する手段として利用される
。 テキストオブジェクトインデックスの基本概念は、John R. Andersonが書
き1973年にWiley社から出版された"Human Associative Memory"と題する書
籍にある概念と同等なものである。 この作品は文章の中にある名詞が指定され
たオブジェクトのデータベースが参照するのにいかに使用され、その後、これら
のオブジェクトの間にある関係リンクが元の文章に包含された関係にいかによく
マッチするかを述べたものである。 これらの関係は"アクター-オブジェクト-
アクション"モデルに従う。
中に含まれているこの方法とは異なっている。 1) フリーフォーマットテキス
トの成分は分類され、インデックスの参照に使用される。 (名詞だけに限定さ
れない。) 2) オブジェクトとオブジェクトの間にはリンク関係はない。 別な観点からテキストオブジェクトインデックスを見てみると、テキスト
オブジェクトインデックスは無限の寸法を持つアレーであると見なすことができ
、ここでは、各寸法が上に述べたマッチングレベルの低い属性タイプの1つであ
る。 フリーフォーマットテキストストリングから創成されたテキストオブジェ
クトはテキストオブジェクトインデックスを問いただすのに使用されるマッチン
グレベルの低いコンポーネントを提供する。 これによって、供給されたコンポ
ーネントの交差点に位置する他のテキストオブジェクトに対する一切の参照情報
は戻される。
技法を適用することによって提供することができる。 ファジーロジック技法は
この種の技術に熟達した者たちの間で有名なもので、これに関して適当な参考書
が数多く入手できる。
フィールドを持つ3つの欄である。: ・属性タイプ識別子 ・代表的値キー ・ユーザー支給記録識別子 単純なこの構造にすると、テキストオブジェクトが各々のコンピューター
の上で入手可能なデータベース技術を使用して、テキストオブジェクトインデッ
クスを実行され得るようになる。
ストオブジェクトインデックスの背景をなす基本的アイデアは一切のマッチング
フリーフォーマットテキストに同じレベルの低いマッチングレベルを持たせるこ
とである。 例えば、以下の記録で、テキストオブジェクトにユーザーの参照用
に123を追加したと仮定すると、
000" 各テキストオブジェクトのマッチングレベルの低い属性を取得した後, 以下
のエントリーをインデックスに加える。: <ユニット番号> "12" 123 <通りの番号> "34" 123 <通りの名称> "ピット" 123 <通りのタイプ> "ST" 123 <タウンの名称> "シドニー市" 123 <州> "ニューサウスウェールス" 123 <郵便番号> "2000" 123
ェックされる。 "ニューウェールス州シドニー市ピット通り12/34" このインプットの為に、テキストオブジェクトを創成しレベルの低いマッ
チング属性を生成させた後、: <ユニット番号> "12" <通り番号> "34" <通りの名称> "ピット" <通りのタイプ> "通り" <タウンの名称> "シドニー市" <州> "ニューサウスウェールス"
トリーに対して交差分析を実行すると、この節の始めに規定した記録が得られる
。
セットを生成させた後: <通りの名称> "ピット" <通りのタイプ> "通り" 上記の属性タイプ識別子と値を使って複製したすべてのインデックスエン
トリーに対して交差分析を再び実行すると、この節の始めに規定した記録を含む
記録の正しいサブセットが得られる。
うと、キーワードサーチに使用されるすべての技法が属性タイプの各サブセット
に適用できるようになる。 キーワードサーチ技法に関する詳細情報については
、Gerald Salton が発表または出版した数多くの書籍や雑誌記事を参照されたい
。
エントリーを戻す条件を持つインデックス上で探索を行うことを回避すること。 ・共通なミススペルを許す複数の代表値キーの使用。 これは大抵
、音声を付けたオリジナルな値で、2重の制約を除去してなるものである。 ・元の値を複数の音声表示になるようエンコードする1個またはそ
れ以上の代表値キーの使用。 ・元の値を国際標準音訳表示になるようエンコードする代表値キー
の使用。 (ギリシャ語および日本語カタカナ音訳表の例については、第17図参
照) ・元の値を同義語辞書でチェックして、同義語をすべて含むセット
を代表する値を得ること。
供されうる。: テキストオブジェクトインデックスのインターフェースはSQLの標準コ
マンドを反映するようデザインされている。 SQLはリレーショナルデータベ
ースの標準質問言語で、コンピューター産業の中で有名なものである。
ックスに要求されたすべての変更を施して、同等なフリーフォーマットテキスト
またはそこのサブコンポーネントを使用して、それぞれのテキストオブジェクト
リファレンスが位置決めされうるようにするものである。 このオペレーションによって要求されるステップは: 1.各テキストオブジェクトの"Get Key" 機能を呼び出して、マッチ
ングレベルの低いそのコンポーネントの一切を取得する。 2.レベルの低い各マッチングコンポーネントの為に、テキストイン
デックスの3つの欄にエントリーを追加する。 3.現在のコンピューターシステムになされた技術的配慮の結果に基
づいて、各テキストオブジェクトを随意に記憶させる。
リーフォーマットテキスト(通常、システムユーザーが供給した記録識別子であ
る)に一切のリファレンスが戻される。 例: "ボックス ロード"を含む一切の記
録の位置を決める。 このオペレーションを以下のステップを実行して進める: 1.質問インプットデータからテキストオブジェクトを建造する。 2.テキストオブジェクトの"Get Keys" 機能を提唱して、マッチ ングレベルの低いそのコンポーネントをすべて含む表を取得する。 3.属性タイプ識別子とコンポーネントノードの各代表値を使用して
、共通低レベルマッチングアイテムを含む一切のリファレンスを再現する。 4.前のステップから戻されたリファレンスの上で交差分析を実施し
て、質問データの重要な低レベルマッチング要素をすべて含むフリーフォーマッ
トテキストを選択する。 5.元のテキストオブジェクトを取得する。 6.各々の上でテキストオブジェクト比較を実施して、コンフィデン
スを取得する。 7.コンフィデンスに従ってソーテングを行う。 8.結果を呼び手に戻す。
、このキーを使って一切の記録を削除するものである。
に述べた挿入オペレーションによって新しいエントリーを再挿入することによっ
て、改良されたテキストオブジェクトをアップデートするものである。
に使用される技法はコンピューター産業の中で有名なものでる。 どんなテキス
トストリングマッチングが通常関与するかをこの節で速やかに概括する。 典型的なマッチング手順で、以下のステップを実行することができる。: 1.ケースが低いか高いかに関わりなく、正確なチャラクターマッチ
をチェックする。 2.発音と2重制約を除去することによって、普通のスペルミスをチ
ェックし、それからその結果を比較する。 3.キャラクターの削除、挿入並びに転移を許す比較機能を実施する
ことによって、スペルミスをチェックする。 4.標準国際訳字との同等性をチェックする。 訳字表のサンプルに
関して、第17図参照。 5.ストリングを標準発音表示に翻訳した後、発音上の同等性をチェ
ックする。
トストリングマッチングを実施する。 上の手順のステップ1,2,4および5で
使用する値はストリング比較を行う度かテキストオブジェクトが創成されて、各
々のコンポーネントノードに記憶された時に発生させることができる。 これら
の値は上に述べたテキストインデックスの中で、代表値キーとしても使用するこ
とができる。
で外国語で書かれたフリーフォーマットデータを比較することができるようにな
る。 発音値は漢字シンボル用に記憶させることができる。これを漢字と漢字以
外の他のフリーフォーマットデータの要素と比較するのに使用することができる
。 言い換えると、この特徴は外国語で書かれたフリーフォーマットデータを処
理可能にする。 第17図と前の説明参照。
のように実行され得るかを示す例を付与するものである。 SQLステートメン
トの説明は以下の通りである。: 1.合衆国アドレスと呼ばれるドメインを創成する。 2.それを(キャラクター定義、上に述べたレギュラー表現定義およ
び文法定義からなる)言語定義を使って初期化する。 3.アドレスとよばれるテキストオブジェクトクラスを創成する。 4.USアドレスに対するそのドメインとアドレスに対するそのタイプ
を設定する。(タイプの名称は文法の中に定義しなければならない。) 5."ホームアドレス"と呼ばれる"アドレス"テキストオブジェクトで
ある要素の1つを持つ"パーソン"と呼ばれるデータベース表を創成する。 6.記録を表の中に挿入する。 7.特定アドレスを持つ一切の記録を"パーソン"表の中から選択する
。 8."カリフォルニア"にマッチする値を持つサブコンポーネントであ
る"State"を含む"ホームアドレス"欄にデータを持つ"パーソン"表の中にあるす
べての記録を選択する。 9.コンフィデンスレベルが80%より高い"キャシー通り"にマッチ
するサブコンポーネント"通り"を含む"ホームアドレス"欄の中にデータを持つ"
パーソン"表の中にあるすべての記録を選択する。
たインプットファイルを使って本発明を適用して、適したドメインを構築するこ
とによって分析することができる。 すべてのデータはすべてのフリーフォーマ
ットで作成されたすべての記述の為にテキストオブジェクトを生成するこの方法
で、コンピューターによって分析させることができる。 本発明によってフリーフォーマットデータを処理する為の処理ステップが
数多くあることは重視すべきである。 これらのステップの各々はシステムを初
期化し、その結果を記憶させてから実行することができ、これらは、それが必要
とされる時にだけ実行できる点にも注目しなければならない。 (実行しようとす
る度毎に質問がなされる。) これらのステップを総括すると以下の通りとなる
。: ・ドメインオブジェクトの構築 ・テキストオブジェクトノードツリーの構築 ・テキストオブジェクトエクストラ包含サブフィールドの構築 これに加え、複数のテキストオブジェクトからテキストオブジェクトイン
デックスを生成させるその他の関連ステップがある。
の実施例に示す通り、発明にはバリエーションが数多くあり、発明に対して膨大
な改良を施すことができる点をこの技術に熟達した人々は注目すべきである。
従って、本発明はすべての面で図示するようなもので、これらに限定すべきもの
でないと考えるべきものである。
である。 "quotes"の中のすべての記述はTomita, M.が著述し、1986年にKlu
wer社が出版した書籍であって、Efficient Parsing for Natural Languageなる
表題を有するものから引用したものである。
下のデータアイテムが含まれている。:整数を表すシンボル識別子(シンボルID)
、このシンボルが見えるか否かを示すブーレー変数; このシンボルが低いマッ
チイングコンポーネントであるか否かを示すブーレー変数、マッチ重量を代表す
る整数、呼応するパース表がどれであるかを規定する整数。この情報はすべて文
法定義データの中に規定されている。
する方法を規定する文法規則を表す。 規則には、以下のデータアイテムが含ま
れている。:規則識別子を表す整数 (規則id); LHSシンボルに対するポインター
: 規則のRHSを代表するナンバーを含むベクター: 1セットの包含サブフィー
ルド:規則のパース優先順位を規定する整数。この情報はすべて文法定義データ
の中に規定されている。
表す。 ルートノードは、インプットストリング全体を表す。 ノードは以下の
データアイテムからなっている。:コンポーネントの始めに対するポインター;
コンポーネントの終わりに対するポインター; シンボルID(コンポーネントタイ
プ)を示す整数 ; サブノードのアレー; マッチングに使用するオプションテキ
ストストリング; パース優先順位を示す整数; コンポーネントがユーザーに見え
るか否かを示すブーレー変数; このシンボルがレベルの低いマッチコンポーネン
トであるか否かを示すブーレー変数;マッチ重量を代表する整数。
法を示すのに使用される。 曖昧なテキストストリングの場合、各コンポーネン
トにはそのサブノードアレーの中に1つだけのサブノードしかない。 各サブノ
ードにはノードのアレーが含まれている。
するもの。象徴変数には、以下のデータアイテムが含まれている。:象徴の為の
シンボル識別子を代表する整数; 象徴のパース優先順位を規定する整数; マッチ
ングに使用スルテキストストリング; 1組の包含サブフィールド。 この情報は
すべて文法定義データの中に規定されている。
規定するもの。 これには以下のデータアイテムが含まれている。:サブフィー
ルドのシンボル識別子を代表する整数; サブフィールドの値を代表する整数。
例: TITLE "Mr" なるタイトルは SEX = "Male"なる包含サブフィールドをもって
いる。 この情報はすべて文法定義データの中に規定されている。
るパースアルゴリズムを使用する。 当該LRパース表は既存の方法で取得する
ことができる。 ...我々のパーサーに要求される唯一の改良は、表の各エントリ
ーは単一のアクションではなく、1組のアクションでなければならない。 矛盾
が生じた場合、即ち複数のアクションが表の1つのエントリーの中に記憶されな
ければならない時,表の従来の構築者は、停止させるか、エラーを繰り返すか、
若しくは、たった1つの随意に選択されたアクションを記憶して警告を付与する
。 我々の表構築者はこれらのすべてを1組のアクションとして記憶する。 ア
ルゴリズムは、Aho, A.V.と Ullman, J.D. が書き、1977年にAddison Wesle
y社が出版したPrinciples of Compiler Designと題する書籍に掲載されている。
このアルゴリズムは 見えることを示すフラグがつけられたすべての文法シンボ
ルの為のパース表を創成させる目的で適用される。注: 見えるシンボルは以下の
2つの方法で使用される。: 1) フィリーフォーマットテキストストリングを表
す。 2) 質問オペレーションに対するインプットパラメーターであるフリーフ
ォーマットテキストストリングを表す。
かれたラベルの付いた僅か1枚のvertex 'v0'を持っている。 特別 バーテック
ス 'v0'はグラフスタックの底と呼ばれている。 'v0' からの距離が正数(2n
、但しnは正の整数)であるすべてのバーテックスは状態バーテックスと呼ばれ
、これには、状態ナンバーの付いたラベルが貼られる。 'v0' からの距離が奇数
であるすべてのバーテックスは シンボルバーテックスと呼ばれる、文法シンボ
ルの付いたラベルが貼られる。 ... また、状態バーテックスは通常、変数''v'
, 'w' および 'u'によって代表されるが、シンボルバーテックスは変数 'x', 'y
' および 'z'によって代表される。
タック(インプットストリングの中のI番目の象徴)の中にある1組のベルテック
スである。U[i]は象徴を最も新しいものシフトさせる。すると、U[i] は1組の
トップベルテックスとなる。
ベルテックス。 ... 標準LRパースでは、その要素のナンバー常に1より大きく
ない。
ple <v,x,p>、但し 'v' ∈ U[i] (縮小すべきパスの起点ベルテックス) x ∈ SU
CCESSORS 但し(v)は直接 'v'にリンク) 並びに 'p'は生産(文法規則). 縮小表
'R'の中に <v,x,p> を存在させるとことは、適用すべき''reduce p' と一緒に
、'reduce p' を edge <v,x>."で起動するすべてのパスに適用することを意味す
る。
、その要素のナンバー常に1より大きくない。各要素は 2-tuple <v,s> 但し '
v' ∈ U[i]シフトすべきベルテックス) 。s は状態ナンバー。 The existence o
f <v,s> in 'Q'の中に of <v,s> が存在することは、 'shift s'を'v'の上に適
用すべきあることを意味する。 シフトエントリーに施す改良は、象徴変数の組
を追加することである。その中身については、以下を参照。
ことができる富田のパーサーに対する改良である。この表の中にある各エントリ
ーには 、シンボルid、パース優先順位、マッチングストリングおよびサブフィ
ールド定義のすべての番号が含まれている。
を可能にするシステムの構造を説明するダイアグラムである。
たことによって生成されたサンプルテキストオブジェクトに関して構造をより詳
細に示したものである。
クトから取得する方法を説明したものである。;
る方法を説明したものである。
たものである。
良例を提供するものであり、第9図は改良前のテキストオブジェクトを示す。
たフローチャートである。
発明になるテキストオブジェクトを比較する方法を説明する目的のものを示す。
フローチャートである。
アグラムである。
のである。
字訳表を示したものである。
である。
ックのフローチャートを提供するものである。
ックのフローチャートを提供するものである。
に付けたサンプルセッションを説明したものである。
Claims (53)
- 【請求項1】 要素の内容と要素の互いの関係を調べることによって、フリー
フォーマットデータの要素にアクセスすることを可能にするポインター手段およ
びテキストオブジェクトおよびデータに関する意味論的情報および統語論的情報
に関連する質問に対する答えを提供する質問処理手段によってアクセス可能な追
加データを含むテキストオブジェクトのフォームで、データの要素を調べてその
データの属性を査定し、データに関する意味論的情報と統語論的情報(属性)を
査定し、および/またはデータにアクセスしてそのデータを操作するステップか
らなるコンピューターシステムに記憶されたフリーフォーマットデータを処理す
る方法。 - 【請求項2】 クレーム1に基づく方法であって、フリーフォーマットデータ
がデータベースのフリーフォーマットの中に記録として記憶されるもの。 - 【請求項3】 クレーム1またはクレーム2に基づく方法であって、データは
コンピュータシステムに始めて記憶されたように記憶され、他のアプリケーショ
ンによってこれにアクセスすることができるもの。 - 【請求項4】 前になされたクレームに基づく方法であって、テキストオブジ
ェクトは1つの属性を含み、当該属性がデータの要素の属性タイプを他と区別す
るタイプ識別子であるもの。 - 【請求項5】 前になされたクレームに基づく方法であって、テキストオブジ
ェクトがデータの要素のキャラクターの長さを示す値を含むもの。 - 【請求項6】 クレーム4またはクレーム5に基づく方法であって、要素が意
味論的階層の中で低いレベルのものであるかより高いレベルのもであるかを示す
値を含み、当該方法によって処理された他のデータにマッチさせる時、当該要素
がマッチングの目的に使用できるものであるもの。 - 【請求項7】 前になされたクレームに基づく方法であって、データの要素の
為のマッチ重量値を含むテキストオブジェクトが他のフリーフォーマットデータ
とマッチさせる時、その要素の重要性を査定するのに使用することができるもの
であるもの。 - 【請求項8】 前になされたクレームに基づく方法であって、テキストオブジ
ェクトがフリーフォーマットデータの意味論的構造に準拠して配置された複数の
コンポーネントノード, フリーフォーマットデータの意味論的構造に呼応して階
層の中に配置されるコンポーネントノードおよびフリーフォーマットデータの呼
応する要素に関連する追加データを含む各コンポーネントノードからなるもの。 - 【請求項9】 前になされたクレームに基づく方法であって、フリーフォーマ
ットデータの要素を現在の方法に準拠して処理された他のフリーフォーマットデ
ータの要素と比較する為のマッチング値を生成する更なるステップからなるもの
。 - 【請求項10】 クレーム9に基づく方法であって、マッチング値がフリーフ
ォーマットデータの要素を発音学的に比較する為の発音学的値であるもの。 - 【請求項11】 前になされたクレームに基づく方法であって、テキストオブ
ジェクトがフリーフォーマットデータから暗示された情報に関連する包含データ
を含むものであるもの。 - 【請求項12】 前になされたクレームに基づく方法であって,複数のフリー
フォーマットデータ記録が処理され、各フリーフォーマットデータ記録に付随す
るテキストオブジェクトが生成されるもの。 - 【請求項13】 クレーム12に基づく方法であって、テキストオブジェクト
がコンピューターに記憶され、これが質問処理手段を経由して付随するフリーフ
ォーマットデータ記録の上にある質問に対して得られるもの。 - 【請求項14】 クレーム12に基づく方法であって、各データ記録の要素の
為の属性タイプ識別子と各データ記録に対するポインターを含むテキストオブジ
ェクトインデックスを生成する更なるステップからなるもので、インデックスが
データに関する意味論的情報と統語論的情報に関連する質問によって質問されて
も、インデックスを経由してアクセスされてもよいものであるもの。 - 【請求項15】 クレーム14に基づく方法であって、テキストオブジェクト
インデックスの中にある各エントリーが代表的な値のキーを含み、当該エントリ
ーが属性-識別子に付随する要素の特徴を代表する値を付与するものであるもの
。 - 【請求項16】 前になされたクレームに基づく方法であって, ドメイン定義
データファイルから、文法規則に準拠してフリーフォーマットデータを解剖する
ことによって試験プロセスを実行するようアレンジされたドメインオブジェクト
を構築するドメイン構築プロセスを実行する更なるステップからなるもの。 - 【請求項17】 クレーム16に基づく方法であって、ドメイン定義データフ
ァイルがキャラクターで意義データ、レギュラー表現定義データおよび文法デー
タを含むものであるもの。 - 【請求項18】 前になされたクレームに基づく方法であって, フリーフォー
マットデータが郵便アドレスデータであるもの。 - 【請求項19】 前になされたクレームに基づく方法であって, 質問処理手段
が追加データを経由してデータの上で通常データベースオペレーションを行うこ
とができるものであるもの。 - 【請求項20】 コンピューターシステム、要素の内容と要素の文脈上の相互
関係を調べてデータに関する意味論的情報および統語論的情報(属性)を査定す
ることによってデータの要素を調べる為の手段を含む装置、この情報と関連する
追加データをフリーフォーマットデータの要素にアクセスを可能にするポインタ
ー手段を含むテキストオブジェクトのフォームで生成する為の手段および追加デ
ータにアクセスしてデータに関する意味論的情報および統語的情報に関連する質
問に対する答えを提供するおよび/またはデータにアクセスしてデータを操作す
るようアレンジされた質問処理手段に記憶されたフリーフォーマットデータを処
理する処理システム。 - 【請求項21】 クレーム20に基づく処理システムであって、フリーフォー
マットデータが、データベースのフリーフォーマットフィールドに記録として記
憶されるもの。 - 【請求項22】 クレーム20またはクレーム21に基づく処理システムであ
って、データの記憶が調べる手段によって影響を被らないもの。 - 【請求項23】 20から22までのクレームのいずれか1つに基づく処理シ
ステムであって、テキストオブジェクトがデータの要素の属性タイプを他と区別
するタイプ識別子である1つの属性を含むもの。 - 【請求項24】 20から23までのクレームのいずれか1つに基づく処理シ
ステムであって、テキストオブジェクトがデータの要素のキャラクターの長さを
示す値を含むもの。 - 【請求項25】 クレーム23またはクレーム24に基づく処理システムであ
って、属性 − 要素のタイプがシンタックスの階層の中で低いレベルのものであ
るか高いレベルのものであるかを示す値を含み、当該値がこのシステムに従って
処理された他のフリーフォーマットデータとマッチさせる時のマッチング目的に
使用できるものであるもの。 - 【請求項26】 20から25までのクレームのいずれか1つに基づく処理シ
ステムであって、テキストオブジェクトがデータの要素の為のマッチ重量値を含
み、これが他のフリーフォーマットデータとのマッチングに於いて要素の重要さ
を査定するのに使用可能であるもの。 - 【請求項27】 20から26までのクレームのいずれか1つに基づく処理シ
ステムであって、テキストオブジェクトがフリーフォーマットの訳字構造に従っ
て配置された複数のコンポーネントからなり、コンポーネントノードがフリーフ
ォーマットデータの訳字学的構造に対応する階層およびフリーフォーマットデー
タの対応する要素に関連する追加データを含む各コンポーネントの中に配置され
ているものであるもの。 - 【請求項28】 20から27までのクレームのいずれか1つに基づく処理シ
ステムであって、テキストオブジェクトがフリーフォーマットデータの要素を処
理システムによって処理された他のフリーフォーマットデータの要素と比較する
為のマッチング値を生成させることを意味するものであるもの。 - 【請求項29】 20から27までのクレームのいずれか1つに基づく処理
システムであって、マッチング値がフリーフォーマットデータを発音学的に比較
する為の発音学的値であるもの。 - 【請求項30】 20から29までのクレームのいずれか1つに基づく処理
システムであって、テキストオブジェクトがフリーフォーマトデータから暗示さ
れた情報に関連して包含されたデータを含むもの。 - 【請求項31】 20から30までのクレームのいずれか1つに基づく処理
システムであって、複数のフリーフォーマットデータ記録を処理し、各フリーフ
ォーマットデータ記録に付随するテキストオブジェクトを作成するようアレンジ
されたものであるもの。 - 【請求項32】 クレーム31に基づく処理システムであって、追加データ
を生成する為の手段が各データ記録の要素の為のタイプ識別子および各データ記
録に対するポインターからなる属性を含むテキストオブジェクトインデックスを
生成するようアレンジされているもので、質問処理手段がテキストオブジェクト
インデックスにアクセスして、データに関する意味論的情報おおび統語論的情報
(属性)データに関連する質問に対する答えを提供しおよび/またはデータにアク
セスしてそれを操作するようアレンジされているものであるもの。 - 【請求項33】 クレーム32に基づく処理システムであって、テキストオ
ブジェクトインデックスがこのシステムによって処理された他のフリーフォーマ
ットデータとのマッチングを確保する為のエントリー用識別子である属性に付属
する要素の特徴を代表する値を付与するエントリーの為の代表的値キーを含むも
の。 - 【請求項34】 20から33までのクレームのいずれか1つに基づく処理
システムであって、文法規則に準拠してフリーフォーマットデータを解剖(パー
ジ)することによって、試験プロセスを遂行するようアレンジされたドメインオ
ブジェクトによって更に構成されてなるもの。 - 【請求項35】 クレーム34に基づく処理システムであって、ドメインオ
ブジェクトがドメイン定義ファイルからドメインを構築するプロセスによって生
成されるもの。 - 【請求項36】 クレーム35に基づく処理システムであって、更に、ドメ
イン構築プロセスを実行する為のドメインコンストラクターからなるもの。 - 【請求項37】 クレーム35またはクレーム36に基づく処理システムで
あって、ドメイン定義データファイルがキャラクター定義データ、レギュラー表
現定義データおよび文法データを含むものであるもの。 - 【請求項38】 20から37までのクレームのいずれか1つに基づく処理
システムであって、フリーフォーマットデータが郵便アドレスデータであるもの
。 - 【請求項39】 20から38までのクレームのいずれか1つに基づく処理
システムであって、質問処理手段が追加データを経由してデータの上で、通常デ
ータベースオペレーションを実行するようアレンジされものであるもの。 - 【請求項40】 コンピュータシステムに記憶された複数のフリーフォーマ
ットデータ記録を含むフリーフォーマットデータにアクセスすることを可能にす
る方法であって、各データ記録に関連するテキストオブジェクトの形の追加デー
タ、各フリーフォーマットデータ記録の要素にアクセスすることを可能にするポ
インター手段を含むテキストオブジェクト、各データ記録の為のデータに関する
意味論的情報おおび統語論的情報(属性)に関連する追加データ、データに関する
意味論的情報と統語論的情報に関連する質問に答えを提供する質問処理手段によ
ってアクセス可能な追加データをソーテングするステップおよび/またはデータ
にアクセスしてそのデータを操作するステップからなるもの。 - 【請求項41】 処理システムに記憶され、当該システムによってアクセス
可能な複数のフリーフォーマットデータ記録、各データ記録の為のデータに関す
る意味論的情報および統語論的情報(属性)に関連する追加データ、各データ記
録に付随するテキストオブジェクトの形のの追加データ、各フリーフォーマット
データ記録の要素にアクセス可能なポインター手段を含むテキストオブジェクト
および追加データにアクセスして、データに関する意味論的情報と統語論的情報
に関連する質問に対する答えを提供するようアレンジされたポイント手段お含む
テキストオブジェクトを含み、コンピュータシステムに記憶されたフリーフォー
マットデータにアクセスを可能にする処理システム。 - 【請求項42】 コンピューターシステムの中に記憶されている複数のフリー
フォーマットデータ記録を含むフリーフォーマットデータにアクセスすることを
可能にする方法であって, 各データ記録の各データに関する意味論的情報および
統語論的情報(属性)に関連する追加データをソートしおよび/またはデータにア
クセスしてデータを操作する段階からなり、当該追加データが属性-各データ記
録の要素の為の識別子と各データ記録に対するポインターを含むテキストオブジ
ェクトのフォームのものであり、テキストインデックスがデータに関する意味論
的情報と統語論的情報に関連する質問に答えを提供する質問処理手段によってア
クセス可能であるものであるもの。 - 【請求項43】 コンピューターシステムの中に記憶されている複数のフリー
フォーマットデータ記録を含むフリーフォーマットデータにアクセスすることを
可能にする処理システムであって、各データ記録の為フリーフォーマットデータ
に関する意味論的情報および統語論的情報(属性)に関連する追加データ、各デー
タ記録の為の属性タイプ識別子と各データ記録の各データに対するポンインター
を含むテキストオブジェクトの形を持つ追加データおよびデータに関する意味論
的情報と統語論的情報に関連する質問に答えを提供するおよび/またはデータに
アクセスしてデータを操作するようアレンジされた質問処理手段からなるもの。 - 【請求項44】 1から19までのクレームのいずれか1つの方法に準拠する
フリーフォーマットデータを評価する方法であって、データに関する意味論的情
報と統語論的情報に関連する質問に答えを提供するおよび/またはデータにアク
セスしてデータを操作する追加データを評価するステップによって構成してなる
もの。 - 【請求項45】 1から19までのクレームのいずれか1つの方法に準拠して
処理されたフリーフォーマットデータにアクセスすることを可能にする為の処理
システムであって、追加データにアクセスして、データに関する意味論的情報と
統語論的情報に関連する質問に答えを提供するおよび/またはデータにアクセス
してデータを操作するようアレンジされた質問処理手段を含めてなるもの。 - 【請求項46】 コンピューターに記憶されたフリーフォーマットデータを処
理する為の処理システムであって、データの要素やその要素の内容と文脈的相互
関係を調べてそのデータの属性を査定し、当該データに関する訳字論的情報とシ
ンタックス情報(属性)を査定する手段および当該情報を利用して、データに関す
る意味論的情報と統語論的情報に関連する質問に答えを提供しおよび/または当
該データにアクセスしてこれを操作する質問処理手段によって構成させてなるも
の。 - 【請求項47】 クレーム46に準拠した処理システムであって、試験手段は
、フリーフォーマットデータをコンピューターシステムに、当該手段に影響を付
与することなく記憶させたままに保つものであることを条件とするもの。 - 【請求項48】 コンピューターシステムに記憶されたフリーフォーマットデ
ータを処理する方法であって、以下によって構成させてなるもの, データの要素
やその要素の内容と文脈的相互関係を調べてそのデータの属性を査定し、当該デ
ータに関する訳字論的情報とシンタックス情報(属性)を査定し、当該情報を利用
して、データに関する訳字論的情報とシンタックス情報に関連する質問に答えを
提供しおよび/または当該データにアクセスしてこれを操作するステップによっ
て構成させてなるもの。 - 【請求項49】 クレーム48に準拠してフリーフォーマットデータを処理す
る方法であって、フリーフォーマットデータが試験プロセスによって影響されず
、最初に記憶されたと同じに、コンピューターシステムに記憶されたままに維持
されるこを条件とするもの。 - 【請求項50】 1から19までのクレーム9のいずれか1つの方法に基づき
コンピューターシステムに記憶されたフリーフォーマットデータを処理するコン
ピューターを管理する為のコンピューターの読めるメモリーのソーテングインス
トラクション。 - 【請求項51】 クレーム48の方法に基づきコンピューターシステムに記憶
されたフリーフォーマットデータを処理するコンピューターを管理する為のコン
ピューターの読めるメモリーのソーテングインストラクション。 - 【請求項52】 コンピューターシステムの中に記憶された複数のフリーフォ
ーマットデータの記録を処理する方法であって、要素の内容と要素の文脈上の相
互関係を調べて、各記録に関する意味論的情報および統語論的情報(属性)を査定
することによって、各記録の為にデータの要素を調べてそのデータの属性を査定
し、この情報と付随する要素にアクセス可能にする各記録に付随する仮想データ
・フィールドを生成するステップによって構成させてなるもので、各記録はその
記録に関する訳字論的情報とシンタックス情報にアクセス可能にする付随仮想デ
ータフィールドによって提供され、付随する要素にアクセスすることを条件とす
るもの。 - 【請求項53】 コンピューターシステムの中に記憶されたフリーフォーマッ
トデータの記録を処理する方法であって、要素の内容と要素の文脈上の相互関係
を調べて、各記録に関する意味論的情報および統語論的情報(属性)を査定するこ
とによって、データの要素を調べて当該データの属性を査定し、各記録に関する
訳字論的情報とシンタックス情報を査定する手段およびその記録に関する訳字論
的情報とシンタックス情報に並びに付随要素にアクセスを可能にする付随仮想デ
ータ・フィールドを生成させる手段によって構成させてなり、各記録は訳字論的
情報とシンタックス情報並びに付随要素へのアクセスを可能にする付随仮想デー
タフィールドを使って提供されることを条件とするもの。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/AU1998/000288 WO1998048360A1 (en) | 1997-04-22 | 1998-04-22 | Method and apparatus for processing free-format data |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002544616A true JP2002544616A (ja) | 2002-12-24 |
Family
ID=3764522
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000618713A Pending JP2002544616A (ja) | 1998-04-22 | 1998-04-22 | フリーフォーマットデータを処理する方法と装置 |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2002544616A (ja) |
| AU (1) | AU774729B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110334323A (zh) * | 2019-04-26 | 2019-10-15 | 网易(杭州)网络有限公司 | 翻译数据处理方法、装置、设备及计算机可读存储介质 |
| CN110287053B (zh) * | 2019-06-27 | 2022-11-04 | 四川新网银行股份有限公司 | 分布式系统异常统一处理的方法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5715449A (en) * | 1994-06-20 | 1998-02-03 | Oceania, Inc. | Method for generating structured medical text through user selection of displayed text and rules |
| US5734883A (en) * | 1995-04-27 | 1998-03-31 | Michael Umen & Co., Inc. | Drug document production system |
| EP0770243B1 (en) * | 1995-05-05 | 2003-07-16 | Apple Computer, Inc. | Method and apparatus for managing text objects |
-
1998
- 1998-04-22 AU AU70147/98A patent/AU774729B2/en not_active Ceased
- 1998-04-22 JP JP2000618713A patent/JP2002544616A/ja active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| AU774729B2 (en) | 2004-07-08 |
| AU7014798A (en) | 1998-11-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6272495B1 (en) | Method and apparatus for processing free-format data | |
| Alwaneen et al. | Arabic question answering system: a survey | |
| US12007939B1 (en) | Method and apparatus for determining search result demographics | |
| RU2488877C2 (ru) | Идентификация семантических взаимоотношений в косвенной речи | |
| RU2509350C2 (ru) | Способ семантической обработки естественного языка с использованием графического языка-посредника | |
| Habernal et al. | SWSNL: semantic web search using natural language | |
| CN105701253A (zh) | 中文自然语言问句语义化的知识库自动问答方法 | |
| US20100121630A1 (en) | Language processing systems and methods | |
| Kiyavitskaya et al. | Cerno: Light-weight tool support for semantic annotation of textual documents | |
| JP2012520528A (ja) | 自然言語テキストの自動的意味ラベリングのためのシステム及び方法 | |
| JPH0447364A (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
| JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
| Beckwith et al. | Implementing a lexical network | |
| CN111428031B (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
| Han et al. | Schema-free structured querying of DBpedia data | |
| Al-Safadi | Natural language processing for conceptual modeling | |
| US8229970B2 (en) | Efficient storage and retrieval of posting lists | |
| Yang et al. | Ontology-supported FAQ processing and ranking techniques | |
| CN113190692B (zh) | 一种知识图谱的自适应检索方法、系统及装置 | |
| Bais et al. | An Arabic natural language interface for querying relational databases based on natural language processing and graph theory methods | |
| Montgomery et al. | Towards a Natural Language Query Processing System | |
| JP2004133564A (ja) | 文書検索装置 | |
| JP2997469B2 (ja) | 自然言語理解方法および情報検索装置 | |
| JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| KR100376931B1 (ko) | 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050408 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081210 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20081217 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090316 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090401 |