JP3838904B2 - Dictionary device and natural language processing system - Google Patents
Dictionary device and natural language processing system Download PDFInfo
- Publication number
- JP3838904B2 JP3838904B2 JP2001357431A JP2001357431A JP3838904B2 JP 3838904 B2 JP3838904 B2 JP 3838904B2 JP 2001357431 A JP2001357431 A JP 2001357431A JP 2001357431 A JP2001357431 A JP 2001357431A JP 3838904 B2 JP3838904 B2 JP 3838904B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- user
- natural language
- language processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003058 natural language processing Methods 0.000 title claims description 32
- 238000013519 translation Methods 0.000 claims description 159
- 238000012545 processing Methods 0.000 claims description 50
- 230000008859 change Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 4
- 230000014616 translation Effects 0.000 description 158
- 238000000034 method Methods 0.000 description 43
- 230000008569 process Effects 0.000 description 36
- 230000005540 biological transmission Effects 0.000 description 15
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 12
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000010365 information processing Effects 0.000 description 6
- 229910052742 iron Inorganic materials 0.000 description 6
- 230000010354 integration Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
       【0001】
【発明の属する技術分野】
本発明は、辞書装置及び自然言語処理システムに関し、例えば、原言語を目的言語に翻訳する複数のユーザが利用する機械翻訳システム及びその機械翻訳システムの要素となる辞書装置に適用し得るものである。
【0002】
【従来の技術】
機械翻訳システムは、一般的には、基本的なシステム辞書と、ユーザが独自に登録するユーザ辞書とを有する。同一の機械翻訳システムを複数のユーザが利用する場合において、ユーザ毎にユーザ辞書を登録するようにすると、同一の用語を複数のユーザがそれぞれ独自に登録しなければならない。例えば、ほとんど全てのユーザが用いるような、新たに出現した新語に対しては、ほとんど全てのユーザが登録を行う。
【0003】
このような不都合を回避する従来技術として、公開平11−134339号公報に開示されたものがある。この公報は、機械翻訳システムを複数のユーザで共用する場合において、優先順位が上位のユーザ辞書から調べたり、登録更新時刻が最新の対訳をユーザ辞書から抽出したりすることによって、複数のユーザが作成したユーザ辞書を効率的に共用利用することができるシステムを開示している。
【0004】
【発明が解決しようとする課題】
上述した従来技術では、ユーザ辞書の優先順位を決定するために優先関係を指定する必要がある。優先関係とは、ユーザ辞書を所有するユーザ間の優先度であり、優先度の高いユーザが所有するユーザ辞書ほど、その信頼性が高いことを示すものである。
【0005】
しかし、各ユーザが所有するユーザ辞書の内容を比較して、ユーザ間に優先関係を指定するのは、各ユーザ辞書における対訳を確認して優劣を決定する労力と判断能力が必要である。また、登録数が多ければ、語によって優劣があるので、ユーザ間の順位付けは困難である。さらに、将来も優先関係が同じである保証はなく、優先関係を頻繁に見直さなければならない。
【0006】
また、上述した従来技術では、複数のユーザ辞書に原言語の単語がある場合には、その登録更新時刻が最新の対訳を抽出するが、たまたま誤って登録更新された場合を考慮すると、最新の対訳でも信頼性が高いとは限らない。そのため、質の高い翻訳結果を得るには、常に翻訳結果と複数のユーザ辞書をチェックしなければならない。
【0007】
本発明は、上記の課題に鑑みてなされたものであり、複数のユーザが、高品質な内容を維持する、ユーザ登録に係る辞書データを共有することによって、高品質な自然言語処理結果を得ることができる辞書装置及び自然言語処理システムを提供しようとしたものである。
【0008】
【課題を解決するための手段】
かかる課題を解決するため、第1の本発明は、複数のユーザが利用する自然言語処理システムに設けられる辞書装置において、カテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、任意の上記専門用語辞書又は上記一般用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段と、複数のユーザ辞書に共通の辞書データを関連付けられた上記専門用語辞書及び又は上記一般用語辞書に設定したり、ツリー構造で複数の下位の辞書に共通の辞書データを上位の辞書に設定したり、関連付けられた複数のユーザ辞書に共通な辞書データに基づき、その上記専門用語辞書に下位の専門用語辞書を設定したりなど、上記辞書及び又は上記辞書データを変更する辞書変更手段と、上記辞書変更手段による辞書及び又は辞書データの変更の履歴を記録する辞書履歴記録手段とを有することを特徴とする。
【0009】
また、第2の本発明の自然言語処理システムは、第1の本発明の辞書装置と、この辞書装置の格納内容を利用して自然言語処理を行う自然言語処理本体とを有する。
【0010】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による辞書装置及び自然言語処理システムを、機械翻訳システムに適用した第1の実施形態を図面を参照しながら詳述する。
【0011】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【0012】
図1において、第1の実施形態の機械翻訳システム100は、閲覧入力手段101、制御手段102、機械翻訳手段103、辞書管理手段104、辞書データベース105及び辞書履歴記録手段106を有する。
【0013】
なお、第1の実施形態の機械翻訳システム100は、所定の処理プログラムやデータを有する単一の情報処理装置(例えばパソコン)で構成されていても良く、また、複数の情報処理装置で構成されていても良い。後者としては、閲覧入力手段101をある情報処理装置(クライアント端末)に搭載し、その他の制御手段102、機械翻訳手段103、辞書管理手段104、辞書データベース105及び辞書履歴記録手段106を他の情報処理装置(サーバ)に搭載する例や、さらに、機械翻訳手段103も、さらに他の情報処理装置に搭載する例などを挙げることができる。また、閲覧入力手段101が複数あっても良く、機械翻訳手段103も複数あっても良い。
【0014】
閲覧入力手段101は、ユーザが翻訳依頼文書(原言語文書)を入力したり、その翻訳結果を閲覧したり、単語(原言語及び目的言語の対訳)をユーザ登録するための入力を行ったり、ユーザ登録内容を閲覧したり、操作ガイダンスメッセージを閲覧したりするものである。閲覧入力手段101における入力部は、キーボード、マウスなどの一般的な入力構成だけでなく、フレキシブルディスクなどから翻訳依頼文書を読み込んで入力させる場合には、そのドライブ構成なども該当する。閲覧入力手段101における閲覧部は、主としてディスプレイが該当するが、翻訳結果などを表示出力ではなく、印字出力するものであれば、プリンタも該当する。
【0015】
制御手段102は、閲覧入力手段101、機械翻訳手段103及び辞書管理手段104に接続され、どの文書を翻訳するかや、翻訳にどの辞書を使用するかなどの制御を行うものである。
【0016】
機械翻訳手段103は、制御手段102を経由して与えられた原言語の文書を目的言語の文書に翻訳して制御手段102に返信するものであり、この第1の実施形態の場合、既存のいずれの機械翻訳方法を利用しても良い。なお、機械翻訳手段103には、機械翻訳に必要な辞書データも制御手段102を経由して与えられるようになされている。
【0017】
辞書管理手段104は、辞書データベース105を収容しており、制御手段102の制御下で、ユーザ辞書の作成、辞書データの編集、専門用語辞書の作成、統合、分割、生成などを行う手段である。
【0018】
辞書履歴記録手段106は、辞書管理手段104に関連して設けられており、辞書や辞書データの登録更新時刻などの履歴を辞書データ毎に記録する手段である。
【0019】
辞書データベース105は、ユーザ辞書を分野毎に分類して収容している専門用語辞書のデータベースである。なお、辞書データベース105も、複数の情報処理装置に分散して構築されているものであっても良い。
【0020】
辞書データベース105は、図1に一例を示すような階層構造をなしている。すなわち、辞書データベース105に格納されている複数の辞書は、ツリー構造を有し、一般用語辞書をルートノードとし、その次の階層には、専門分野やジャンルを大分類した場合の専門用語辞書が設けられ、それより下位の階層には、上位の階層の専門分野やジャンルをさらに分類した場合の専門用語辞書が設けられ、終端ノードに至る枝数(階層の深さ)は一律ではなく、また、図2に示すように、各専門用語辞書Dmに関連付けてユーザ辞書Dm1〜DmNを設けられているものである。
【0021】
各ユーザは、任意の専門用語辞書の分野のユーザ辞書を作成し得る。このユーザ辞書の内容は、作成したユーザが翻訳依頼する場合だけでなく、その内容が関連付けている専門用語辞書に移行して登録された際には、他のユーザが翻訳依頼する場合にも使用される。上述した辞書管理手段104の機能により、翻訳の際には、その文書の分野の辞書、及び、その分野の上位階層に属する専門用語辞書が使用される。図1の階層構造の例であれば、コンピュータの分野の文書を翻訳する場合には、コンピュータ辞書、工学辞書、一般用語辞書が使用される。
【0022】
(A−2)第1の実施形態の動作
(A−2−1)ユーザ辞書登録
次に、ユーザがユーザ辞書に単語を登録する際の動作を、図3のフローチャートを参照しながら説明する。
【0023】
例えば、ユーザは閲覧入力手段101を用いて、単語のユーザ登録モードを指示する。このとき、制御手段102及び辞書管理手段103は、図3に示すユーザ辞書登録処理を開始し、まず、そのユーザが単語のユーザ登録を実行し得る者であるか否かを判別する(ステップS1)。なお、ユーザ登録し得るユーザ情報も、図示は省略しているが、辞書データベース105に格納しておく。
【0024】
そのユーザが単語のユーザ登録を実行し得る者でないと、制御手段102はその旨を返信して、ユーザ辞書登録処理を終了する(ステップS2)。
【0025】
一方、ユーザが単語のユーザ登録を実行し得る者であると、制御手段102は、辞書管理手段104から一般用語辞書及び専門用語辞書のツリー構造を取り出し、そのツリー構造の情報を含むユーザ辞書登録入力画面を閲覧入力手段101に送信し(ステップS3)、閲覧入力手段101からの登録辞書データを待ち受ける(ステップS4)。
【0026】
ユーザ辞書登録入力画面が表示された際には、ユーザは、登録したい辞書データを入力し、また、表示された一般用語辞書及び専門用語辞書のツリー構造に基づいて、その登録辞書データに、関連付けたい辞書の情報を付与して制御手段102に送信する。なお、複数の登録辞書データをまとめて送信するできるようにしても良い。以下では、説明の簡単化のため、1個の登録辞書データを送信するものとする。
【0027】
制御手段102は、登録辞書データが与えられるとそれを辞書管理手段104に与え、辞書管理手段104は、辞書データベース105の格納内容に基づき、当該ユーザについて、今回の登録辞書データに係るユーザ辞書(専門用語辞書又は一般用語辞書に関連付けられたユーザ辞書)が既に設定されているか否かを判別する(ステップS5)。
【0028】
ユーザ辞書が設定されていない場合には、そのようなユーザ辞書を設定した後(ステップS6)、既に設定されている場合には直ちに、閲覧入力手段101から与えられた登録辞書データを登録すると共に、辞書履歴記録手段106にその辞書データを登録したことの履歴を記録し(ステップS7)、一連のユーザ辞書登録処理を終了する。
【0029】
なお、辞書データベース105は、機能的には、図1に示すように、階層化構造を有するが、例えば、実際上は、辞書の種別を問わず、登録された辞書データを辞書の種別を表すデータと共に順次格納するものであり、そのようなレコードに、辞書履歴記録手段106による辞書データの履歴が対応付けられて記録される。
【0030】
(A−2−2)専門用語辞書の充実化動作
次に、専門用語辞書を充実化させる動作を、図4のフローチャートを用いて説明する。
【0031】
なお、図4は、定期的に起動された場合、又は、システム運営者によって起動された場合に対応するものである。また、図4は、ある1個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図4に示す処理がそれぞれ実行される。
【0032】
辞書管理手段104は、図4に示す処理を開始すると、全てのユーザ辞書の情報を、辞書データベース105から、関連する専門用語辞書毎に同一の辞書データを集計しながら取り出してバッファリングする(ステップS11)。
【0033】
図5は、集計しながら取り出した例を示している。左から、異なる辞書データ毎に番号付けした情報(辞書データID)、見出し語、訳語、登録されている数を示している。なお、辞書データIDは、0から連番が付されている。
【0034】
集計しながらの取り出しが終了すると、辞書管理手段104は、辞書データIDを0(初期値)にセットする(ステップS12)。
【0035】
そして、全ての辞書データについて充実化処理が終了するまで、ステップS13〜S17での処理ループを繰り返す。
【0036】
辞書管理手段104は、登録された数が、その専門用語辞書に関連付けられたユーザ辞書の数の過半数以上の辞書データが存在するか否かを判別する(ステップS13、S14)。
【0037】
そのような辞書データが1個でも存在すれば、専門用語辞書に、それらの辞書データを全て追加登録する(ステップS15)。なお、この際には、その専門用語辞書にその辞書データが存在しないことを確認して登録する。
【0038】
このような辞書データの専門用語辞書への追加登録が終了すると、又は、登録数がユーザ辞書数の過半数以上の辞書データが1個も存在しないと、辞書データIDを1インクリメントした後(ステップS16)、未処理の辞書データが残っているか否かを判別する(ステップS17)。
【0039】
未処理の辞書データが残っていれば、上述したステップS13に戻り、全ての辞書データについて充実化処理が終了したならば、図4に示す一連の処理を終了する。
【0040】
図5の例において、専門用語辞書に関連付けられているユーザ辞書の数が5個だとすると、辞書データ「pencil;鉛筆」はユーザ辞書登録数が3個であって過半数以上であるので、図4の処理を通じて、対象となっている専門用語辞書に登録される。
【0041】
上記説明では、専門用語辞書への登録条件をユーザ辞書数の過半数以上としたが、他の割合を閾値とする登録要件であっても良い。また、ユーザ辞書数によって、登録要件を規定する閾値を異なるようにしても良い。
【0042】
また、上記説明では、専門用語辞書に追加登録した後も、ユーザ辞書にその辞書データを残すものを示したが、専門用語辞書に追加登録した辞書データをユーザ辞書から消去するようにしても良い。前者の場合には、ステップS15の追加登録の処理において、辞書履歴記録手段106は、該当する専門用語辞書に辞書データを追加登録した履歴を記録し、後者の場合には、その辞書データが属する辞書種類が変更されたことやユーザ辞書から消去されたことを表す履歴を記録する。
【0043】
さらに、上記説明においては、専門用語辞書への登録を、その専門用語辞書に関連付けられた全てのユーザ辞書での登録状況から判断するものを示したが、一部のユーザ辞書での登録状況から専門用語辞書への登録可否を決定するようにしても良い。さらにまた、上記では、専門用語辞書への登録を完全に自動化したものを示したが、サーバ運営者などに専門用語辞書に追加登録したい辞書データを表示して確認させた上で、専門用語辞書に追加登録するようにしても良い。
【0044】
なお、一般用語辞書に関連付けられてユーザ辞書が存在するのであれば、上記処理と同様にして一般用語辞書を充実化させても良い。
【0045】
(A−2−3)辞書情報の統合動作
次に、複数の専門用語辞書の情報を統合する動作を、図6のフローチャートを用いて説明する。複数の専門用語辞書の情報統合は、専門用語辞書のデータの情報を調べ、下位の専門用語辞書のデータを上位の専門用語辞書のデータとして登録することを言う。
【0046】
なお、図6は、定期的に起動された場合、又は、システム運営者によって起動された場合に対応するものである。また、図6は、ある1個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図6に示す処理がそれぞれ実行される。
【0047】
辞書管理手段104は、図6に示す処理を開始するとまず、対象となっている専門用語辞書の下位の全ての専門用語辞書に登録されている辞書データを取り出し(ステップS21)、辞書データIDを0(初期値)にセットする(ステップS22)。
【0048】
そして、下位の専門用語辞書の数の過半数以上に登録されている辞書データが存在するか否かを判別する(ステップS23、S24)。
【0049】
そのような辞書データが1個でも存在すれば、上位の専門用語辞書に、それらの辞書データを全て追加登録すると共に、下位の専門用語辞書からそれらの辞書データを削除する(ステップS25)。なお、この際には、上位の専門用語辞書にその辞書データが存在しないことを確認してから追加登録するようにしても良い。
【0050】
ここで、ステップS25の追加登録の処理においては、辞書履歴記録手段106によって、その辞書データが属する辞書種類が上位の専門用語辞書に変更されたことや下位の専門用語辞書から消去されたことを表す履歴が記録される。
【0051】
以上の処理が終了した後、辞書データIDを1インクリメントし(ステップS26)、未処理の辞書データが残っているか否かを判別する(ステップS27)。未処理の辞書データが残っていれば、上述したステップS22に戻り、全ての辞書データについて統合処理が終了したならば、図6に示す一連の処理を終了する。
【0052】
図1の辞書データベース105の例では、物理辞書と数学辞書の両方に同じ辞書データが登録されていた場合には、上位の自然科学辞書に辞書データが登録され、物理辞書と数学辞書からは辞書データが削除される。
【0053】
ここで、吸い上げ処理(統合処理)を、階層が低い方の専門用語辞書から階層が高い方の専門用語辞書への順で行うことにより、吸い上げられたばかりの辞書データ(単語情報)がさらに上位の専門用語辞書に吸い上げられることもある。
【0054】
上記説明では、上位の専門用語辞書への登録条件を下位の専門用語辞書数の過半数以上で登録されていることにしたが、他の割合を閾値とする登録要件であっても良い。また、下位の専門用語辞書数によって、上位への登録要件を規定する閾値を異なるようにしても良い。さらには、各専門用語辞書で辞書データの使用頻度や使用率などを管理し、複数の下位の専門用語辞書で、ある程度使用されている辞書データ(単語情報)であることをも上位の専門用語辞書への登録要件に含めるようにしても良い。
【0055】
また、上記説明では、上位の専門用語辞書に追加登録すると、下位の専門用語辞書からその辞書データを削除するものを示したが、上位の専門用語辞書に追加登録した辞書データを下位の専門用語辞書に残すようにしても良い。さらに、上記では、上位の専門用語辞書への登録を完全に自動化したものを示したが、システム運営者などに上位の専門用語辞書に追加登録したい辞書データを表示して確認させた上で、上位の専門用語辞書に追加登録するようにしても良い。
【0056】
なお、大分類の複数の専門用語辞書に登録されている辞書データを、一般用語辞書に登録させるようにしても良い。
【0057】
(A−2−4)辞書分割・生成動作
次に、専門用語辞書の分割・生成の動作を、図7のフローチャートを用いて説明する。なお、図7の処理は、ある1個の専門用語辞書を対象とした処理を示しており、全ての専門用語辞書に対して、それぞれ図7の処理が実行される。
【0058】
辞書管理手段104は、図7に示す処理を開始すると、関連するユーザ辞書の情報を、辞書データベース105から、同一の辞書データを集計しながら取り出してバッファリングする(ステップS31)。
【0059】
図8は、スポーツ辞書に関連するユーザ辞書から集計しながら取り出した例を示している。左から、辞書データID、見出し語(キー)、訳語、登録されているユーザ辞書数を示している。
【0060】
集計しながらの取り出しが終了すると、辞書管理手段104は、辞書データIDを0(初期値)にセットする(ステップS32)。そして、全ての辞書データについて、ステップS33〜S38での処理ループを繰り返す。
【0061】
辞書管理手段104は、専門用語辞書に関連付けられているユーザ辞書の登録辞書データ中において、同じ見出し語(キー)で訳語(値)が異なる辞書データがあるか否かを確認し、ある場合には、それぞれの辞書データを登録しているユーザ辞書数が、専門用語辞書に関連付けられている全ユーザ辞書数の2割(なお、割合はこれに限定されない)以上であるか否かを判別する(ステップS33、S34)。
【0062】
同じ見出し語(キー)で訳語(値)が異なるユーザ登録の辞書データが存在し、それぞれの辞書データの登録割合が2割以上であると、辞書管理手段104は、専門用語辞書に対し、下位の専門用語辞書が存在するかを判別する(ステップS35)。
【0063】
下位の専門用語辞書が存在しない場合には、辞書管理手段104は、同じ見出し語(キー)で訳語(値)が異なる、登録割合が2割以上の辞書データの種類数だけ下位の専門用語辞書を作成して、それぞれの辞書データを登録する(ステップS36)。ここで、そのような辞書データを含むユーザ辞書は、辞書データIDが規定する専門用語辞書にそのまま関連付けても良く、自己の登録辞書データが登録された、新たに作成された専門用語辞書に関連付けるようにしても良い。また、ここでの下位の専門用語辞書の作成は、完全なる作成ではなく、仮作成であっても良い。
【0064】
上述したステップS36の処理においては、辞書履歴記録手段106によって、以上のような新たな専門用語辞書の作成したことの履歴や、ある辞書データがその辞書に登録されたことの履歴が記録されることも行われる。
【0065】
これに対して、下位の専門用語辞書が存在する場合には、辞書管理手段104は、同じ見出し語(キー)で訳語(値)が異なる、登録割合が2割以上の辞書データを、下位の専門用語辞書に移動させる(ステップS37)。ここで、そのような辞書データを含むユーザ辞書は、元の専門用語辞書にそのまま関連付けても良く、移動させた下位の専門用語辞書に関連付けるようにしても良い。
【0066】
上述したステップS37の処理においては、辞書履歴記録手段106によって、辞書データが下位の専門用語辞書に移動されたことの履歴が記録されることも行われる。
【0067】
辞書データを移動させる下位の専門用語辞書の種類の決定は、例えば、訳語側を見出し語としている逆方向用の辞書データベースの内容を参照して分野やジャンルを認識して行う。また例えば、今回の辞書データの訳語での文字列の一部や全てを訳語の文字列に含む辞書データが存在する側の下位の専門用語辞書に移動させる。なお、ここでの下位の専門用語辞書への辞書データの移動は、完全なる移動ではなく、仮移動であっても良い。
【0068】
辞書管理手段104は、上述のような下位の専門用語辞書の新規作成や下位の専門用語辞書への所定辞書データの移動が終了すると、又は、同じ見出し語(キー)で訳語(値)が異なるユーザ登録の辞書データが存在しないと、若しくは、存在しても、いずれかの辞書データの登録割合が2割未満であると、辞書データIDを1インクリメントした後(ステップS38)、辞書データが残っているか否かを判別する(ステップS39)。
【0069】
辞書データが残っていれば、上述したステップS33に戻り、全ての辞書データについて辞書分割・生成処理が終了したならば、図7に示す一連の処理を終了する。
【0070】
なお、辞書分割・生成処理では、完全な自動化処理は難しく、図7の処理の終了時に、システム運営者側のオペレータ(以下、システムオペレータと呼ぶ)によって後処理を行うことを要する。例えば、新規に作成された専門用語辞書に対する分野やジャンルのネーミング付与や、ステップS36による作成が仮作成であれば本作成が必要か否かの判断や、ステップS37による移動が仮移動であれば本移動が必要か否かの判断や、新規に下位の専門用語辞書を作成した場合における他の辞書データの上位の専門用語辞書からの移動処理などを行うことを要する。
【0071】
例えば、図8の例において、スポーツ辞書に関連付けられているユーザ辞書数が10個だとすると、見出し語が「Pitcher」で訳語が「投手」及び「7番アイアン」という2種類の辞書データは、どちらもユーザ登録数が3であるので、下位の専門用語辞書の新規作成要件、又は、下位の専門用語要件の辞書データの移動要件を満足している。
【0072】
この場合において、スポーツ辞書に下位の専門用語辞書が存在しない場合であれば、2個の下位の専門用語辞書が作成され、一方に辞書データ「Pitcher;7番アイアン」が登録され、他方に辞書データ「Pitcher;投手」が登録される。なお、システムオペレータによる後処理で、前者にゴルフ辞書、後者に野球辞書というネーミングが付与されるであろう。
【0073】
これに対して、スポーツ辞書の下位にゴルフ辞書及び野球辞書が存在する場合には、辞書データ「Pitcher;7番アイアン」がゴルフ辞書に登録され、辞書データ「Pitcher;投手」が野球辞書に登録される。これは、例えば、ゴルフ辞書に、訳語が「アイアン」という他の辞書データが存在しているとすると、今回の訳語「7番アイアン」との共通文字列が存在するためである。また、例えば、野球辞書に、訳語が「右翼手」という他の辞書データが存在しているとすると、今回の訳語「投手」との共通文字列が存在するためである。
【0074】
図9は、このようなスポーツ辞書だけが用意されていた状態から、図7の処理を通じて、スポーツ辞書の下位にゴルフ辞書及び野球辞書が新規作成された場合の辞書データベース105の変化の状態を示したものであり、図10は、図9に示すようにな専門用語辞書の分割・生成時における関連付けられていたユーザ辞書の移動を示したものである。
【0075】
なお、上記説明においては、ユーザ辞書の登録情報からのみ、下位の専門用語辞書の作成有無などを判断するものを示したが、ユーザ辞書の登録情報及び専門用語辞書の登録情報から、下位の専門用語辞書の作成有無などを判断するようにしても良い。例えば、専門用語辞書の登録情報と同じ見出し語で訳語が異なるユーザ登録の辞書データが、所定数以上又は所定割合以上のユーザ辞書で登録されている場合には、下位の専門用語辞書の作成などを行うようにしても良い。
【0076】
また、上記説明では、下位の専門用語辞書が存在しない場合にのみ、下位の専門用語辞書を作成するものを示したが、下位の専門用語辞書が存在していても、それと同列(同階層)の下位の専門用語辞書を作成するようにしても良い。すなわち、下位の専門用語辞書の存在有無に拘わらず、条件を満たせば、他の下位の専門用語辞書を作成するようにしても良い(言い換えると、下位への移動処理を無くしても良い)。例えば、スポーツ辞書の下位に柔道辞書や陸上辞書があっても、上述したようにスポーツ辞書に関連して「Pitcher;7番アイアン」や「Pitcher;投手」がユーザ登録されることもあり、この場合には、ゴルフ辞書や野球辞書(ネーミングは後でなされる)を下位の専門用語辞書として作成する。
【0077】
(A−2−5)辞書閲覧動作
次に、辞書の格納内容を閲覧する際の動作を、図11のフローチャートを用いて説明する。
【0078】
ユーザは、辞書データを登録したい場合や、機械翻訳処理に先立ち原言語の単語がどのような訳語に翻訳されるかを確認したい場合など、予め、辞書内容を閲覧したくなることがある。
【0079】
このような場合には、ユーザは、閲覧入力手段101によって閲覧要求を入力して制御手段102に送信させる(ステップS41)。
【0080】
ここで、閲覧要求は、見出し語(原言語単語)だけを含む要求であっても良く、また、訳語だけを含む要求であっても良く、さらに、見出し語及び訳語の対を含むものであっても良い。さらには、検索対象の辞書種類を限定する閲覧要求であっても良い。ある専門用語辞書が検索対象の辞書として限定された場合においては、その専門用語辞書だけを検索対象としても良く、また、その専門用語辞書とそれに関連付けられている全てのユーザ辞書とを検索対象とするようにしても良い。
【0081】
制御手段102は受信した閲覧要求を辞書管理手段104に与え、辞書管理手段104は、その閲覧要求に応じ、辞書データを検索すると共に、検索で得られた辞書データに関する履歴情報も辞書履歴記録手段106から取り出す(ステップS42)。
【0082】
その後、辞書管理手段104は、検索で得られた辞書データ(履歴情報を含む)を制御手段102を経由して閲覧入力手段101に返信し、閲覧入力手段101は表示又は印字出力する(ステップS43)。
【0083】
(A−2−6)機械翻訳処理
次に、入力文又は入力文書に対する機械翻訳動作を、図12のフローチャートを用いて説明する。
【0084】
ユーザは、機械翻訳を希望する文章又は文書があれば、閲覧入力手段101に入力して制御手段102に送信させ、制御手段102は受信した入力文又は入力文書を機械翻訳手段103に与える(ステップS51)。なお、入力文書が、HTML文書のような場合には、制御手段102は、文章部分だけを切り出して機械翻訳手段103に与える。
【0085】
また、ユーザは、機械翻訳で使用する辞書を限定したい場合には、閲覧入力手段101に指定辞書情報を入力して制御手段102に送信させ、制御手段102から指定辞書情報が与えられた辞書管理手段104は、辞書データベース105における該当辞書だけを有効とする(ステップS52)。
【0086】
上述したように、指定辞書、及び、その分野の上位階層に属する専門用語辞書や一般用語辞書が有効とされ、また、有効とされた専門用語辞書や一般用語辞書に関連付けられている当該ユーザのユーザ辞書が有効となる。この図12に示す機械翻訳処理の例では、使用辞書をユーザが指定するものを示したが、既存の専門分野認識方法などを適用し、入力文や入力文書から、辞書管理手段104が、使用する辞書を自動認識するようにしても良い。
【0087】
その後、機械翻訳手段103が、有効となった辞書の格納内容を参照しながら機械翻訳を行う(ステップS53)。ここで、有効となった辞書の全ての格納内容を機械翻訳手段103に与えて機械翻訳を実行させても良く、また、機械翻訳手段103が、制御手段102及び辞書管理手段104を経由して、有効となった辞書の格納内容をその都度参照して機械翻訳を実行するようにしても良い。
【0088】
なお、辞書履歴記録手段106又は辞書データベース105が辞書データの使用頻度や使用率を管理するものであれば、機械翻訳で利用された辞書データの使用頻度や使用率が更新される。辞書データの使用頻度や使用率も、辞書データの閲覧要求の際に閲覧させるようにしても良い。
【0089】
得られた翻訳結果は、機械翻訳手段103が制御手段102に与え、制御手段102が閲覧入力手段101に返信する(ステップS54)。なお、入力文書(翻訳依頼文書)が、HTML文書のような文書であって、制御手段102が、文章部分だけを切り出して機械翻訳手段103に与えた場合には、制御手段102は、翻訳結果からHTML文書を再構築して閲覧入力手段101に返信する。
【0090】
(A−3)第1の実施形態の効果
以上のように、複数のユーザで、高品質な内容を維持する辞書データベースを共有するので高品質な翻訳結果を得ることができ、しかも、辞書データベースは品質向上のための変更を実行するので頻繁に実行するので、常に最新の状態で使用でき、メンデナンス工数も削減できる。
【0091】
また、ユーザは、このような辞書データベースの辞書データを閲覧できるだけでなく、その更新履歴は閲覧することができるので、ユーザ登録の必要などを把握できるだけでなく、他のユーザがどのような時点で更新したかや専門用語辞書への吸い上げの時期なども把握することができ、各用語に対する世の中の現状を認識できる。
【0092】
(B)第2の実施形態
次に、本発明による辞書装置及び自然言語処理システムを、機械翻訳システムに適用した第2の実施形態を図面を参照しながら詳述する。
【0093】
(B−1)第2の実施形態の構成
図13は、第2の実施形態の機械翻訳システムの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
【0094】
図13において、第2の実施形態の機械翻訳システム100Aは、第1の実施形態と同様な閲覧入力手段101、制御手段102、機械翻訳手段103、辞書管理手段104、辞書データベース105及び辞書履歴記録手段106を有すると共に、さらに、ネットワーク201、通信手段202及び更新情報要求データベース(更新情報要求DB)203を有する。
【0095】
すなわち、第2の実施形態の機械翻訳システム100Aは、閲覧入力手段101がネットワーク201を介して他のシステム構成要素102〜106、202及び203側に接続されているものである。
【0096】
例えば、ネットワーク201はインターネットであり、閲覧入力手段101以外のシステム構成要素102〜106、202及び203は、サーバ(例えばプロバイダサーバ)に搭載されているものであり、閲覧入力手段101は、ブラウザ機能を有する情報処理端末が該当する。
【0097】
なお、上述した第1の実施形態も、更新情報要求データベース203を除けば、第2の実施形態のようなネットワークが介在しているものであっても良い。
【0098】
通信手段201は、ネットワーク201を介した閲覧入力手段101と制御手段102との通信を行うものである。
【0099】
この通信手段201には、更新情報要求データベース202が接続されており、通信手段201は、いずれかの閲覧入力手段101から(言い換えるといずれかのユーザから)のアクセスがあった場合に、更新情報要求データベース202の内容を確認する機能を有する。更新情報要求データベース202の内容を確認する契機となるアクセスは、機械翻訳に関連する処理(機械翻訳処理だけでなく、辞書の閲覧要求処理などを含む)のアクセスに限定しても良く、機械翻訳に関連しない処理(例えば単なる文書の検索処理)のアクセスであっても良い。
【0100】
更新情報要求データベース202には、各ユーザが自動送信(自動通知)を要求する、辞書データベース105に関する更新情報の種類データが格納されている。
【0101】
図14は、更新情報要求データベース202の格納内容の一例を示すものである。図14の例の場合、ユーザ1は、辞書データベース105におけるコンピュータ辞書及び数学辞書(それらに関連付けられているユーザ辞書を含めても良く、また、含めなくても良い)に更新があった場合に、その更新に係る辞書データなどの自動送信を求めており、ユーザ2は、辞書データベース105における自然科学辞書に更新があった場合に、その更新に係る辞書データなどの自動送信を求めており、ユーザ3は、辞書データベース105における見出し語が「pencil」の辞書データに更新があった場合に、その更新に係る辞書データなどの自動送信を求めている。なお、更新情報要求データベース202には、どの時刻までの更新に係る辞書データなどを既に送信しているかを明らかにすべく、前回の自動送信時刻をも記録しておくようにしても良い。
【0102】
以上のような第2の実施形態で新たに追加された構成要素との関係で、閲覧入力手段101や辞書管理手段104などの機能も、第1の実施形態のものとは多少異なっているが、その点については、後述する動作説明で明らかにする。
【0103】
(B−2)第2の実施形態の動作
この第2の実施形態の機械翻訳システム100Aにおいても、第1の実施形態で説明した各種の処理を実行する。
【0104】
さらに、第2の実施形態の機械翻訳システム100Aは、辞書データベース105において更新された辞書データなどの更新情報を、ユーザに自動的に通知する処理も行う。
【0105】
以下、このような更新情報の通知処理を、図15のフローチャートを参照しながら詳述する。図15は、1ユーザに対する処理を示している。
【0106】
なお、フローチャートの図示は省略するが、ユーザは、閲覧入力手段101から、更新情報の自動送信を要求する更新情報の種類データを入力し、予め、通信手段202に関連して設けられている更新情報依頼データベース203に登録しておく。更新情報依頼データベース203への登録は、以上のようなユーザによる入力操作に基づいた方法に代え、システム運営者がユーザ契約などを締結した際などに行うようにしても良い。
【0107】
あるユーザが、例えば、何らかの処理(例えば機械翻訳処理)のために、閲覧入力手段101から通信手段202にアクセスしてくると、その処理を開始する前に、又は、その処理を終了した後に、図15の処理が開始され、まず、通信手段202は、そのユーザについて、更新情報依頼データベース203に更新情報の種類データ(更新情報依頼)があるか否かを判別する(ステップS61)。
【0108】
なお、図15に示す処理は、上述のようなユーザによるアクセスにより開始する方法に代え、通信手段202、制御手段102又は辞書管理手段104が、定期的に起動する方法を適用しても良く、また、辞書管理手段104が辞書データベース105の更新を認識して自動起動する方法を適用しても良い。変形例として挙げた2つの起動方法の場合には、閲覧入力手段101の電源が落ちいている可能性もあるので、後述するステップS65の通知動作は、例えば、eメール発送となる。
【0109】
アクセスしてきたユーザについて、更新情報依頼データベース203に更新情報の種類データ(更新情報依頼)が格納されていない場合には、図15に示す処理を直ちに終了する。
【0110】
これに対して、アクセスしてきたユーザについて、更新情報依頼データベース203に更新情報の種類データ(更新情報依頼)が格納されていると、通信手段202は、辞書管理手段104と協働して、辞書データベース105が更新されていることを確認し、辞書履歴記録手段106に対する検索を行い、ユーザが更新情報の自動送信を求めている更新情報があるか否かを判別する(ステップS62〜S64)。
【0111】
より具体的には、そのユーザに対し、前回自動送信した時刻以降に辞書データベース105が更新されていることを確認し、そのユーザに対し、前回自動送信した時刻以降を更新時刻とする辞書データなどであって、更新情報依頼データベース203に格納されている更新情報の種類データが特定する辞書データを、辞書履歴記録手段106から検索することを通じて行う。
【0112】
例えば、アクセスしてきたユーザが、図14に示すユーザ2である場合において、ユーザ2に対し、前回自動送信した時刻以降に辞書データベース105が更新されていることを確認したならば、自然科学辞書の辞書データの中に、ユーザ2に対し、前回自動送信した時刻以降に更新された辞書データがあるか否かを辞書履歴記録手段106の検索により判別することになる。
【0113】
辞書データベース105が更新されていない場合(ステップS63で否定結果)や、通知すべき辞書データなどが存在しない場合(ステップS65で否定結果)には、図15に示す処理を終了する。
【0114】
ユーザに通知すべき該当する辞書データがあれば、通信手段202は、その辞書データ及び又は更新履歴を、閲覧入力手段101に通知して、図15に示す処理を終了する。
【0115】
なお、図15は、自動送信すべきタイミングで更新情報を取り出す場合を示したが、辞書データベース105が更新された際に、更新情報要求データベース203の格納内容に基づいて、各ユーザに自動送信すべき、更新情報を更新情報要求データベース203に複写しておき、自動送信すべきタイミングでは、辞書データベース105及び辞書履歴記録手段106をアクセスすることなく、更新情報要求データベース203に格納されている更新情報を自動送信するようにしても良い。
【0116】
(B−3)第2の実施形態の効果
第2の実施形態によっても、上述した第1の実施形態と同様な効果を奏することができる。
【0117】
さらに、第2の実施形態によれば、辞書データベースの更新情報をユーザが希望に合わせて自動的に得ることができるので、他のユーザによるユーザ登録などで辞書データベースが更新されてもそのことを早期に把握することができる。その結果、ユーザは、不要なユーザ登録を防止でき、訳質などを的確に把握できたりする。
【0118】
(C)第3の実施形態
次に、本発明による辞書装置及び自然言語処理システムを、機械翻訳システムに適用した第3の実施形態を図面を参照しながら詳述する。
【0119】
(C−1)第3の実施形態の構成
図16は、第3の実施形態の機械翻訳システムの機能的構成を示すブロック図であり、第2の実施形態に係る図13との同一、対応部分には同一符号を付して示している。
【0120】
図16において、第3の実施形態の機械翻訳システム100Bは、上述した第2の実施形態の構成に加え、翻訳履歴記録手段301及び翻訳結果データベース302を有するものである。
【0121】
なお、第3の実施形態の機械翻訳システム100Bは、複数の閲覧入力手段101から、同一文書の翻訳依頼が生じることを前提としているものである。例えば、ネットワーク201がインターネットの場合、複数の閲覧入力手段101が、図示しない文書検索装置から同一文書を検索で取り出すことがあり、さらに、そのような同一の検索文書に対する機械翻訳を複数の閲覧入力手段101が求めることがある。第3の実施形態の機械翻訳システム100Bは、このようなネットワークシステムを前提としている。
【0122】
翻訳結果データベース302は、翻訳依頼文書(原文)と、それに対する最新の翻訳結果と、最新の翻訳結果を当該翻訳結果データベース302に記録した登録時刻(更新時刻のこともある)を格納しているものである。
【0123】
翻訳履歴記録手段301は、制御手段102の制御下で、当該翻訳結果データベース302の更新処理などを実行するものである。
【0124】
なお、制御手段102などの機能も、第2の実施形態のものと多少異なっている。翻訳結果の更新機能については、後述する動作説明で明らかにする。
【0125】
その他、第3の実施形態の制御手段102は、以下のような機能をも担っている。制御手段102は、閲覧入力手段101からある文書の機械翻訳依頼があった場合においては、その文書の翻訳結果が翻訳結果データベース302に登録されているか否かを翻訳履歴記録手段301を介して確認し、その文書の翻訳結果が翻訳結果データベース302に登録されていない場合には、機械翻訳手段103にその文書を機械翻訳させて翻訳結果を閲覧入力手段101に返信させると共に、翻訳履歴記録手段301によって翻訳結果などの情報を翻訳結果データベース302に登録させ、一方、翻訳依頼文書の翻訳結果が翻訳結果データベース302に登録されていればそれを取り出して閲覧入力手段101に返信させる。
【0126】
(C−2)第3の実施形態の動作
この第3の実施形態の機械翻訳システム100Bにおいても、第2の実施形態で説明した各種の処理を実行する。
【0127】
さらに、第3の実施形態の機械翻訳システム100Bは、既に機械翻訳した翻訳結果を更新する処理も行う。
【0128】
以下、第3の実施形態による翻訳結果の更新処理を、図17のフローチャートを参照しながら詳述する。
【0129】
例えば、受信した翻訳結果が自己がユーザ登録した辞書データが反映されていなかったり、受信した翻訳結果の質の向上を望んだりした場合には、文書(翻訳依頼文書でも翻訳結果文書でも良い)又は文書特定情報(例えばURL)を伴う翻訳結果の更新指示を閲覧入力手段101に対して行う(ステップS71)。
【0130】
これにより、ステップS72以降のような翻訳結果の具体的な更新処理が起動される。なお、ステップS72以降のような翻訳結果の具体的な更新処理の起動は、システム運営者が行っても良く、また、辞書管理手段104が辞書データベース105の辞書データの更新を認識したときに自動的に行っても良く、所定周期で自動的に行っても良い。また、翻訳結果を登録している原言語の文書に対する、新たな機械翻訳の依頼時に自動的に行って良い。
【0131】
翻訳結果が直接的又は間接的に指定された翻訳結果の更新指示が閲覧入力手段101側から与えられると、制御手段102は、翻訳履歴記録手段301を介して、指定された翻訳結果が翻訳結果データベース302に存在するかを確認する(ステップS72、S73)。なければ、図17に示す処理を終了する(なお、閲覧入力手段101へのない旨の返信は行う)。
【0132】
指定された翻訳結果が翻訳結果データベース302にあれば、制御手段102は、翻訳履歴記録手段301を介して、翻訳結果の直前の更新時刻(当初の登録時刻のこともあり得る)を得ると共に(ステップS74)、辞書管理手段104を介して、辞書履歴記録手段106をアクセスし、その更新時刻よりも更新時刻が後の辞書データを検索し(ステップS75)、そのような更新時刻の条件を満たす辞書データが存在するか否かを判別する(ステップS76)。そのような辞書データがなければ、図17に示す処理を終了する(なお、閲覧入力手段101への更新し得ない旨の返信は行う)。
【0133】
更新時刻の条件を満たす辞書データが存在すると、制御手段102は、翻訳履歴記録手段301を介して、翻訳結果データベース302をアクセスし、原言語文書におけるそのような辞書データを含む文を検索し(ステップS77)、そのような文が存在するか否かを判別する(S78)。更新時刻の条件を満たす辞書データを含む原言語文がなければ、図17に示す処理を終了する(なお、閲覧入力手段101への辞書データ更新の影響を受ける原言語文がない旨の返信は行う)。
【0134】
更新時刻の条件を満たす辞書データを含む原言語文があれば、制御手段102は、翻訳結果データベース302から、その原言語文(複数あれば全て)を取り込んで機械翻訳手段103に与えて機械翻訳させる(ステップS79、S80)。その後、制御手段102は、機械翻訳手段103による切り出した文に対する翻訳結果と、更新時刻とを、翻訳履歴記録手段301に与えて、翻訳結果データベース302を更新させ(ステップS81)、図17に示す処理を終了する(更新した旨を閲覧入力手段101に返信することは行う。
【0135】
なお、機械翻訳手段103が文脈などを考慮して翻訳するものであれば、更新された辞書データを含む文だけでなく、原言語文書の全体を与えて機械翻訳させるようにしても良い。また、閲覧入力手段101に対し、更新された旨に代え、更新された翻訳結果を返信するようにしても良い。
【0136】
なお、更新情報要求データベース203に、翻訳結果の更新をの自動送信対象に設定しておき、第2の実施形態で説明した更新情報の通知処理によって、翻訳結果の更新を該当するユーザ(閲覧入力手段101)に通知するようにしても良い。
【0137】
(C−3)第3の実施形態の効果
第3の実施形態によっても、上述した第2の実施形態と同様な効果を奏することができる。
【0138】
さらに、第3の実施形態によれば、翻訳結果がキャッシュされている場合に、キャッシュされた時刻以降に更新された語句を含む文のみ翻訳することができるので、無駄な翻訳を行わずに、最新の辞書による翻訳結果に更新することができる。
【0139】
(D)他の実施形態
上記各実施形態の説明においても、種々変形した実施形態について言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0140】
第1の実施形態の説明では、他のユーザのユーザ辞書の内容をも閲覧できるように記載したが、他のユーザのユーザ辞書の閲覧は認めないようにしても良い。但し、それが専門用語辞書に吸い上げられたときには当然に閲覧できる。
【0141】
また、専門用語辞書は、いわゆる専門分野で分類されたものだけでなく、趣味ミなどに係るカテゴリーで分類されたものも含むものである。
【0142】
第2の実施形態については、更新履歴を自動送信するものを示したが、更新履歴の送信要求(分野などの指定情報は含まない)に応じ、そのユーザが欲する種類の辞書データの更新履歴を送信するようにしても良い。
【0143】
上記各実施形態では、専門用語辞書に対し、ユーザが直接登録操作し得ないものを示したが、専門用語辞書に対し、ユーザが直接登録操作し得るようにしても良い。この場合においても、一部のユーザ辞書への登録を条件とするようにしても良い。
【0144】
第3の実施形態において、翻訳結果の記録の更新は、新たな辞書データを反映させた翻訳結果と、反映させていない翻訳結果とを、ユーザ又はシステム運営者に提示し、その確認後に行うようにしても良い。
【0145】
上記各実施形態においては、本発明の辞書装置及び自然言語処理システムを機械翻訳システムで利用する場合を示したが、本発明の適用対象は、これに限定されるものではない。例えば、音声認識等で利用されるかな漢字変換用の辞書にも本発明の辞書装置を適用できる。
【0146】
【発明の効果】
以上のように、本発明によれば、複数のユーザが、高品質な内容を維持する、ユーザ登録に係る辞書データを共有することによって、高品質な自然言語処理結果を得ることができる辞書装置及び自然言語処理システムを実現できる。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【図2】第1の実施形態のユーザ辞書と専門用語辞書との関連を示す説明図である。
【図3】第1の実施形態のユーザ辞書の登録処理を示すフローチャートである。
【図4】第1の実施形態の専門用語辞書の充実化処理を示すフローチャートである。
【図5】図4の処理により専門用語辞書へ登録されるユーザ登録の辞書データの説明図である。
【図6】第1の実施形態の専門用語辞書情報の統合処理を示すフローチャートである。
【図7】第1の実施形態の専門用語辞書の分割・生成処理を示すフローチャートである。
【図8】図7の処理により下位の専門用語辞書が生成されるユーザ登録の辞書データの説明図である。
【図9】図7の処理により下位の専門用語辞書が生成される前後の辞書データベースの構造を示す説明図である。
【図10】図7の処理により下位の専門用語辞書が生成された場合におけるユーザ辞書の移動を示す説明図である。
【図11】第1の実施形態の辞書閲覧処理を示すフローチャートである。
【図12】第1の実施形態の機械翻訳処理を示すフローチャートである。
【図13】第2の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【図14】第2の実施形態の更新情報要求データベースの格納内容例を示す説明図である。
【図15】第2の実施形態の辞書の更新情報の通知処理を示すフローチャートである。
【図16】第3の実施形態の機械翻訳システムの機能的構成を示すブロック図である。
【図17】第3の実施形態の翻訳結果の更新処理を示すフローチャートである。
【符号の説明】
100、100A、100B…機械翻訳システム、101…閲覧入力手段、102…制御手段、103…機械翻訳手段、104…辞書管理手段、105…辞書データベース、106…辞書履歴記録手段、201…ネットワーク、202…通信手段、203…更新情報要求データベース、301…翻訳履歴記録手段、302…翻訳結果データベース。[0001] 
 BACKGROUND OF THE INVENTION 
 The present invention relates to a dictionary device and a natural language processing system, and can be applied to, for example, a machine translation system used by a plurality of users who translate a source language into a target language and a dictionary device that is an element of the machine translation system. . 
 [0002] 
 [Prior art] 
 In general, a machine translation system has a basic system dictionary and a user dictionary registered by a user. When a plurality of users use the same machine translation system, if a user dictionary is registered for each user, the same term must be individually registered by the plurality of users. For example, almost all users register for newly appearing new words that are used by almost all users. 
 [0003] 
 As a conventional technique for avoiding such inconvenience, there is one disclosed in Japanese Patent Application Laid-Open No. 11-134339. In this gazette, when a machine translation system is shared by a plurality of users, a plurality of users can search by searching from a user dictionary having a higher priority or extracting a parallel translation with the latest registration update time from the user dictionary. A system that can efficiently share and use a created user dictionary is disclosed. 
 [0004] 
 [Problems to be solved by the invention] 
 In the prior art described above, it is necessary to specify a priority relationship in order to determine the priority order of the user dictionary. The priority relationship is a priority between users who own user dictionaries, and indicates that the user dictionaries owned by users with higher priorities have higher reliability. 
 [0005] 
 However, comparing the contents of the user dictionaries owned by each user and specifying the priority relationship between the users requires labor and judgment ability to confirm the translation in each user dictionary and determine superiority or inferiority. Also, if the number of registrations is large, there are superiority and inferiority depending on words, so ranking among users is difficult. Furthermore, there is no guarantee that the priority relationship will remain the same in the future, and the priority relationship must be reviewed frequently. 
 [0006] 
 Further, in the above-described conventional technique, when there are words in the source language in a plurality of user dictionaries, the latest translation with the latest registration update time is extracted. Bilingual translation is not always reliable. Therefore, in order to obtain a high-quality translation result, it is necessary to always check the translation result and a plurality of user dictionaries. 
 [0007] 
 The present invention has been made in view of the above problems, and a plurality of users can obtain high-quality natural language processing results by sharing dictionary data related to user registration that maintains high-quality contents. It is an object of the present invention to provide a dictionary device and a natural language processing system that can be used. 
 [0008] 
 [Means for Solving the Problems] 
 In order to solve such a problem, the first aspect of the present invention provides a dictionary device provided in a natural language processing system used by a plurality of users, a plurality of technical term dictionaries for each category, and a tree having a general term dictionary as a root node. A dictionary main body hierarchically structured, a user dictionary registration means for setting a user dictionary in association with any of the technical term dictionary or the general term dictionary, and the dictionary data common to a plurality of user dictionaries Based on dictionary data common to a plurality of associated user dictionaries, set to a specialized term dictionary and / or the above general term dictionary, set a dictionary data common to a plurality of subordinate dictionaries in a tree structure A dictionary changing means for changing the dictionary and / or the dictionary data, such as setting a subordinate technical term dictionary in the technical term dictionary It characterized by having a dictionary history recording means for recording the history of the dictionary and or the dictionary change by the dictionary changing means. 
 [0009] 
 The natural language processing system according to the second aspect of the present invention includes the dictionary apparatus according to the first aspect of the present invention and a natural language processing main body that performs natural language processing using the stored contents of the dictionary apparatus. 
 [0010] 
 DETAILED DESCRIPTION OF THE INVENTION 
 (A) First embodiment 
 Hereinafter, a first embodiment in which a dictionary apparatus and a natural language processing system according to the present invention are applied to a machine translation system will be described in detail with reference to the drawings. 
 [0011] 
 (A-1) Configuration of the first embodiment 
 FIG. 1 is a block diagram illustrating a functional configuration of the machine translation system according to the first embodiment. 
 [0012] 
 1, the 
 [0013] 
 The 
 [0014] 
 The 
 [0015] 
 The 
 [0016] 
 The 
 [0017] 
 The dictionary management means 104 contains a 
 [0018] 
 The dictionary history recording means 106 is provided in association with the dictionary management means 104 and is a means for recording a history such as a dictionary and dictionary data registration update time for each dictionary data. 
 [0019] 
 The 
 [0020] 
 The 
 [0021] 
 Each user may create a user dictionary in any technical term dictionary field. The contents of this user dictionary are used not only when the created user requests translations, but also when other users request translations when registered and transferred to the technical term dictionary associated with the contents. Is done. Due to the functions of the dictionary management means 104 described above, a dictionary in the field of the document and a technical term dictionary belonging to a higher hierarchy in the field are used for translation. In the example of the hierarchical structure of FIG. 1, when translating documents in the computer field, a computer dictionary, an engineering dictionary, and a general term dictionary are used. 
 [0022] 
 (A-2) Operation of the first embodiment 
 (A-2-1) User dictionary registration 
 Next, the operation when the user registers a word in the user dictionary will be described with reference to the flowchart of FIG. 
 [0023] 
 For example, the user uses the 
 [0024] 
 If the user is not a person who can execute word user registration, the control means 102 returns that fact and ends the user dictionary registration process (step S2). 
 [0025] 
 On the other hand, if the user can perform word user registration, the 
 [0026] 
 When the user dictionary registration input screen is displayed, the user inputs dictionary data to be registered, and the user dictionary is associated with the registered dictionary data based on the tree structure of the displayed general term dictionary and technical term dictionary. The information of the desired dictionary is added and transmitted to the control means 102. Note that a plurality of registered dictionary data may be transmitted together. In the following description, it is assumed that one registered dictionary data is transmitted for the sake of simplicity. 
 [0027] 
 When the registered dictionary data is given, the control means 102 gives it to the dictionary management means 104. The dictionary management means 104 determines the user dictionary (the user dictionary related to the current registered dictionary data) for the user based on the stored contents of the 
 [0028] 
 If no user dictionary has been set, such a user dictionary is set (step S6), and if it has already been set, the registered dictionary data given from the browsing input means 101 is registered immediately. Then, the history of registering the dictionary data is recorded in the dictionary history recording means 106 (step S7), and the series of user dictionary registration processing is terminated. 
 [0029] 
 The 
 [0030] 
 (A-2-2) Enhancement of technical term dictionary 
 Next, the operation of enriching the technical term dictionary will be described using the flowchart of FIG. 
 [0031] 
 Note that FIG. 4 corresponds to a case where it is periodically started or a case where it is started by a system operator. FIG. 4 shows processing when a certain technical term dictionary is targeted, and the processing shown in FIG. 4 is executed for all technical term dictionaries. 
 [0032] 
 When the processing shown in FIG. 4 is started, the dictionary management means 104 extracts and buffers the information of all user dictionaries from the 
 [0033] 
 FIG. 5 shows an example taken out while counting. From the left, information numbered for each different dictionary data (dictionary data ID), headwords, translated words, and registered numbers are shown. The dictionary data ID is numbered sequentially from 0. 
 [0034] 
 When the extraction while counting is completed, the 
 [0035] 
 Then, the processing loop in steps S13 to S17 is repeated until the enrichment process is completed for all dictionary data. 
 [0036] 
 The 
 [0037] 
 If there is even one such dictionary data, all the dictionary data are additionally registered in the technical term dictionary (step S15). In this case, it is confirmed that the dictionary data does not exist in the technical term dictionary and registered. 
 [0038] 
 After such additional registration of dictionary data to the technical term dictionary is completed, or if there is no dictionary data whose registration number is greater than the majority of the number of user dictionaries, the dictionary data ID is incremented by 1 (step S16). ), It is determined whether or not unprocessed dictionary data remains (step S17). 
 [0039] 
 If unprocessed dictionary data remains, the process returns to step S13 described above. If the enrichment process is completed for all dictionary data, the series of processes shown in FIG. 4 is terminated. 
 [0040] 
 In the example of FIG. 5, if the number of user dictionaries associated with the technical term dictionary is five, the dictionary data “pencil; pencil” has three user dictionary registrations and is more than a majority. Through the process, it is registered in the target technical term dictionary. 
 [0041] 
 In the above description, the registration conditions for the technical term dictionary are set to be more than half of the number of user dictionaries, but registration requirements with other ratios as threshold values may be used. Further, the threshold value defining the registration requirement may be different depending on the number of user dictionaries. 
 [0042] 
 Further, in the above description, after the additional registration in the technical term dictionary, the dictionary data is left in the user dictionary. However, the dictionary data additionally registered in the technical term dictionary may be deleted from the user dictionary. . In the former case, in the additional registration process in step S15, the dictionary history recording means 106 records the history of additionally registering dictionary data in the corresponding technical term dictionary, and in the latter case, the dictionary data belongs. A history indicating that the dictionary type has been changed or deleted from the user dictionary is recorded. 
 [0043] 
 Further, in the above description, the registration to the technical term dictionary is determined from the registration status in all user dictionaries associated with the technical term dictionary, but from the registration status in some user dictionaries. Whether to register in the technical term dictionary may be determined. Furthermore, in the above, the registration to the terminology dictionary has been completely automated. However, after the server operator has displayed and confirmed the dictionary data to be added to the terminology dictionary, the terminology dictionary is displayed. You may make it register additionally. 
 [0044] 
 If there is a user dictionary associated with the general term dictionary, the general term dictionary may be enriched in the same manner as the above processing. 
 [0045] 
 (A-2-3) Dictionary information integration operation 
 Next, the operation | movement which integrates the information of several technical vocabulary dictionary is demonstrated using the flowchart of FIG. Information integration of a plurality of technical term dictionaries refers to checking information on data in technical term dictionaries and registering data in lower technical term dictionaries as data in higher technical term dictionaries. 
 [0046] 
 Note that FIG. 6 corresponds to a case where it is periodically started or a case where it is started by a system operator. Further, FIG. 6 shows processing when one certain technical term dictionary is targeted, and the processing shown in FIG. 6 is executed for all technical term dictionaries. 
 [0047] 
 When the processing shown in FIG. 6 is started, the 
 [0048] 
 And it is discriminate | determined whether the dictionary data registered into more than the majority of the number of subordinate technical term dictionaries exist (step S23, S24). 
 [0049] 
 If there is even one such dictionary data, all the dictionary data are additionally registered in the higher-level technical term dictionary, and those dictionary data are deleted from the lower-level technical term dictionary (step S25). In this case, additional registration may be performed after confirming that the dictionary data does not exist in the higher-level technical term dictionary. 
 [0050] 
 Here, in the additional registration processing in step S25, the dictionary history recording means 106 has confirmed that the dictionary type to which the dictionary data belongs has been changed to a higher terminology dictionary or deleted from the lower terminology dictionary. A representing history is recorded. 
 [0051] 
 After the above processing is completed, the dictionary data ID is incremented by 1 (step S26), and it is determined whether or not unprocessed dictionary data remains (step S27). If unprocessed dictionary data remains, the process returns to step S22 described above. If the integration process has been completed for all dictionary data, the series of processes shown in FIG. 6 is terminated. 
 [0052] 
 In the example of the 
 [0053] 
 Here, the siphoning processing (integration processing) is performed in order from the technical term dictionary with the lower hierarchy to the technical term dictionary with the higher hierarchy, so that the dictionary data (word information) that has just been sifted is further higher. Sometimes it is taken up by a technical term dictionary. 
 [0054] 
 In the above description, the registration condition for the higher-level technical term dictionary is set to be registered with more than a majority of the lower-level technical term dictionaries. Moreover, the threshold value that defines the registration requirement for the upper level may be made different depending on the number of lower-level technical term dictionaries. In addition, each terminology dictionary manages the frequency and usage rate of dictionary data, and it is also possible to use dictionary data (word information) that is used to some degree in multiple subordinate terminology dictionaries. You may make it include in the registration requirement to a dictionary. 
 [0055] 
 In addition, in the above description, it has been shown that when additionally registering in the higher terminology dictionary, the dictionary data is deleted from the lower terminology dictionary. It may be left in the dictionary. In addition, in the above, the registration to the upper terminology dictionary is shown as fully automated, but after displaying the dictionary data to be additionally registered in the upper terminology dictionary to the system operator etc. It may be additionally registered in a higher-level technical term dictionary. 
 [0056] 
 Note that dictionary data registered in a plurality of major terminology dictionaries may be registered in the general term dictionary. 
 [0057] 
 (A-2-4) Dictionary division / generation operation 
 Next, the operation of dividing / generating the technical term dictionary will be described with reference to the flowchart of FIG. Note that the processing in FIG. 7 shows processing for a certain technical term dictionary, and the processing in FIG. 7 is executed for each technical term dictionary. 
 [0058] 
 When the processing shown in FIG. 7 is started, the 
 [0059] 
 FIG. 8 shows an example extracted from the user dictionary related to the sports dictionary while counting. From left, dictionary data ID, headword (key), translation, and number of registered user dictionaries are shown. 
 [0060] 
 When the extraction while counting is completed, the 
 [0061] 
 The 
 [0062] 
 If there is user-registered dictionary data with the same headword (key) and different translated words (values), and the registration ratio of each dictionary data is 20% or more, the dictionary management means 104 is subordinate to the technical term dictionary. It is determined whether or not there is a technical term dictionary (step S35). 
 [0063] 
 When there is no lower-level technical term dictionary, the 
 [0064] 
 In the process of step S36 described above, the history of the creation of a new technical term dictionary as described above and the history of registration of certain dictionary data in the dictionary are recorded by the dictionary history recording means 106. Things are also done. 
 [0065] 
 On the other hand, when there is a low-level technical term dictionary, the 
 [0066] 
 In the processing of step S37 described above, the history that the dictionary data has been moved to the lower-level technical term dictionary is also recorded by the dictionary history recording means 106. 
 [0067] 
 The type of the lower-level technical term dictionary to which the dictionary data is moved is determined, for example, by recognizing the field or genre with reference to the contents of the dictionary database for reverse direction using the translated word as the headword. Further, for example, a part or all of the character string in the translated word of the current dictionary data is moved to the technical term dictionary on the lower side where dictionary data including the translated character string exists. Here, the movement of the dictionary data to the lower-level technical term dictionary may be a temporary movement, not a complete movement. 
 [0068] 
 The 
 [0069] 
 If dictionary data remains, the process returns to step S33 described above, and if the dictionary dividing / generating process is completed for all dictionary data, the series of processes shown in FIG. 7 is terminated. 
 [0070] 
 In the dictionary division / generation process, complete automation is difficult, and it is necessary to perform post-processing by an operator on the system operator side (hereinafter referred to as a system operator) at the end of the process of FIG. For example, it is possible to assign a field or genre naming to a newly created technical term dictionary, determine whether the creation is necessary if the creation in step S36 is provisional creation, or if the movement in step S37 is provisional movement. It is necessary to determine whether or not this movement is necessary, or to perform processing for moving other dictionary data from a higher-level terminology dictionary when a new lower-level terminology dictionary is created. 
 [0071] 
 For example, in the example of FIG. 8, if the number of user dictionaries associated with the sports dictionary is 10, the two types of dictionary data with the headword “Pitcher” and the translations “Pitcher” and “7th Iron” Since the number of user registrations is 3, it satisfies the requirements for newly creating a lower-level technical term dictionary or the dictionary data movement requirement of the lower-level technical term requirements. 
 [0072] 
 In this case, if there is no lower-level technical term dictionary in the sports dictionary, two lower-level technical term dictionaries are created, dictionary data “Pitcher; 7th Iron” is registered on one side, and dictionary on the other side Data “Pitcher” is registered. In the post-processing by the system operator, the former will be given a golf dictionary and the latter a baseball dictionary. 
 [0073] 
 On the other hand, when the golf dictionary and the baseball dictionary exist below the sports dictionary, the dictionary data “Pitcher; 7th Iron” is registered in the golf dictionary, and the dictionary data “Pitcher; pitcher” is registered in the baseball dictionary. Is done. This is because, for example, if another dictionary data whose translation is “iron” exists in the golf dictionary, a common character string with the current translation “7th iron” exists. Further, for example, if there is another dictionary data whose translation is “right wing” in the baseball dictionary, there is a common character string with the current translation “pitcher”. 
 [0074] 
 FIG. 9 shows a change state of the 
 [0075] 
 In the above description, only the registration information of the user dictionary is used to determine whether or not a lower-level technical term dictionary is created, but the lower-level specialized term dictionary is determined from the registration information of the user dictionary and the registration information of the technical term dictionary. Whether or not a term dictionary is created may be determined. For example, when dictionary data of user registration with the same headword as the registration information of the technical term dictionary and different translated words is registered in a predetermined number or more or a predetermined ratio of user dictionaries, creation of a subordinate technical term dictionary, etc. May be performed. 
 [0076] 
 Moreover, in the above description, the case where the lower-level technical term dictionary is created only when the lower-level technical term dictionary does not exist is shown. It is also possible to create a technical term dictionary below. That is, regardless of the presence or absence of a lower-level technical term dictionary, another lower-level technical term dictionary may be created if the condition is satisfied (in other words, the lower-level migration process may be eliminated). For example, even if there is a judo dictionary or a land dictionary under the sports dictionary, “Pitcher; 7th Iron” or “Pitcher” may be registered as a user in connection with the sports dictionary as described above. In this case, a golf dictionary or a baseball dictionary (named later) is created as a subordinate technical term dictionary. 
 [0077] 
 (A-2-5) Dictionary browsing operation 
 Next, the operation when browsing the stored contents of the dictionary will be described with reference to the flowchart of FIG. 
 [0078] 
 The user may want to browse the contents of the dictionary in advance, for example, when registering dictionary data or when confirming what kind of translation the source language word is translated prior to machine translation processing. 
 [0079] 
 In such a case, the user inputs a browsing request through the 
 [0080] 
 Here, the browsing request may be a request including only a headword (source language word), may be a request including only a translated word, and further includes a pair of a headword and a translated word. May be. Further, it may be a browsing request that limits the type of dictionary to be searched. In the case where a certain terminology dictionary is limited as a dictionary to be searched, only the terminology dictionary may be set as a search target, and the terminology dictionary and all user dictionaries associated with the terminology dictionary are set as search targets. You may make it do. 
 [0081] 
 The 
 [0082] 
 Thereafter, the dictionary management means 104 returns the dictionary data (including history information) obtained by the search to the browsing input means 101 via the control means 102, and the browsing input means 101 displays or prints out (step S43). ). 
 [0083] 
 (A-2-6) Machine translation processing 
 Next, a machine translation operation for an input sentence or an input document will be described with reference to the flowchart of FIG. 
 [0084] 
 If there is a sentence or document desired to be machine-translated, the user inputs it into the browsing input means 101 and transmits it to the control means 102, and the control means 102 gives the received input sentence or input document to the machine translation means 103 (step S51). When the input document is an HTML document, the 
 [0085] 
 In addition, when the user wants to limit the dictionary used in machine translation, the designated dictionary information is input to the browsing input means 101 and transmitted to the control means 102, and the dictionary management to which the designated dictionary information is given from the control means 102 The 
 [0086] 
 As described above, the specified dictionary and the technical term dictionary or general term dictionary that belong to the higher level of the field are valid, and the user's associated with the valid technical term dictionary or general term dictionary is valid. The user dictionary is valid. In the example of the machine translation processing shown in FIG. 12, the user specifies a dictionary to be used. However, the 
 [0087] 
 Thereafter, the machine translation means 103 performs machine translation while referring to the stored contents of the activated dictionary (step S53). Here, all the stored contents of the validated dictionary may be given to the machine translation means 103 to execute machine translation, and the machine translation means 103 is connected via the control means 102 and the dictionary management means 104. Then, the machine translation may be executed by referring to the stored contents of the valid dictionary each time. 
 [0088] 
 If the dictionary history recording means 106 or the 
 [0089] 
 The obtained translation result is given to the control means 102 by the machine translation means 103, and the control means 102 returns it to the browsing input means 101 (step S54). When the input document (translation request document) is a document such as an HTML document and the 
 [0090] 
 (A-3) Effects of the first embodiment 
 As described above, since a dictionary database that maintains high-quality contents is shared by a plurality of users, high-quality translation results can be obtained, and the dictionary database is frequently changed because it performs changes for quality improvement. Therefore, it can always be used in the latest state, and the maintenance man-hours can be reduced. 
 [0091] 
 In addition, the user can not only browse the dictionary data of such a dictionary database, but also can view the update history, so not only can grasp the necessity of user registration, but also when other users can You can also know when it has been updated and when it has been downloaded to the technical term dictionary, and can recognize the current state of the world for each term. 
 [0092] 
 (B) Second embodiment 
 Next, a second embodiment in which the dictionary device and the natural language processing system according to the present invention are applied to a machine translation system will be described in detail with reference to the drawings. 
 [0093] 
 (B-1) Configuration of the second embodiment 
 FIG. 13 is a block diagram illustrating a functional configuration of the machine translation system according to the second embodiment. The same reference numerals are given to the same or corresponding parts as those in FIG. 1 according to the first embodiment. . 
 [0094] 
 In FIG. 13, the machine translation system 100A of the second embodiment is similar to the first embodiment in the browsing input means 101, the control means 102, the machine translation means 103, the dictionary management means 104, the 
 [0095] 
 That is, in the machine translation system 100A of the second embodiment, the 
 [0096] 
 For example, the 
 [0097] 
 Note that the first embodiment described above may also include a network as in the second embodiment except for the update 
 [0098] 
 The 
 [0099] 
 An update 
 [0100] 
 The update 
 [0101] 
 FIG. 14 shows an example of the contents stored in the update 
 [0102] 
 The functions of the 
 [0103] 
 (B-2) Operation of the second embodiment 
 Also in the machine translation system 100A of the second embodiment, various processes described in the first embodiment are executed. 
 [0104] 
 Furthermore, the machine translation system 100A according to the second embodiment also performs a process of automatically notifying the user of update information such as dictionary data updated in the 
 [0105] 
 The update information notification process will be described in detail below with reference to the flowchart of FIG. FIG. 15 shows processing for one user. 
 [0106] 
 Although illustration of the flowchart is omitted, the user inputs update information type data for requesting automatic transmission of update information from the 
 [0107] 
 When a certain user accesses the 
 [0108] 
 The process shown in FIG. 15 may be applied by a method in which the 
 [0109] 
 If the update information type data (update information request) is not stored in the update 
 [0110] 
 On the other hand, if update information type data (update information request) is stored in the update 
 [0111] 
 More specifically, it is confirmed that the 
 [0112] 
 For example, in the case where the accessing user is the 
 [0113] 
 If the 
 [0114] 
 If there is corresponding dictionary data to be notified to the user, the 
 [0115] 
 Note that FIG. 15 shows a case where update information is extracted at a timing at which automatic transmission should be performed. However, when the 
 [0116] 
 (B-3) Effects of the second embodiment 
 According to the second embodiment, the same effects as those of the first embodiment described above can be obtained. 
 [0117] 
 Furthermore, according to the second embodiment, the update information of the dictionary database can be automatically obtained according to the user's desire, so that even if the dictionary database is updated by user registration or the like by another user, It can be grasped early. As a result, the user can prevent unnecessary user registration and can accurately grasp the translation quality. 
 [0118] 
 (C) Third embodiment 
 Next, a third embodiment in which the dictionary device and the natural language processing system according to the present invention are applied to a machine translation system will be described in detail with reference to the drawings. 
 [0119] 
 (C-1) Configuration of the third embodiment 
 FIG. 16 is a block diagram illustrating a functional configuration of the machine translation system according to the third embodiment. The same reference numerals are given to the same or corresponding parts as those in FIG. 13 according to the second embodiment. . 
 [0120] 
 In FIG. 16, a machine translation system 100B according to the third embodiment includes a translation 
 [0121] 
 The machine translation system 100B of the third embodiment is based on the premise that a request for translation of the same document is generated from a plurality of browsing input means 101. For example, when the 
 [0122] 
 The 
 [0123] 
 The translation 
 [0124] 
 Note that the functions of the control means 102 and the like are slightly different from those of the second embodiment. The update function of the translation result will be clarified in the operation explanation described later. 
 [0125] 
 In addition, the control means 102 of the third embodiment also has the following functions. When there is a machine translation request for a document from the 
 [0126] 
 (C-2) Operation of the third embodiment 
 Also in the machine translation system 100B of the third embodiment, various processes described in the second embodiment are executed. 
 [0127] 
 Furthermore, the machine translation system 100B of the third embodiment also performs a process of updating the translation result that has already been machine translated. 
 [0128] 
 The translation result update process according to the third embodiment will be described in detail below with reference to the flowchart of FIG. 
 [0129] 
 For example, if the received translation result does not reflect dictionary data registered by the user, or if it is desired to improve the quality of the received translation result, the document (which may be a translation request document or a translation result document) or An instruction to update the translation result with the document specifying information (for example, URL) is given to the browsing input means 101 (step S71). 
 [0130] 
 Thereby, the concrete update process of a translation result like step S72 and after is started. It should be noted that the specific update processing of the translation result as in step S72 and after may be started by the system operator, or automatically when the dictionary management means 104 recognizes the update of the dictionary data in the 
 [0131] 
 When an instruction to update the translation result in which the translation result is designated directly or indirectly is given from the browsing input means 101 side, the control means 102 sends the designated translation result to the translation result via the translation history recording means 301. It is confirmed whether it exists in the database 302 (steps S72 and S73). If not, the process shown in FIG. 17 ends (note that there is no reply to the browsing input means 101). 
 [0132] 
 If the designated translation result is in the 
 [0133] 
 If there is dictionary data that satisfies the update time condition, the 
 [0134] 
 If there is a source language sentence including dictionary data that satisfies the update time condition, the control means 102 fetches the source language sentence (if there are a plurality) from the 
 [0135] 
 As long as the machine translation means 103 translates in consideration of the context and the like, not only the sentence including the updated dictionary data but also the entire source language document may be given for machine translation. Further, the updated translation result may be returned to the browsing input means 101 instead of being updated. 
 [0136] 
 The update of the translation result is set in the update 
 [0137] 
 (C-3) Effects of the third embodiment 
 According to the third embodiment, the same effect as that of the second embodiment described above can be obtained. 
 [0138] 
 Furthermore, according to the third embodiment, when the translation result is cached, only sentences including words updated after the cached time can be translated. It can be updated to the latest dictionary translation results. 
 [0139] 
 (D) Other embodiments 
 In the description of each of the above embodiments, various modified embodiments have been mentioned, but further modified embodiments as exemplified below can be cited. 
 [0140] 
 In the description of the first embodiment, it is described that the contents of the user dictionary of another user can be browsed, but browsing of the user dictionary of another user may not be permitted. However, when it is taken up in the technical term dictionary, it can be browsed naturally. 
 [0141] 
 The technical term dictionary includes not only those classified in so-called specialized fields, but also those classified in categories related to hobbies and the like. 
 [0142] 
 In the second embodiment, the update history is automatically transmitted. However, the update history of the type of dictionary data desired by the user is displayed in response to the update history transmission request (not including specification information such as the field). You may make it transmit. 
 [0143] 
 In each of the above-described embodiments, the technical terms dictionary is not directly registered by the user. However, the technical terms dictionary may be directly registered by the user. Even in this case, registration in some user dictionaries may be used as a condition. 
 [0144] 
 In the third embodiment, the update of the translation result record is performed after the translation result reflecting the new dictionary data and the translation result not reflected are presented to the user or the system operator and confirmed. Anyway. 
 [0145] 
 In each of the above embodiments, the case where the dictionary device and the natural language processing system of the present invention are used in a machine translation system has been shown, but the application target of the present invention is not limited to this. For example, the dictionary apparatus of the present invention can also be applied to a kana-kanji conversion dictionary used in speech recognition or the like. 
 [0146] 
 【The invention's effect】 
 As described above, according to the present invention, a dictionary device in which a plurality of users can obtain high-quality natural language processing results by sharing dictionary data related to user registration that maintains high-quality content. And a natural language processing system. 
 [Brief description of the drawings] 
 FIG. 1 is a block diagram illustrating a functional configuration of a machine translation system according to a first embodiment. 
 FIG. 2 is an explanatory diagram illustrating a relationship between a user dictionary and a technical term dictionary according to the first embodiment. 
 FIG. 3 is a flowchart illustrating user dictionary registration processing according to the first embodiment; 
 FIG. 4 is a flowchart illustrating a technical term dictionary enrichment process according to the first embodiment; 
 5 is an explanatory diagram of user-registered dictionary data registered in the technical term dictionary by the processing of FIG. 4; 
 FIG. 6 is a flowchart illustrating a process for integrating technical term dictionary information according to the first embodiment. 
 FIG. 7 is a flowchart showing a jargon dictionary dividing / generating process according to the first embodiment; 
 FIG. 8 is an explanatory diagram of user-registered dictionary data in which a lower-level technical term dictionary is generated by the process of FIG. 
 FIG. 9 is an explanatory diagram showing the structure of a dictionary database before and after a lower-level technical term dictionary is generated by the processing of FIG. 7; 
 FIG. 10 is an explanatory diagram showing movement of a user dictionary when a lower-level technical term dictionary is generated by the processing of FIG. 
 FIG. 11 is a flowchart showing dictionary browsing processing according to the first embodiment; 
 FIG. 12 is a flowchart showing machine translation processing according to the first embodiment; 
 FIG. 13 is a block diagram illustrating a functional configuration of a machine translation system according to a second embodiment. 
 FIG. 14 is an explanatory diagram illustrating an example of contents stored in an update information request database according to the second embodiment; 
 FIG. 15 is a flowchart showing a dictionary update information notification process according to the second embodiment; 
 FIG. 16 is a block diagram illustrating a functional configuration of a machine translation system according to a third embodiment. 
 FIG. 17 is a flowchart showing translation result update processing according to the third embodiment; 
 [Explanation of symbols] 
 DESCRIPTION OF 
Claims (6)
カテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、
任意の上記専門用語辞書及び又は上記一般用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段と、
複数のユーザ辞書に共通の辞書データを関連付けられた上記専門用語辞書又は上記一般用語辞書に設定したり、ツリー構造で複数の下位の辞書に共通の辞書データを上位の辞書に設定したり、関連付けられた複数のユーザ辞書に共通な辞書データに基づき、その上記専門用語辞書に下位の専門用語辞書を設定したりなど、上記辞書及び又は上記辞書データを変更する辞書変更手段と、
上記辞書変更手段による辞書及び又は辞書データの変更の履歴を記録する辞書履歴記録手段と
を有することを特徴とする辞書装置。In a dictionary device provided in a natural language processing system used by a plurality of users,
A dictionary body in which multiple terminology dictionaries for each category are hierarchized in a tree structure with the general term dictionary as the root node,
User dictionary registration means for setting a user dictionary in association with any of the technical term dictionary and / or the general term dictionary,
Set the dictionary data common to multiple user dictionaries to the above-mentioned technical term dictionary or general term dictionary, or set the dictionary data common to multiple lower-level dictionaries in the tree structure to the higher-level dictionary, or associate A dictionary changing means for changing the dictionary and / or the dictionary data, such as setting a subordinate technical term dictionary in the technical term dictionary based on dictionary data common to a plurality of user dictionaries,
A dictionary apparatus comprising a dictionary history recording means for recording a dictionary and / or dictionary data change history by the dictionary changing means.
上記閲覧要求に応じ、上記辞書本体から辞書データを検索して取り出すと共に、その辞書データに対応した変更履歴を上記辞書履歴記録手段から取り出して、上記閲覧入力手段に返信する閲覧要求応答手段と
をさらに有することを特徴とした請求項1に記載の辞書装置。A browsing request fetching unit for fetching a browsing request for dictionary data from a browsing input unit operated by a user;
In response to the browsing request, the dictionary data is retrieved and retrieved from the dictionary body, and a change history corresponding to the dictionary data is retrieved from the dictionary history recording unit, and a browsing request response unit for returning to the browsing input unit is provided. The dictionary device according to claim 1, further comprising:
上記通知種類設定手段に設定されている種類情報に基づき、上記辞書履歴記録手段から各ユーザに通知する変更履歴を取り出し、各ユーザの上記閲覧入力手段に通知する変更履歴通知手段と
をさらに有することを特徴とした請求項1又は2に記載の辞書装置。A notification type setting means for setting a type of change history to be notified for each user;
Based on the type information set in the notification type setting means, it further has a change history notifying means for taking out a change history to be notified to each user from the dictionary history recording means and notifying the browsing input means of each user. The dictionary device according to claim 1, wherein:
上記辞書装置の格納内容を利用して自然言語処理を行う自然言語処理本体と
を有することを特徴とする自然言語処理システム。The dictionary device according to any one of claims 1 to 4,
A natural language processing system comprising: a natural language processing main body that performs natural language processing using the stored contents of the dictionary device.
上記自然言語処理結果記録手段に記録されている自然言語の処理結果の記録時刻より、上記辞書履歴記録手段が記録管理している更新時刻が後の上記辞書装置における辞書データを反映させるように、上記自然言語処理本体に自然言語処理の全て又は一部を実行させ直し、その結果に応じ、上記自然言語処理結果記録手段に記録されている自然言語の処理結果を更新させる自然言語処理見直し手段と
を有することを特徴とする請求項4に記載の自然言語処理システム。Natural language processing result recording means for recording the natural language processing result executed by the natural language processing main body or the updated processing result together with the recording time information;
From the recording time of the natural language processing result recorded in the natural language processing result recording means, so that the update time recorded and managed by the dictionary history recording means reflects the dictionary data in the dictionary device after A natural language processing review unit for causing the natural language processing body to execute all or part of the natural language processing and updating the natural language processing result recorded in the natural language processing result recording unit according to the result. The natural language processing system according to claim 4, wherein
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2001357431A JP3838904B2 (en) | 2001-11-22 | 2001-11-22 | Dictionary device and natural language processing system | 
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| JP2001357431A JP3838904B2 (en) | 2001-11-22 | 2001-11-22 | Dictionary device and natural language processing system | 
Publications (2)
| Publication Number | Publication Date | 
|---|---|
| JP2003157257A JP2003157257A (en) | 2003-05-30 | 
| JP3838904B2 true JP3838904B2 (en) | 2006-10-25 | 
Family
ID=19168778
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| JP2001357431A Expired - Fee Related JP3838904B2 (en) | 2001-11-22 | 2001-11-22 | Dictionary device and natural language processing system | 
Country Status (1)
| Country | Link | 
|---|---|
| JP (1) | JP3838904B2 (en) | 
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| JP5239863B2 (en) | 2006-09-07 | 2013-07-17 | 日本電気株式会社 | Natural language processing system and dictionary registration system | 
| JP5465926B2 (en) * | 2009-05-22 | 2014-04-09 | アルパイン株式会社 | Speech recognition dictionary creation device and speech recognition dictionary creation method | 
| JP5136536B2 (en) * | 2009-10-09 | 2013-02-06 | カシオ計算機株式会社 | Information display control device and program | 
| JP5563422B2 (en) * | 2010-10-15 | 2014-07-30 | 京セラ株式会社 | Electronic device and control method | 
| WO2021044461A1 (en) * | 2019-09-02 | 2021-03-11 | 株式会社オシエテ | Interpreting service provision server | 
- 
        2001
        - 2001-11-22 JP JP2001357431A patent/JP3838904B2/en not_active Expired - Fee Related
 
Also Published As
| Publication number | Publication date | 
|---|---|
| JP2003157257A (en) | 2003-05-30 | 
Similar Documents
| Publication | Publication Date | Title | 
|---|---|---|
| US7216121B2 (en) | Search engine facility with automated knowledge retrieval, generation and maintenance | |
| KR101153082B1 (en) | Application programming interface for text mining and search | |
| JP6376569B2 (en) | Search method and search system | |
| KR100834549B1 (en) | Translation system and translation service | |
| US7027975B1 (en) | Guided natural language interface system and method | |
| CN1799051B (en) | How to browse content using page storage files | |
| US20010032205A1 (en) | Method and system for extraction and organizing selected data from sources on a network | |
| US9092756B2 (en) | Information-retrieval systems, methods and software with content relevancy enhancements | |
| US7065536B2 (en) | Automated maintenance of an electronic database via a point system implementation | |
| KR100672277B1 (en) | Personalized Search Method and Search Server | |
| JP4796538B2 (en) | How to associate comment data | |
| WO2004111876A1 (en) | Search system and method re-using a search condition | |
| JP4469432B2 (en) | INTERNET INFORMATION PROCESSING DEVICE, INTERNET INFORMATION PROCESSING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD | |
| JP3838904B2 (en) | Dictionary device and natural language processing system | |
| Croft et al. | Search engines | |
| CN113434789B (en) | Search sorting method based on multi-dimensional text features and related equipment | |
| JP3838857B2 (en) | Dictionary device | |
| JP2000231569A (en) | Internet information search apparatus, Internet information search method, and computer-readable recording medium storing a program for causing a computer to execute the method | |
| KR100491254B1 (en) | Method and System for Making a Text Introducing a Web Site Directory or Web Page into a Hypertext | |
| JP2021149600A (en) | Information processing device and program | |
| JP2003186788A (en) | Method and system for providing translation web site and program | |
| JP4104878B2 (en) | Web page guidance method and web page guidance program | |
| CN103425713A (en) | Anopheles on-line image-text sorting retrieval system and retrieval method thereof | |
| JP5525424B2 (en) | Document search apparatus, document search method, and document search program | |
| KR20000049464A (en) | A personal portal service system and a method for managing of the same | 
Legal Events
| Date | Code | Title | Description | 
|---|---|---|---|
| A621 | Written request for application examination | Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040914 | |
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) | Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060801 | |
| A61 | First payment of annual fees (during grant procedure) | Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060801 | |
| R150 | Certificate of patent or registration of utility model | Free format text: JAPANESE INTERMEDIATE CODE: R150 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20090811 Year of fee payment: 3 | |
| FPAY | Renewal fee payment (event date is renewal date of database) | Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 | |
| LAPS | Cancellation because of no payment of annual fees |