JP2001331484A - Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation program - Google Patents
Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation programInfo
- Publication number
- JP2001331484A JP2001331484A JP2000149413A JP2000149413A JP2001331484A JP 2001331484 A JP2001331484 A JP 2001331484A JP 2000149413 A JP2000149413 A JP 2000149413A JP 2000149413 A JP2000149413 A JP 2000149413A JP 2001331484 A JP2001331484 A JP 2001331484A
- Authority
- JP
- Japan
- Prior art keywords
- concept
- language
- thesaurus
- term
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 言語内の概念関連と言語間の概念結合からな
るパラレルシソーラスを自動的に生成する。生成したパ
ラレルシソーラスを利用したテキストマイニングを実現
する。
【解決手段】 サーバ計算機1は、日本語コーパス51
からタームを抽出し、ターム間の相関を解析することに
より日本語ターム関連シソーラス71を生成する日本語
シソーラス生成10と、英語コーパス52からタームを
抽出し、ターム間の相関を解析することにより英語ター
ム関連シソーラス72を生成する英語シソーラス生成2
0と、日本語ターム関連シソーラス71と英語ターム関
連シソーラス72とを結合する日英シソーラス結合30
とを備える。
(57) [Summary] [Problem] To automatically generate a parallel thesaurus composed of concept associations in a language and concept connection between languages. Realizes text mining using the generated parallel thesaurus. A server computer 1 includes a Japanese corpus 51.
, And a Japanese thesaurus generation 10 that generates a Japanese term-related thesaurus 71 by analyzing the correlation between the terms. English is extracted by extracting the terms from the English corpus 52 and analyzing the correlation between the terms. English thesaurus generation 2 to generate term-related thesaurus 72
0, a Japanese-English thesaurus combining 30 that combines a Japanese term-related thesaurus 71 and an English term-related thesaurus 72
And
Description
【0001】[0001]
【発明の属する技術分野】本発明は、二つの言語のテキ
ストコーパスから二つの言語のシソーラスを結合したパ
ラレルシソーラスを生成する装置及び該パラレルシソー
ラスを利用したナビゲーションシステムのプログラム、
並びにパラレルシソーラスを記録した記録媒体に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus for generating a parallel thesaurus by combining a thesaurus of two languages from a text corpus of two languages, and a program for a navigation system using the parallel thesaurus.
And a recording medium on which a parallel thesaurus is recorded.
【0002】[0002]
【従来の技術】電子化されたテキスト情報の増加と共
に、情報アクセス技術の重要性が高まっている。本発明
者らは先に特願平11−28101号として、シソーラ
スのナビゲーション方法を出願している。この方法は、
テキストデータを記憶する文書データベース(以下、テ
キストコーパスと呼ぶ)から、有益な情報を掘り出す作
業(以下、テキストマイニングと呼ぶ)を効率的に行う
技術であり、テキストコーパスからターム及びターム間
の関連知識を抽出してシソーラスを生成し、該シソーラ
スの内容をクライアント端末のブラウザに表示すること
によりナビゲーションする。2. Description of the Related Art With the increase of electronic text information, the importance of information access technology is increasing. The present inventors have previously applied for a thesaurus navigation method as Japanese Patent Application No. 11-28101. This method
This is a technique to efficiently extract useful information (hereinafter referred to as text mining) from a document database (hereinafter referred to as a text corpus) that stores text data. Is extracted to generate a thesaurus, and the contents of the thesaurus are displayed on the browser of the client terminal for navigation.
【0003】また、情報処理学会データベースシステム
研究会/情報学基礎研究会研究報告DBS−118−1
3/FI−54−13「コーパス対応の関連シソーラス
ナビゲーション」(1999年5月17日)には、上記
ナビゲーション方法に基づくテキストマイニングシステ
ムが報告されている。[0003] In addition, IPSJ Database System Research Group / Informatics Basic Research Group Research Report DBS-118-1
A text mining system based on the above navigation method is reported in 3 / FI-54-13 "Related thesaurus navigation for corpus" (May 17, 1999).
【0004】[0004]
【発明が解決しようとする課題】情報検索の分野では、
母国語で表現した検索要求を入力して、外国語の文書を
検索したいというニーズが高まっている。この情報検索
方法は、クロスランゲージ情報検索と呼ばれ、盛んに研
究されている。In the field of information retrieval,
There is a growing need to search foreign language documents by inputting a search request expressed in a native language. This information search method is called cross-language information search and is being actively studied.
【0005】クロスランゲージ情報検索の代表的な手法
は、たとえば情報処理学会論文誌40巻11号ページ4
075−4086「機械翻訳を用いた英日・日英言語横
断検索に関する一考察」(1999年11月)に報告さ
れている。この検索方法は、対訳辞書や機械翻訳システ
ムを利用して、検索要求を文書と同じ言語に翻訳した上
で文書検索を実行する。この場合、検索要求は文書に比
べて短く文脈情報が少ないため、高精度で翻訳するのが
難しく、検索精度が低いという問題がある。[0005] A typical method of cross language information retrieval is, for example, IPSJ Transactions Vol. 40, No. 11, page 4
075-4086, "A Study on English-Japanese / Japanese-English Cross-Language Search Using Machine Translation" (November 1999). This search method uses a bilingual dictionary or a machine translation system to translate a search request into the same language as a document and then execute a document search. In this case, since the search request is shorter than the document and has less context information, there is a problem that it is difficult to translate with high accuracy and the search accuracy is low.
【0006】この問題に対して、上記特願平11−28
101号で提案しているナビゲーション方法を利用する
ことが考えられる。この場合、単言語から二言語に拡張
して情報検索システムのフロントエンドとして使用する
ことにより、クロスランゲージ情報検索における上記問
題点を解決することができると考えられるが、二つの言
語のシソーラスを結合することが必要になる。To solve this problem, the above-mentioned Japanese Patent Application No. 11-28 is disclosed.
It is conceivable to use the navigation method proposed in No. 101. In this case, it is considered that the above problem in the cross-language information search can be solved by extending from a monolingual language to a bilingual language and using it as a front end of the information search system. Need to be done.
【0007】一方、テキストコーパスからのシソーラス
生成技術は、上述したようなテキストマイニングへの応
用だけでなく、様々な自然言語処理応用システムに有効
であるが、次のような技術課題が残されている。On the other hand, the technique of generating a thesaurus from a text corpus is effective not only for the above-described application to text mining but also for various natural language processing application systems, but has the following technical problems. I have.
【0008】従来のシソーラス自動生成の技術は、多義
語の取扱いに関して問題がある。従来の技術ではターム
間の関連を抽出しているが、ターム間の関連は、本来意
味的なものであるので、多義語のタームを語義すなわち
概念に分割し、概念間の関連を抽出するのが理想的であ
る。従来の技術によれば、たとえば「bank」の関連ター
ムとして「loan」、「money」、「river」及び「wate
r」等が、「bank」の概念を問わず全て抽出されてしま
う。[0008] The conventional technology for automatically generating a thesaurus has a problem with respect to the handling of polysemous words. In the related art, the relation between terms is extracted.However, since the relation between terms is inherently semantic, it is necessary to divide a polysemy term into meanings, that is, concepts, and to extract the relation between concepts. Is ideal. According to the prior art, for example, "loan", "money", "river" and "wate" are related terms of "bank".
r ”etc. are all extracted regardless of the concept of“ bank ”.
【0009】ここで「loan」及び「money」は、お金を
預けたり引き出したりする機関としての「bank(銀
行)」の関連タームであり、「river」及び「water」
は、水辺の場所としての「bank(岸)」の関連タームで
ある。したがって、「bank」をそれが表す概念に分割
し、「loan」及び「money」等の関連タームと、「rive
r」及び「water」等の関連タームとが別々に抽出される
ことが望ましい。Here, "loan" and "money" are terms related to "bank" as an institution for depositing and withdrawing money, and include "river" and "water".
Is a related term of "bank" as a waterside location. Therefore, we divide "bank" into the concepts it represents, and associate related terms such as "loan" and "money" with "rive
It is desirable that relevant terms such as "r" and "water" be extracted separately.
【0010】また、従来のシソーラス自動生成技術は、
同義語の取扱いに関しても問題がある。従来の技術では
共起確率、すなわちテキスト中の近傍に揃って出現する
確率に基づいて関連タームを抽出している。このため、
同義語は関連タームとしてさえ抽出されず、別々のエン
ティティとして扱われる。同義語は同じ概念を表すので
あるから、同義語が一つのエンティティに纏めて取扱わ
れることが望ましい。[0010] The conventional thesaurus automatic generation technology is as follows.
There is also a problem with the handling of synonyms. In the related art, a related term is extracted based on a co-occurrence probability, that is, a probability of appearing in the vicinity of the text. For this reason,
Synonyms are not even extracted as related terms and are treated as separate entities. Since synonyms represent the same concept, it is desirable that synonyms are handled collectively by one entity.
【0011】以上より、本発明の目的は上述した従来の
技術における問題点を解決することである。第1の目的
は、第1言語の概念及び概念間の関連、第2言語の概念
及び概念間の関連、第1言語の概念と第2言語の概念間
の結合から構成されるパラレルシソーラスを第1言語及
び第2言語のテキストコーパスから自動生成する、パラ
レルシソーラスの生成プログラムを記録した記録媒体を
提供することにある。Accordingly, an object of the present invention is to solve the above-mentioned problems in the conventional technology. The first purpose is to create a parallel thesaurus consisting of concepts and relationships between concepts in the first language, concepts and concepts in the second language, and connections between concepts in the first language and concepts in the second language. An object of the present invention is to provide a recording medium recording a parallel thesaurus generation program which is automatically generated from a text corpus of one language and a second language.
【0012】第2の目的は、クロスランゲージ情報検索
のフロントエンドとして、特に、多義語及び同義語の取
扱いに注目して、検索要求の高精度な翻訳を可能にす
る、パラレルシソーラスナビゲーションプログラムを記
録した記録媒体を提供することにある。第3の目的は、
上記パラレルシソーラスを利用した有効なテキストマイ
ニングを実現するために、パラレルシソーラスを記録し
た記録媒体を提供することにある。A second object is to record a parallel thesaurus navigation program as a front-end for cross-language information retrieval, which enables high-precision translation of retrieval requests, particularly focusing on handling of polysemy and synonyms. It is another object of the present invention to provide a recording medium that has been designed. The third purpose is
An object of the present invention is to provide a recording medium on which a parallel thesaurus is recorded in order to realize effective text mining using the parallel thesaurus.
【0013】[0013]
【課題を解決するための手段】本発明は、コンピュータ
を、第1言語のテキストコーパスからタームを抽出し、
ターム間の相関を解析することにより第1言語のターム
関連シソーラスを生成する第1言語シソーラス生成手段
と、第2言語のテキストコーパスからタームを抽出し、
ターム間の相関を解析することにより第2言語のターム
関連シソーラスを生成する第2言語シソーラス生成手段
と、第1言語のターム関連シソーラスと第2言語のター
ム関連シソーラスを結合するシソーラス結合手段と、を
備えるパラレルシソーラスの生成装置として機能させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体である。SUMMARY OF THE INVENTION The present invention provides a computer for extracting terms from a text corpus of a first language,
First language thesaurus generation means for generating a first language term-related thesaurus by analyzing the correlation between terms; and extracting terms from a text corpus of the second language;
Second language thesaurus generation means for generating a second language term-related thesaurus by analyzing the correlation between terms; a thesaurus coupling means for coupling the first language term-related thesaurus with the second language term-related thesaurus; And a computer-readable recording medium on which a program for causing the apparatus to function as a parallel thesaurus generation device including the program is recorded.
【0014】また、前記シーラス結合手段は、対訳辞書
を参照して第1言語のターム関連シソーラスと第2言語
のターム関連シソーラスとの間で対応するタームを結合
するターム結合手段と、結合された第2言語のタームを
組み合わせることにより第1言語の各タームから概念ラ
ベルを生成する第1言語概念ラベル生成手段と、結合さ
れた第1言語のタームを組み合わせることにより第2言
語の各タームから概念ラベルを生成する第2言語概念ラ
ベル生成手段と、言語間のターム結合を言語間の概念結
合に変換する概念結合手段と、第1言語のターム関連シ
ソーラスに含まれるターム間の関連を概念間の関連に変
換する第1言語概念関連シソーラス生成手段と、第2言
語のターム関連シソーラスに含まれるターム間の関連を
概念間の関連に変換する第2言語概念関連シソーラス生
成手段と、同一の第2言語の概念に結合され、関連する
第1言語の概念の集合が類似している第1言語の概念を
マージして一つの概念にする第1言語概念マージ手段
と、同一の第1言語の概念に結合され、関連する第2言
語の概念の集合が類似している第2言語の概念をマージ
して一つの概念にする第2言語概念マージ手段と、を有
する。これにより、多義語及び同義語が有する概念を考
慮したパラレルシソーラスを生成することができる。[0014] Further, the Cirrus combining means is combined with Term combining means for combining corresponding terms between the term related thesaurus in the first language and the term related thesaurus in the second language with reference to the bilingual dictionary. First language concept label generating means for generating a concept label from each term in the first language by combining terms in the second language, and a concept from each term in the second language by combining the combined terms in the first language A second language concept label generating means for generating a label, a concept connecting means for converting a term connection between languages into a concept connection between languages, and a relation between terms included in a term relation thesaurus of the first language between concepts. A first language concept relation thesaurus generating means for converting the relation into terms, and a relation between terms included in the term relation thesaurus in the second language into relations between concepts. And a second language concept related thesaurus generating unit that merges concepts of the first language that are combined with the same concept of the second language and have a similar set of related concepts of the first language into one concept A first language concept merging unit, and a second language concept that is merged into one concept by merging concepts of the second language that are combined with the same concept of the first language and have a similar set of related concepts of the second language. Conceptual merging means. This makes it possible to generate a parallel thesaurus that takes into account the concepts of polysynonyms and synonyms.
【0015】パラレルシソーラスの生成装置は、以下の
ように作用する。第1言語シソーラス生成手段は、第1
言語のテキストコーパスからターム及び共起するターム
の組を抽出し、ターム間の相関を解析することにより、
各ターム毎に関連タームの集合を出力する。第1言語が
日本語であるとき、たとえば、ターム「銀行」の関連タ
ームの集合として{ローン,金利,口座,利率,証券,経済,
金融,投資}が出力される。The parallel thesaurus generator operates as follows. The first language thesaurus generating means includes:
By extracting a set of terms and co-occurring terms from the text corpus of the language and analyzing the correlation between the terms,
A set of related terms is output for each term. When the first language is Japanese, for example, as a set of related terms of the term “bank”, {loan, interest, account, interest, securities, economy,
Finance, investment} is output.
【0016】第2言語シソーラス生成手段は、第1言語
シソーラス生成手段と同様な処理を第2言語のテキスト
コーパスに対して実行し、各ターム毎に関連タームの集
合を出力する。第2言語が英語であるとき、たとえば、
ターム「bank」の関連タームの集合として、{account,r
iver,interest,loan,boat,investment,fishing,park,ec
onomy,lake}が出力される。The second language thesaurus generating means executes the same processing as the first language thesaurus generating means on the text corpus of the second language, and outputs a set of related terms for each term. When the second language is English, for example,
The set of related terms for the term "bank" is {account, r
iver, interest, loan, boat, investment, fishing, park, ec
onomy, lake} is output.
【0017】シソーラス結合手段において、各手段は以
下のように作用する。ターム結合手段は、対訳辞書を参
照して、第1言語のターム関連シソーラスと第2言語の
ターム関連シソーラスとの間で対応するタームを結合す
る。たとえば、「銀行」と「bank」が結合され、「岸」
と「bank」が結合される。In the thesaurus coupling means, each means operates as follows. The term combining unit refers to the bilingual dictionary and combines corresponding terms between the term-related thesaurus in the first language and the term-related thesaurus in the second language. For example, "bank" and "bank" are combined,
And "bank" are combined.
【0018】第1言語概念ラベル生成手段は、結合され
た第2言語のタームを組み合せることにより、第1言語
の各タームから少なくとも1つの概念ラベルを生成す
る。同様に、第2言語概念ラベル生成手段は、結合され
た第1言語のタームを組み合せることにより、第2言語
の各タームから少なくとも1つの概念ラベルを生成す
る。たとえば「bank」は「銀行」と「岸」とに結合され
ている。このとき、「銀行」の関連ターム集合と「岸」
の関連ターム集合が似ていなければ、「銀行」と「岸」
とが概念的に異なると判断され、「bank」から二つの概
念ラベル「bank・銀行」、「bank・岸」が生成される。The first language concept label generating means generates at least one concept label from each term in the first language by combining the terms in the second language combined. Similarly, the second language concept label generating means generates at least one concept label from each term in the second language by combining the terms in the first language combined. For example, "bank" is joined to "bank" and "shore". At this time, the related term set of "bank" and "shore"
If the related term sets are not similar, "bank" and "shore"
Are conceptually different from each other, and two concept labels “bank / bank” and “bank / shore” are generated from “bank”.
【0019】概念結合手段は、言語間のターム結合を言
語間の概念結合に変換する。たとえば、ターム結合「銀
行−bank」は概念結合「銀行−bank・銀行」に変換さ
れ、ターム結合「岸−bank」は概念結合「岸−bank・
岸」に変換される。The concept linking means converts the term link between languages into a concept link between languages. For example, the term combination "bank-bank" is converted to the concept combination "bank-bank-bank", and the term combination "shore-bank" is converted to the concept combination "bank-bank."
Is converted to "shore".
【0020】第1言語概念関連シソーラス生成手段は、
第1言語のターム関連シソーラスに含まれるターム間の
関連を概念間の関連に変換する。同様に、第2言語概念
関連シソーラス生成手段は、第2言語のターム関連シソ
ーラスに含まれるターム間の関連を概念間の関連に変換
する。たとえば、ターム間の関連「bank−interest」は
概念間の関連「bank・銀行−interest・金利/利率」に
変換され、ターム間の関連「bank−river」は概念間の
関連「bank・岸−river」に変換される。The first language concept related thesaurus generating means includes:
The relation between terms included in the term relation thesaurus of the first language is converted into the relation between concepts. Similarly, the second language concept relation thesaurus generation means converts the relation between terms included in the term relation thesaurus of the second language into the relation between concepts. For example, the relation between terms “bank-interest” is converted into the relation between concepts “bank / bank-interest / interest / interest”, and the relation between terms “bank-river” is between the concepts “bank / bank-interest”. river ".
【0021】第11言語概念マージ手段は、同一の第2
言語の概念に結合され、関連する第1言語の概念の集合
が類似している第1言語の概念を一つの概念にマージす
る。同様に、第2言語概念マージ手段は、同一の第1言
語の概念に結合され、関連する第2言語の概念の集合が
類似している第2言語の概念を一つの概念にマージす
る。たとえば、日本語の二つの概念「金利」と「利率」
が共に英語の概念「interest・金利/利率」に結合され
ている。このとき、「金利」の関連概念の集合と「利
率」の関連概念の集合が類似していれば、「金利」と
「利率」とが一つの概念「金利−利率」にマージされ
る。The first language concept merging means uses the same second language concept merging means.
A first language concept that is combined with a language concept and has a similar set of related first language concepts is merged into one concept. Similarly, the second language concept merging unit merges concepts of the second language, which are combined with the same concept of the first language and have a similar set of related concepts of the second language, into one concept. For example, two Japanese concepts, "interest rate" and "interest rate"
Are combined with the English concept of interest / interest. At this time, if the set of related concepts of “interest” and the set of related concepts of “interest” are similar, “interest” and “interest” are merged into one concept “interest−interest”.
【0022】以上のように各機能が作用することによ
り、第1言語の概念及び概念間の関連から構成される第
1言語の概念関連シソーラスと、第2言語の概念及び概
念間の関連から構成される第2言語の概念関連シソーラ
スとが結合されたパラレルシソーラスが生成される。As described above, each function operates to construct a concept relation thesaurus of the first language composed of concepts of the first language and the relation between the concepts, and a concept relation concept of the second language and the relation between the concepts of the second language. Then, a parallel thesaurus is generated in which the concept related thesaurus of the second language is combined.
【0023】また、本発明は、第1言語のタームと第2
言語のタームを組み合わせた概念ラベルと概念ラベルが
表す概念に基づく概念ラベルの結合とから構成されるパ
ラレルシソーラスを記録した記録媒体である。Also, the present invention provides a method for combining a term in a first language with a term in a second language.
This is a recording medium that records a parallel thesaurus composed of a concept label combining language terms and a combination of concept labels based on the concept represented by the concept label.
【0024】また、本発明は、コンピュータを、第1言
語の複数のターム又は概念の集合から、第2言語の複数
のターム又は概念の集合に遷移する遷移手段を備えるパ
ラレルシソーラスナビゲーションシステムとして機能さ
せるためのプログラムを記録したコンピュータ読み取り
可能な記録媒体である。Further, the present invention causes a computer to function as a parallel thesaurus navigation system including transition means for transitioning from a set of a plurality of terms or concepts in a first language to a set of a plurality of terms or concepts in a second language. Computer-readable recording medium on which a program for recording is recorded.
【0025】また、前記遷移手段は、第1言語のターム
又は概念の集合から、該集合中のターム又は概念に結合
された第2言語のターム又は概念に、該第2言語のター
ム又は概念の関連ターム又は関連概念であって、第1言
語のターム又は概念に結合されていないターム又は概念
を加えた集合に遷移する。パラレルシソーラスのナビゲ
ーションシステムにおいて、第1言語の概念の集合から
第2言語の概念の集合への遷移手段は次のように作用す
る。[0025] The transition means may convert a set of terms or concepts of the first language into a term or concept of the second language connected to the terms or concepts in the set, and convert the terms or concepts of the second language. A transition is made to a set in which terms or concepts that are related terms or concepts and are not combined with the terms or concepts in the first language are added. In a parallel thesaurus navigation system, the means for transitioning from the set of concepts in the first language to the set of concepts in the second language operates as follows.
【0026】遷移前の概念集合中の概念に結合された第
2言語の概念と、それらの第2言語の概念と関連が強
く、かつ第1言語の概念と結合されていない第2言語の
概念を併せて遷移後の概念集合を構成する。これによ
り、パラレルシソーラスにおいて陽に結合されていない
概念を含めて、第1言語の概念集合から関連する第2言
語の概念集合へ遷移することができる。The concept of the second language combined with the concept in the concept set before the transition, and the concept of the second language that is strongly related to the concept of the second language and is not combined with the concept of the first language Are combined to form a concept set after the transition. As a result, it is possible to make a transition from the concept set of the first language to the related concept set of the second language, including concepts that are not explicitly connected in the parallel thesaurus.
【0027】[0027]
【発明の実施の形態】以下、本発明の実施の形態を添付
図面と対応して詳細に説明する。図1は、本発明の実施
の形態によるパラレルシソーラスの生成装置と、該装置
を含むパラレルシソーラスナビゲーションシステムの構
成を説明するブロック図である。なお、本実施の形態で
は、二つの言語のシソーラスが結合されたパラレルシソ
ーラスとして、日本語と英語とによるパラレルシソーラ
スの生成について説明する。Embodiments of the present invention will be described below in detail with reference to the accompanying drawings. FIG. 1 is a block diagram illustrating a configuration of a parallel thesaurus generation device according to an embodiment of the present invention and a parallel thesaurus navigation system including the device. In the present embodiment, a description will be given of the generation of a parallel thesaurus in Japanese and English as a parallel thesaurus in which a thesaurus of two languages is combined.
【0028】本実施の形態によるパラレルシソーラスナ
ビゲーションシステム(以下、システムと呼ぶ)は、通
信ネットワーク3を介して互いに接続されるサーバ計算
機1とクライアント計算機2により構成される。The parallel thesaurus navigation system (hereinafter, referred to as a system) according to the present embodiment includes a server computer 1 and a client computer 2 connected to each other via a communication network 3.
【0029】サーバ計算機1は、日本語のシソーラスと
英語のシソーラスとを対応付けるパラレルシソーラス生
成処理と、本システムの処理のうち、シソーラスの検索
処理等を行う。このサーバ計算機1は、処理装置11、
入力装置12及び記憶装置13により主に構成される。The server computer 1 performs a parallel thesaurus generation process for associating a Japanese thesaurus with an English thesaurus, and performs a thesaurus search process among the processes of the present system. The server computer 1 includes a processing device 11,
It is mainly composed of the input device 12 and the storage device 13.
【0030】処理装置11は、サーバ計算機1の全体の
処理を実行する。特に、後述する図2から図4に示すパ
ラレルシソーラスの生成に関わる各データ処理を実行す
る。入力装置12は、テキストコーパスの入手媒体に応
じてCD−ROMドライブ、フロッピー(登録商標)デ
ィスクドライブ等であり、テキストコーパスの入力に用
いられる。The processing device 11 executes the entire processing of the server computer 1. In particular, it executes each data processing related to the generation of the parallel thesaurus shown in FIGS. The input device 12 is a CD-ROM drive, a floppy (registered trademark) disk drive, or the like, depending on the text corpus acquisition medium, and is used to input the text corpus.
【0031】記憶装置13は、RAM、ROM、光磁気
ディスクライブラリ装置(図示せず)等の記憶手段を総
称しており、たとえば、サーバ計算機1の処理プログラ
ム等はROMに固定的に格納され、サーバ計算機1の処
理の過程で作成されたデータ、作業ファイル等はRAM
に一時的に格納され、さらに各言語のコーパス、シソー
ラス及び対訳辞書(図2参照)等は光磁気ライブラリ装
置等の大容量記憶装置に格納される。The storage device 13 is a general term for storage means such as a RAM, a ROM, and a magneto-optical disk library device (not shown). For example, a processing program of the server computer 1 is fixedly stored in the ROM. Data and work files created in the course of processing of the server computer 1 are stored in a RAM.
The corpus, thesaurus and bilingual dictionary (see FIG. 2) of each language are stored in a large-capacity storage device such as a magneto-optical library device.
【0032】クライアント計算機2は、本システムの処
理のうち、サーバ計算機1の検索結果として送信される
シソーラスの表示、ユーザとの対話処理等を行う。つぎ
に、図2から図4を用いてパラレルシソーラスの生成処
理の詳細を説明する。The client computer 2 performs the display of the thesaurus transmitted as the search result of the server computer 1 and the interactive processing with the user among the processing of the present system. Next, the details of the parallel thesaurus generation processing will be described with reference to FIGS.
【0033】図2は、パラレルシソーラス生成装置にお
ける入出力データとモジュール構成を機能的に説明する
図である。パラレルシソーラス生成装置の入力は、日本
語コーパス51と英語コーパス52とが対になった日英
二言語テキストコーパスである。日本語コーパス51と
英語コーパス52とには同じ分野のテキストであるとい
う条件が課せられるが、対訳である必要はない。FIG. 2 is a diagram functionally explaining input / output data and a module configuration in the parallel thesaurus generation device. The input of the parallel thesaurus generator is a Japanese-English bilingual text corpus in which a Japanese corpus 51 and an English corpus 52 are paired. The Japanese corpus 51 and the English corpus 52 are subject to the condition that they are texts in the same field, but need not be a translation.
【0034】パラレルシソーラス生成装置の出力は、日
本語概念関連シソーラス61、英語概念関連シソーラス
62、日英概念結合データ63、英日概念結合データ6
4からなる日英パラレルシソーラスである。日英概念結
合データ63と英日概念結合データ64は、情報の内容
は同じでレコード形式が違うだけである。冗長ではある
が、日英シソーラス結合処理の効率を考慮して、両方を
出力する。The output of the parallel thesaurus generator is a Japanese concept related thesaurus 61, an English concept related thesaurus 62, Japanese-English combined data 63, English-Japanese combined data 6
4 Japanese-English parallel thesaurus. The combined data 63 and the combined data 64 have the same information but different record formats. Although both are redundant, both are output in consideration of the efficiency of the Japanese-English thesaurus combining process.
【0035】パラレルシソーラス生成装置を構成するモ
ジュールは、日本語シソーラス生成10、英語シソーラ
ス生成20、及び日英シソーラス結合30である。日本
語シソーラス生成10は、日本語コーパス51から日本
語ターム関連シソーラス71を生成する。英語シソーラ
ス生成20は、英語コーパス52から英語ターム関連シ
ソーラス72を生成する。日英シソーラス結合30は、
日英対訳辞書73と英日対訳辞書74を参照して、日本
語ターム関連シソーラス71と英語ターム関連シソーラ
ス72とから日本語概念関連シソーラス61、英語概念
関連シソーラス62、日英概念結合データ63、及び英
日概念結合データ64を生成する。日英対訳辞書73と
英日対訳辞書74は、情報の内容は同じでレコード形式
が違うだけである。冗長ではあるが、日英シソーラス結
合処理の効率を考慮して、両方を使用する。The modules constituting the parallel thesaurus generation device are a Japanese thesaurus generation 10, an English thesaurus generation 20, and a Japanese-English thesaurus combination 30. The Japanese thesaurus generation 10 generates a Japanese term-related thesaurus 71 from the Japanese corpus 51. The English thesaurus generator 20 generates an English term-related thesaurus 72 from the English corpus 52. The Japanese-English thesaurus combination 30
Referring to the Japanese-English bilingual dictionary 73 and the English-Japanese bilingual dictionary 74, the Japanese term-related thesaurus 71 and the English term-related thesaurus 72 are used to convert the Japanese concept-related thesaurus 61, the English concept-related thesaurus 62, the Japanese-English concept combined data 63, And the English-Japanese concept combined data 64 is generated. The Japanese-English bilingual dictionary 73 and the English-Japanese bilingual dictionary 74 have the same information content but different record formats. Although redundant, both are used in consideration of the efficiency of the Japanese-English thesaurus combining process.
【0036】図3は、日本語シソーラス生成10の処理
の詳細を説明する図である。図3に示すように、日本語
シソーラスを生成する処理は、ターム抽出101、共起
データ抽出102、及び相関解析103の3つのステッ
プからなる。FIG. 3 is a diagram for explaining the details of the processing of the Japanese thesaurus generation 10. As shown in FIG. 3, the process of generating a Japanese thesaurus includes three steps: term extraction 101, co-occurrence data extraction 102, and correlation analysis 103.
【0037】(1)ターム抽出101 日本語コーパス51からタームを抽出して、出現頻度を
カウントする。タームとしては、出現頻度が予め定めた
閾値以上の名詞と複合名詞を抽出する。複合名詞は、品
詞列パターンを用いたパターンマッチングによって抽出
する。高頻度語の中には、特に分野に関係のない一般的
な語も多い。それらは、ストップワードリストを用いて
取り除く。(1) Term Extraction 101 Terms are extracted from the Japanese corpus 51, and the appearance frequency is counted. As terms, nouns and compound nouns whose appearance frequency is equal to or greater than a predetermined threshold are extracted. Compound nouns are extracted by pattern matching using a part-of-speech sequence pattern. Among the high-frequency words, there are many general words that are not particularly related to the field. They are removed using a stopword list.
【0038】このストップワードリストに関して、たと
えば、“上記”を先頭要素のストップワードとすること
により、“上記システム”というような名詞句を除外で
きる。同様に、“全体”を末尾要素のストップワードと
することにより、“システム全体”というような名詞句
を除外できる。With respect to this stop word list, for example, by using “above” as the stop word of the head element, a noun phrase such as “above system” can be excluded. Similarly, a noun phrase such as "entire system" can be excluded by setting "entire" as a stop word of the last element.
【0039】(2)共起データ抽出102 共起するタームの対を抽出して、共起頻度をカウントす
る。共起の定義としてはウィンドウ共起を採用する。す
なわち、一定の幅をもったウィンドウをテキストに沿っ
て移動させながら、各位置でのウィンドウに含まれるタ
ームの対を抽出する。ウィンドウの幅は、たとえば機能
語を除いて25タームとする。 (3)相関解析103 全てのターム対に対して統計的な相関値を計算し、予め
定めた閾値以上の相関値をもつターム対を抽出する。タ
ームの相関値としては相互情報量を用いる。(2) Co-occurrence Data Extraction 102 A pair of co-occurring terms is extracted, and the co-occurrence frequency is counted. Window co-occurrence is adopted as the definition of co-occurrence. That is, while moving a window having a certain width along the text, a pair of terms included in the window at each position is extracted. The width of the window is, for example, 25 terms excluding the function word. (3) Correlation analysis 103 A statistical correlation value is calculated for all the term pairs, and a term pair having a correlation value equal to or greater than a predetermined threshold is extracted. Mutual information is used as a term correlation value.
【0040】以上述べた(1)〜(3)のステップの結
果として、日本語ターム関連シソーラス71が得られ
る。日本語ターム関連シソーラス71は、日本語の各タ
ームに対する関連ターム集合を表すレコードの集まりで
ある。すなわち、 RTJ(xi)={x(i,1),x(i,2),・・・,x(i,mi)} (i=
1,2,・・・,M). ここで、xiは日本語ターム、x(i,mi)は関連ターム、
iは各タームに付される番号、miは第i日本語タームの
関連ターム数、Mは日本語タームの総数である。レコー
ドの例を以下に示す。As a result of the above steps (1) to (3), a Japanese term-related thesaurus 71 is obtained. The Japanese term-related thesaurus 71 is a set of records representing a related term set for each Japanese term. That is, RT J (x i ) = {x (i, 1), x (i, 2),..., X (i, m i )} (i =
1, 2,..., M). Here, x i is a Japanese term, x (i, m i ) is a related term,
i is number assigned to each term, m i is related terms the number of the i Japanese term, M is the total number of Japanese terms. An example of a record is shown below.
【0041】RTJ(銀行)={ローン,金利,口座,利率,証
券,経済,金融,投資}. RTJ(金利)={ローン,貸出し,預貯金,引き上げ,銀
行}. 以上、日本語シソーラス生成10の処理を説明したが、
英語シソーラス生成20の処理も、日本語シソーラス生
成10と全く同様である。英語シソーラスの生成処理の
結果として、英語ターム関連シソーラス72が得られ
る。英語ターム関連シソーラス72は、英語の各ターム
に対する関連ターム集合を表すレコードの集まりであ
る。すなわち、 RTE(yi)={y(i,1),y(i,2),・・・,y(i,ni)} (i=
1,2,・・・,N). ここで、yiは英語ターム、y(i,ni)は関連ターム、i
は各タームに付される番号、niは第i英語タームの関連
ターム数、Nは英語タームの総数である。レコードの例
を以下に示す。 RTE(bank)={account,river,interest,loan,boat,inv
estment,fishing,park,economy,lake}. RTE(interest)={loan,deposit,bank,sciene,econom
y,exchange,politics}.RT J (bank) = {loan, interest rate, account, interest rate, securities, economy, finance, investment}. RT J (interest rate) = {loan, lending, savings, raising, bank}. The processing of the Japanese thesaurus generation 10 has been described above.
The processing of the English thesaurus generation 20 is exactly the same as the Japanese thesaurus generation 10. As a result of the English thesaurus generation processing, an English term-related thesaurus 72 is obtained. The English term related thesaurus 72 is a set of records representing a related term set for each English term. That is, RT E (y i ) = {y (i, 1), y (i, 2),..., Y (i, n i )} (i =
1, 2,..., N). Where y i is the English term, y (i, n i ) is the related term, i
The number assigned to each term, n i is related terms the number of the i English term, N is the is the total number of English terms. An example of a record is shown below. RT E (bank) = {account , river, interest, loan, boat, inv
estment, fishing, park, economy, lake}. RT E (interest) = {loan, deposit, bank, sciene, econom
y, exchange, politics}.
【0042】図4は、日英シソーラス結合モジュール3
0の処理の詳細を説明する図である。図4に示すよう
に、日英シソーラス結合処理は、日英ターム結合30
1、日本語概念ラベル生成302、英語概念ラベル生成
303、日英概念結合304、日本語概念関連シソーラ
ス生成305、英語概念関連シソーラス生成306、日
本語概念マージ307、及び英語概念マージ308の8
つのステップからなる。以下、これらの処理の詳細を説
明する。FIG. 4 shows a Japanese-English thesaurus combining module 3
FIG. 7 is a diagram for explaining the details of the process of 0. As shown in FIG. 4, the Japanese-English thesaurus combining process includes a Japanese-English term combining 30
1. Japanese concept label generation 302, English concept label generation 303, Japanese-English concept combination 304, Japanese concept related thesaurus generation 305, English concept related thesaurus generation 306, Japanese concept merge 307, and English concept merge 308
Consists of two steps. Hereinafter, details of these processes will be described.
【0043】(1)日英ターム結合301 日英対訳辞書73と英日対訳辞書74を参照して、日本
語ターム関連シソーラス71と英語ターム関連シソーラ
ス72の間で対応するタームを結合し、日英ターム結合
データ91と英日ターム結合データ92とを出力する。
日英ターム結合の入力のうち、日本語ターム関連シソー
ラス71と英語ターム関連シソーラス72とは既に説明
したので、日英対訳辞書73と英日対訳辞書74とにつ
いて説明する。(1) Japanese-English Term Combination 301 Referring to the English-Japanese bilingual dictionary 73 and the English-Japanese bilingual dictionary 74, the corresponding terms between the Japanese term-related thesaurus 71 and the English term-related thesaurus 72 are combined, and The English term combination data 91 and the English-Japanese term combination data 92 are output.
Since the Japanese term-related thesaurus 71 and the English term-related thesaurus 72 have already been described in the input of the Japanese-English term combination, the Japanese-English bilingual dictionary 73 and the English-Japanese bilingual dictionary 74 will be described.
【0044】日英対訳辞書73は、日本語の各タームに
対する対訳英語ターム集合を表すレコードの集まりであ
る。すなわち、 DJE(ai)={b(i,1),b(i,2),・・・,b(i,li)} (i=1,
2,・・・,K). ここで、aは日本語ターム、bは英語タームである。レ
コードの例を以下に示す。 DJE(銀行)={bank}. DJE(岸)={bank}.The Japanese-English bilingual dictionary 73 is a collection of records representing a bilingual English term set for each Japanese term. That, D JE (a i) = {b (i, 1), b (i, 2), ···, b (i, l i)} (i = 1,
2, ..., K). Here, a is a Japanese term and b is an English term. An example of a record is shown below. D JE (bank) = {bank}. D JE (shore) = {bank}.
【0045】英日対訳辞書74は、英語の各タームに対
する対訳日本語ターム集合を表すレコードの集まりであ
る。すなわち、 DEJ(bi)={a(i,1),a(i,2),・・・,a(i,ki)} (i=
1,2,・・・,L). ここで、bは英語ターム、aは日本語タームである。レ
コードの例を以下に示す。 DEJ(bank)={銀行,バンク,岸}. DEJ(interest)={興味,金利,利率}.The English-Japanese bilingual dictionary 74 is a set of records representing a bilingual Japanese term set for each English term. That, D EJ (b i) = {a (i, 1), a (i, 2), ···, a (i, k i)} (i =
1, 2,..., L). Here, b is an English term and a is a Japanese term. An example of a record is shown below. D EJ (bank) = {bank, bank, bank}. D EJ (interest) = {interest, interest, interest}.
【0046】次に、日英ターム結合の出力について説明
する。日英ターム結合データ91と英日ターム結合デー
タ92とは、同じ情報を異なる形式で表現したものであ
る。冗長ではあるが、後続の処理の効率を考慮して両方
を出力する。日英ターム結合データ91は、日本語ター
ムの各々について、それに結合された英語タームの集合
を表すレコードの集まりである。すなわち、 TLJE(xi)={y'(i,1),y'(i,2),・・・,y'(i,n'i)}
(i=1,2,・・・,M). ここで、xは日本語ターム,y'は英語タームである。Next, the output of the Japanese-English term combination will be described. The English-Japanese term combination data 91 and the English-Japanese term combination data 92 represent the same information in different formats. Although both are redundant, both are output in consideration of the efficiency of the subsequent processing. The Japanese-English term combination data 91 is a set of records representing a set of English terms combined with each of the Japanese terms. That is, TL JE (x i ) = {y ′ (i, 1), y ′ (i, 2),..., Y ′ (i, n ′ i )}
(i = 1, 2,..., M). Here, x is a Japanese term and y 'is an English term.
【0047】英日ターム結合データ92は、英語ターム
の各々について、それに結合された日本語タームの集合
を表すレコードの集まりである。すなわち、 TLEJ(yi)={x'(i,1),x'(i,2),・・・,x'(i,m'i)}
(i=1,2,・・・,N). ここで、yは英語ターム、x'は日本語タームである。The English-Japanese term combination data 92 is a set of records representing a set of Japanese terms combined with each English term. That is, TL EJ (y i ) = {x ′ (i, 1), x ′ (i, 2),..., X ′ (i, m ′ i )}
(i = 1, 2,..., N). Here, y is an English term and x 'is a Japanese term.
【0048】日英ターム結合301のアルゴリズムは次
のとおりである。 1)日英ターム結合データ91を初期化する。すなわ
ち、 TLJE(xi)←φ (i=1,2,・・・,M). 2)英日ターム結合データ92を初期化する。すなわ
ち、 TLEJ(yi)←φ (i=1,2,・・・,N).The algorithm of the Japanese-English term combination 301 is as follows. 1) Initialize the Japanese-English term combination data 91. That is, TL JE (x i ) ← φ (i = 1, 2,..., M). 2) Initialize the English-Japanese term combination data 92. That is, TL EJ (y i ) ← φ (i = 1, 2,..., N).
【0049】3)次の2つの条件を満足する、日本語タ
ームxと英語タームyとを結合する。 (a)対訳関係<x,y>が対訳辞書によってサポート
されている。 (b)対訳関係<x,y>のドメイン関連度DR(x,y)
が予め定めた閾値以上である。 すなわち、(a)及び(b)を満足する全ての日本語タ
ームxと英語タームyの対に関して、 TLJE(x)←TLJE(x)∪{y}及びTLEJ(y)←TLEJ
(y)∪{x}. を実行する。 (a)xがk個のタームx1,x2,・・・,xkの並び,yがk
個のタームy1,y2,・・・,ykの並びであって、{y'1,y'
2,・・・,y'k}={y1,y2,・・・,yk}であるようなy'1(∈
DJE(x1)),y'2(∈DJE(x2)),・・・,y'k(∈DJE(xk))
が存在する。 (b) DR(x,y)≧θ.3) A Japanese term x and an English term y satisfying the following two conditions are combined. (A) The bilingual relation <x, y> is supported by the bilingual dictionary. (B) Domain relevance DR (x, y) of bilingual relationship <x, y>
Is greater than or equal to a predetermined threshold. That is, for all pairs of Japanese terms x and English terms y that satisfy (a) and (b), TL JE (x) ← TL JE (x) ∪ {y} and TL EJ (y) ← TL EJ
(y) {{x}. Execute (A) x is a sequence of k terms x 1 , x 2 ,..., X k , y is k
Number of term y 1, y 2, ···, a sequence of y k, {y '1, y'
2, ···, y 'k} = {y 1, y 2, ···, y as is y k}' 1 (∈
D JE (x 1 )), y ' 2 (∈D JE (x 2 )), ..., y' k (∈D JE (x k ))
Exists. (B) DR (x, y) ≧ θ.
【0050】条件(a)により、日本語タームxと英語
タームyとが対訳関係にあるかを知るために、構成要素
の間での対訳関係が成立しているかが、集合におけるタ
ームの順番を問わずにチェックされる。特に、k=1の
ときy∈DJE(x)となる。すなわち、対訳辞書に登録さ
れているターム対であることを意味する。k≧2のと
き、構成要素間の対訳関係が、対訳辞書に登録されてい
るような複合語タームの対であることを意味する。条件
(b)により、対訳辞書が示唆する対訳関係がドメイン
で成立する関係であるかがチェックされる。対訳関係<
x,y>のドメイン関連度DR(x,y)は次式で定義され
る。According to the condition (a), in order to know whether the Japanese term x and the English term y are in a bilingual relation, it is determined whether or not a bilingual relation is established between the constituent elements by determining the order of the terms in the set. Checked regardless. In particular, when k = 1, y∈D JE (x). That is, it means that the term pair is registered in the bilingual dictionary. When k ≧ 2, it means that the bilingual relationship between the constituent elements is a pair of compound terms registered in the bilingual dictionary. Based on the condition (b), it is checked whether the bilingual relationship suggested by the bilingual dictionary is a relationship that holds in the domain. Translation <
The domain relevance DR (x, y) of x, y> is defined by the following equation.
【0051】[0051]
【数1】 (Equation 1)
【0052】DRJE(x,y)は、日本語タームの関連タ
ームのうち、英語訳が英語タームの関連タームであるも
のの比率である。すなわち、ある日本語タームがどのよ
うな文脈で出現するかを示す出現文脈が、英語タームの
出現文脈と重なる度合である。また、DREJ(x,y)
は、英語タームの出現文脈が日本語タームの出現文脈と
重なる度合である。多少なりとも出現文脈に共通性があ
れば、対訳関係がドメインで成立すると考えてよいの
で、ドメイン関連度の閾値θは小さめに設定するのがよ
い。以上のアルゴリズムにより、日英ターム結合301
が実行される。DR JE (x, y) is a ratio of Japanese terms related terms whose English translation is English terms among the related terms. That is, the appearance context indicating the context in which a certain Japanese term appears is the degree to which the appearance context of the English term overlaps. DR EJ (x, y)
Is the degree to which the appearance context of the English term overlaps the appearance context of the Japanese term. If the appearance contexts have some degree of commonality, it can be considered that a bilingual relationship is established in the domain, so the threshold value θ of the domain relevance should be set to a small value. By the above algorithm, the Japanese-English term combination 301
Is executed.
【0053】(2)日本語概念ラベル生成302 (3)英語概念ラベル生成303 日本語概念ラベル生成302と英語概念ラベル生成30
3の処理は、日本語と英語の役割が反転する以外は全く
同様である。したがって、ここでは英語概念ラベル生成
303について説明する。(2) Japanese concept label generation 302 (3) English concept label generation 303 Japanese concept label generation 302 and English concept label generation 30
The processing of 3 is exactly the same except that the roles of Japanese and English are reversed. Therefore, here, the English concept label generation 303 will be described.
【0054】英語概念ラベル生成ステップ303は、英
日ターム結合データ92と日本語ターム関連シソーラス
71とに基づいて、英語タームの各々から一つ以上の英
語概念ラベルを生成する。さらに、生成した英語概念ラ
ベルの各々に対して関連タームの集合を生成する。この
ために、英語ターム関連シソーラス72、日英ターム結
合データ91、日本語ターム関連シソーラス71、英日
ターム結合データ92を参照する。The English concept label generation step 303 generates one or more English concept labels from each of the English terms based on the English-Japanese term combination data 92 and the Japanese term-related thesaurus 71. Further, a set of related terms is generated for each of the generated English concept labels. For this purpose, the English term related thesaurus 72, the Japanese-English term combined data 91, the Japanese term related thesaurus 71 and the English-Japanese term combined data 92 are referred to.
【0055】英語概念ラベル生成303の入力データは
既に説明済みであるので、出力データを説明する。英語
概念ラベルは、タームを組み合せたものであり、以下の
ように定義される。 <英語概念ラベル>:=<英語ターム>|<英語ターム
>・<日本語修飾子>|<英語概念ラベル>+<英語概
念ラベル>. <日本語修飾子>:=<日本語ターム>|<日本語修飾
子>/<日本語ターム>.Since the input data of the English concept label generation 303 has already been described, the output data will be described. An English concept label is a combination of terms and is defined as follows. <English concept label>: = <English term> | <English term> / <Japanese modifier> | <English concept label> + <English concept label>. <Japanese modifier>: = <Japanese term> | <Japanese modifier> / <Japanese term>.
【0056】<英語ターム>・<日本語ターム>/.../
<日本語ターム>は、英語タームが表す概念のうち、日
本語タームが表す概念と共通の概念を指示する。たとえ
ば、「bank・銀行」は、お金に関わる業務を行う組織と
してのbankを指示し、「bank・岸」は、川や湖に沿った
場所としてのbankを指示する。<英語概念ラベル>+<
英語概念ラベル>は、二つの概念ラベルが指示する概念
の共通部分を核とし、それぞれの概念ラベルが指示する
概念を合わせた範囲の概念を指示する。「duty・税+ta
x」、「plane・飛行機+airplane」、及び「reasoning+in
ference」などが例である。<English terms> / <Japanese terms> /.../
<Japanese term> indicates a concept common to the concept represented by the Japanese term among the concepts represented by the English term. For example, "bank / bank" indicates a bank as an organization that performs business related to money, and "bank / bank" indicates a bank as a location along a river or lake. <English concept label> + <
The English concept label> designates, as a core, a common part of the concept indicated by the two concept labels, and a concept in a range in which the concept indicated by each concept label is combined. `` Duty / tax + ta
x "," plane / airplane + airplane ", and" reasoning + in
ference "is an example.
【0057】英語概念ラベルデータ94は、各英語ター
ムyに対応する英語概念ラベル集合を表すレコードC
E(y)の集まりである。英語概念ラベル集合の例を示
す。 CE(interest)={interest・興味,interest・金利/利
率}. このレコードCE(interest)は、英日ターム結合データ
92中に TLEJ(interest)={興味,金利,利率}. なるレコードが含まれるとき、それに対応して生成され
る。The English concept label data 94 is a record C representing a set of English concept labels corresponding to each English term y.
A collection of E (y). 4 shows an example of a set of English concept labels. C E (interest) = {interest / interest / interest / interest rate}. This record C E (interest) contains TL EJ (interest) = {interest, interest, interest rate} in the English-Japanese term combination data 92. When a record is included, it is generated correspondingly.
【0058】英語概念の関連タームデータ96は、各英
語概念ラベルに対する関連ターム集合を表すレコードの
集まりで、以下のように記す。 RTE(Yi)={y(N+i,1),y(N+i,2),・・・,y(N+i,nN+i)}
(i=1,2,・・・,Q). ここで、Yは英語概念ラベル、yは英語タームである。The English concept related term data 96 is a set of records representing a related term set for each English concept label, and is described as follows. RT E (Y i ) = {y (N + i, 1), y (N + i, 2),..., Y (N + i, n N + i )}
(i = 1, 2,..., Q). Here, Y is an English concept label, and y is an English term.
【0059】英語概念の関連タームデータ96は、最終
目的である英語概念関連シソーラス62を生成するため
の中間データである。英語概念関連シソーラス62とし
て必要なのは、関連ターム集合ではなく、関連概念集合
である。しかし、全てのタームに対する概念ラベル集合
を生成してからでないと、関連概念集合を作成すること
はできない。そこで、暫定的に関連ターム集合を作成し
ておき、後続の英語概念関連シソーラス生成306にお
いて関連概念集合に変換する。The English concept related term data 96 is intermediate data for generating the English concept related thesaurus 62 as the final purpose. What is required as the English concept relation thesaurus 62 is not a relation term set but a relation concept set. However, a related concept set cannot be created until a concept label set for all terms has been generated. Therefore, a related term set is tentatively created, and is converted into a related concept set in the subsequent English concept related thesaurus generation 306.
【0060】英語タームyに対する英語概念ラベル集合
CE(y)と、CE(y)中の概念ラベルに対する関連ターム
集合を生成するアルゴリズムは次のとおりである。 1)英語タームyが少なくとも一つの日本語タームと結
合されているとき i)英語概念ラベル集合の初期データを作成する。英語
タームyに結合された日本語タームの各々を日本語修飾
子とする英語概念ラベルを生成し、その要素とする。す
なわち、 CE(y)←{y・x|x∈TLEJ(y)}. ii)二つの英語概念の類似度が予め定めた閾値α以上で
あるなら、それらを一つの英語概念に統合する処理を可
能な限り繰り返す。すなわち、 While ∃y・x1/x2/…/xk(∈CE(y)) and y・x'1/x'2/・・・/x'k'(∈CE(y)) s.t. S(y・x1/x2/・・・/xk,y・x'1/x'2/・・・/x'k')≧α, CE(y)←CE(y)−{y・x1/x2/・・・/xk,y・x'1/x'2/・・・/x'k'} +{y・x1/x2/・・・/xk/x'1/x'2/・・・/x'k'}. ここで、共通の英語タームyに関わる二つの英語概念Y
1=y・x1/x2/・・・/x kとY2=y・x'1/x'2/・・・/x'k'
の類似度S(Y1,Y2)は次式で定義される。A set of English concept labels for the English term y
CE(y) and CERelated terms for concept labels in (y)
The algorithm for generating the set is as follows. 1) The English term y is connected to at least one Japanese term
I) Create initial data of English concept label set. English
Modify each of the Japanese terms combined with term y to Japanese
Generate an English concept label as a child and use it as its element. You
That is, CE(y) ← {y · x | x∈TLEJ(y)}. ii) If the similarity between two English concepts is greater than or equal to a predetermined threshold α
If so, allow them to be integrated into one English concept
Repeat as much as possible. That is, While ∃y · x1/ xTwo/… / Xk(∈CE(y)) and y ・ x '1/ x 'Two/.../X 'k '(∈CE(y)) s.t. S (y ・ x1/ xTwo/.../Xk, Y ・ x '1/ x 'Two/.../X 'k ') ≧ α, CE(y) ← CE(y)-{yx1/ xTwo/.../Xk, Y ・ x '1/ x 'Two/.../X 'k '} + {Yx1/ xTwo/.../Xk/ x '1/ x 'Two/.../X 'k '}. Here, two English concepts Y related to a common English term y
1= Yx1/ xTwo/.../X kAnd YTwo= Yx '1/ x 'Two/.../X 'k '
Similarity S (Y1, YTwo) Is defined by the following equation.
【0061】[0061]
【数2】 (Equation 2)
【0062】すなわち、概念ラベルを構成する日本語修
飾子の関連ターム集合間の重なり度で定義される。 iii)処理ii)の結果として得られた英語概念の各々に
対して関連ターム集合データを作成する。英語概念y・
x1/x2/・・・/xkの関連ターム集合RTE(y・x1/x2/・・
・/xk)は次式のとおりである。That is, it is defined by the degree of overlap between related term sets of Japanese modifiers constituting a concept label. iii) Create related term set data for each of the English concepts obtained as a result of process ii). English concept y
The related term set RT E of x 1 / x 2 /.../x k (y · x 1 / x 2 / ···
* / X k ) is as follows.
【0063】[0063]
【数3】 (Equation 3)
【0064】ここで、JM1は日本語修飾子の要素の集
合である。すなわち、JM1={x1,x2,・・・,xk}.J
M2は英語タームyに結合された日本語タームの集合か
ら日本語修飾子の要素を除いたものである。すなわち、
JM2=TLEJ(y)−JM1. 2)英語タームyが日本語タームxと結合されていない
とき i)英語タームyそのものを概念ラベルとする。英語概
念ラベル集合はこれを唯一の要素とする。すなわち、 CE(y)←{y}. ii)英語タームyの関連ターム集合RTE(y)をそのま
ま英語概念ラベルyの関連ターム集合とする。 上記アルゴリズムの1)のii)における閾値αの設定に
ついて補足しておく。ここでの目的は、一つの英語ター
ムが表す複数の概念を区別するための日本語修飾子を得
ることである。したがって、閾値αは小さめに設定し、
類義の日本語訳語を一つの日本語修飾子に統合するのが
よい。Here, JM1 is a set of elements of the Japanese modifier. That, JM1 = {x 1, x 2, ···, x k}. J
M2 is a set of Japanese terms combined with the English term y, with the Japanese qualifier element removed. That is,
JM2 = TL EJ (y) -JM1 . 2) When the English term y is not combined with the Japanese term x i) The English term y itself is used as a concept label. The English concept label set has this as the only element. That is, C E (y) ← {y}. ii) The related term set RT E (y) of the English term y is used as it is as the related term set of the English concept label y. The setting of the threshold value α in 1) ii) of the above algorithm will be supplemented. The purpose here is to obtain a Japanese modifier to distinguish between multiple concepts represented by one English term. Therefore, the threshold value α is set smaller,
It is better to combine synonymous Japanese translations into one Japanese modifier.
【0065】日本語概念ラベル生成302は、英語概念
ラベル生成303と同様である。その出力である日本語
概念ラベルデータ93は、英語概念ラベルデータ94と
同様で、日本語の各タームxに対応する日本語概念ラベ
ル集合を表すレコードCJ(x)の集まりである。日本語
概念ラベルは英語概念ラベルと同様で、以下のようにタ
ームを組み合わせたものである。The Japanese concept label generation 302 is the same as the English concept label generation 303. The Japanese concept label data 93, which is the output, is a set of records C J (x) representing a Japanese concept label set corresponding to each Japanese term x, similarly to the English concept label data 94. The Japanese concept label is similar to the English concept label and is a combination of terms as follows.
【0066】<日本語概念ラベル>:=<日本語ターム
>|<日本語ターム>・<英語修飾子>|<日本語概念ラ
ベル>+<日本語概念ラベル>. <英語修飾子>:=<英語ターム>|<英語修飾子>/<
英語ターム>. 日本語概念ラベル生成302のもう一つの出力である日
本語概念の関連タームデータ95は、英語概念の関連タ
ームデータ96と同様で、日本語の各概念ラベルに対す
る関連ターム集合を表すレコードの集まりである。すな
わち、 RTJ(Xi)={x(M+i,1),x(M+i,2),・・・,x(M+i,nM+i)}
(i=1,2,・・・,P). ここで、Xは日本語概念ラベル、xは日本語タームであ
る。<Japanese concept label>: = <Japanese term> | <Japanese term> · <English modifier> | <Japanese concept label> + <Japanese concept label>. <English modifier>: = <English term> | <English modifier> / <
English terms>. The related term data 95 of the Japanese concept, which is another output of the Japanese concept label generation 302, is the same as the related term data 96 of the English concept, and is a set of records representing a related term set for each Japanese concept label. is there. That is, RT J (X i ) = {x (M + i, 1), x (M + i, 2),..., X (M + i, n M + i )}
(i = 1, 2,..., P). Here, X is a Japanese concept label, and x is a Japanese term.
【0067】(4)日英概念結合304 日英概念結合304は、日本語概念ラベルデータ93と
英語概念ラベルデータ94とを入力として、日英概念結
合データ63と英日概念結合データ64とを生成する。
日本語概念ラベルデータ93と英語概念ラベルデータ9
4とは説明済みであるので、まず日英概念結合データ6
3と英日概念結合データ64とについて説明する。(4) Japanese-English Concept Combination 304 The Japanese-English concept combination 304 receives the Japanese concept label data 93 and the English concept label data 94, and converts the Japanese-English concept combination data 63 and the English-Japanese concept combination data 64. Generate.
Japanese concept label data 93 and English concept label data 9
4 has already been explained.
3 and the English-Japanese concept combination data 64 will be described.
【0068】日英概念結合データ63は、日本語の各概
念について、それに結合された英語の概念の集合を表す
レコードの集まりである。すなわち、 CLJE(Xi)={Y'(i,1),Y'(i,2),・・・,Y'(i,q'i)}
(i=1,2,・・・,P). ここで、Xは日本語概念ラベル、Y'は英語概念ラベル
である。The Japanese-English combined data 63 is a set of records representing a set of English concepts combined with each Japanese concept. That is, CL JE (X i ) = {Y ′ (i, 1), Y ′ (i, 2),..., Y ′ (i, q ′ i )}
(i = 1, 2,..., P). Here, X is a Japanese concept label, and Y 'is an English concept label.
【0069】同様に、英日概念結合データ64は、英語
の各概念について、それに結合された日本語の概念の集
合を表すレコードの集まりである。すなわち、 CLEJ(Yi)={X'(i,1),X'(i,2),・・・,X'(i,p'i)}
(i=1,2,・・・,Q). ここで、Yは英語概念ラベル、X'は日本語概念ラベル
である。Similarly, the English-Japanese concept combined data 64 is a set of records representing a set of Japanese concepts combined with each English concept. That is, CL EJ (Y i ) = {X ′ (i, 1), X ′ (i, 2),..., X ′ (i, p ′ i )}
(i = 1, 2,..., Q). Here, Y is an English concept label, and X 'is a Japanese concept label.
【0070】日英概念結合データ63と英日概念結合デ
ータ64とを生成するアルゴリズムは次のとおりであ
る。 1)全ての日本語概念ラベルX=x・y1/y2/・・・/yk'に
対して、 CLJE(X)={Y|Y=y・x1/x2/・・・/xk(∈CE(y)),y∈ {y1,y2,・・・ ,yk'} ,{x1,x2,・・・,xk}∋x}. すなわち、Xの英語修飾子に含まれる英語タームyの英
語概念集合CE(y)の要素Yであって、日本語修飾子に
xを含むものの集合を生成する。The algorithm for generating the combined Japanese-English concept data 63 and the combined English-Japanese concept data 64 is as follows. Relative to 1) all Japanese concept labels X = x · y 1 / y 2 / ··· / y k ', CL JE (X) = {Y | Y = y · x 1 / x 2 / ·· · / x k (∈C E ( y)), y∈ {y 1, y 2, ···, y k '}, {x 1, x 2, ···, x k} ∋x}. That is, a set of elements Y of the English concept set C E (y) of the English term y included in the English qualifier of X and including x in the Japanese qualifier is generated.
【0071】2)全ての英語概念ラベルY=y・x1/x2
/・・・/xk'に対して、 CLEJ(Y)={X|X=x・y1/y2/・・・/yk(∈CJ(x)),x∈{x1,x2,・・・,xk ' } ,{y1,y2,・・・,yk}∋y}. すなわち、Yの日本語修飾子に含まれる日本語タームx
の日本語概念集合CJ(x)の要素Xであって、英語修飾
子にyを含むものの集合を生成する。2) All English concept labels Y = y · x 1 / x 2
/.../X k ' , CL EJ (Y) = {X | X = x · y 1 / y 2 /.../y k ({C J (x)), x} {x 1, x 2, ···, x k '}, {y 1, y 2, ···, y k} ∋y}. That is, the Japanese term x included in the Japanese modifier of Y
, A set of elements X of the Japanese concept set C J (x) that includes y in the English modifier.
【0072】日英概念結合304の出力例を示す。日本
語概念ラベルデータ93が CJ(興味)={興味・interest}、 CJ(金利)={金利・interest}、 CJ(利率)={利率・interest} であり、英語概念ラベルデータ94が CE(interest)={interest・興味,interest・金利/利率} であるとする。このとき、日英概念結合データ63とし
て CLJE(興味・interest)={interest・興味}、 CLJE(金利・interest)={interest・金利/利率}、 CLJE(利率・interest)={interest・金利/利率} が生成され、英日概念結合データ64として CLEJ(interest・興味)={興味・interest}、 CLEJ(interest・金利/利率)={金利・interest,利率・in
terest} が生成される。An output example of the Japanese-English concept combination 304 is shown. The Japanese concept label data 93 is C J (interest) = {interest / interest}, C J (interest) = {interest / interest}, C J (interest) = {interest / interest}, and the English concept label data 94 Is C E (interest) = {interest / interest / interest / interest / interest}. At this time, CL JE (interest / interest) = {interest / interest}, CL JE (interest / interest) = {interest / interest / interest}, CL JE (interest / interest) = {interest・ Interest / interest} is generated, and CL EJ (interest / interest) = {interest / interest}, CL EJ (interest / interest / interest) = {interest / interest, interest / in
terest} is generated.
【0073】ここで、概念ラベルの表記に関する一つの
規則を定める。ある英語タームに対応する英語概念がた
だ一つであるならば、日本語修飾子をつけることは無意
味であり、タームそのものを概念ラベルとして差し支え
ない。日本語タームに関しても同様である。上に述べた
日英概念結合304のアルゴリズムと違って、これ以降
の処理では、日本語修飾子や英語修飾子に基づく判断を
含まない。したがって、タームの唯一の概念である概念
については、概念結合データ63,64の出力時に、概
念ラベルをタームそのものに変更することにする。この
規則に従えば、上の例における日英概念結合データ63
は CLJE(興味)={interest・興味}、 CLJE(金利)={interest・金利/利率}、 CLJE(利率)={interest・金利/利率} となり、英日概念結合データ64は CLEJ(interest・興味)={興味}、 CLEJ(interest・金利/利率)={金利,利率} となる。ここでは、「興味」が単一の概念を表す語であ
るので、概念ラベル「興味・interest」が「興味」に略
記されている.「金利・interest」「利率・interest」も
同様で、それぞれ「金利」「利率」に略記されている.
一方、「interest」は複数の概念を表す語であるので、
概念ラベル「interest・興味」「interest・金利/利率」
を略記することはできない。Here, one rule regarding the notation of the concept label is determined. If there is only one English concept corresponding to an English term, it is meaningless to attach a Japanese qualifier, and the term itself can be used as a concept label. The same applies to Japanese terms. Unlike the algorithm of the Japanese-English concept combination 304 described above, the subsequent processing does not include the judgment based on the Japanese modifier or the English modifier. Therefore, for the concept that is the only concept of the term, the concept label is changed to the term itself when the concept combination data 63 and 64 are output. According to this rule, the concept data 63
Is CL JE (interest) = {interest / interest}, CL JE (interest) = {interest / interest / interest}, CL JE (interest) = {interest / interest / interest}, and the English-Japanese concept combined data 64 is CL EJ (interest / interest) = {interest}, CL EJ (interest / interest / interest) = {interest, interest}. Here, since "interest" is a word representing a single concept, the concept label "interest / interest" is abbreviated to "interest". The same applies to "interest rate / interest" and "interest rate / interest", which are abbreviated as "interest rate" and "interest rate", respectively.
On the other hand, "interest" is a word that represents multiple concepts,
Concept labels "interest / interest""interest / interest / interest rate"
Cannot be abbreviated.
【0074】(5)日本語概念関連シソーラス生成30
5 (6)英語概念関連シソーラス生成306 日本語概念関連シソーラス生成305は、日本語概念ラ
ベルデータ93と日本語概念の関連タームデータ95と
を入力して、日本語概念関連シソーラス61を出力す
る。英語概念関連シソーラス生成306は、英語概念ラ
ベルデータ94と英語概念の関連タームデータ96とを
入力として、英語概念関連シソーラス62を出力する。
これらの入力については説明済みである。(5) Japanese Concept Related Thesaurus Generation 30
5 (6) English concept related thesaurus generation 306 The Japanese concept related thesaurus generation 305 inputs the Japanese concept label data 93 and the Japanese term related term data 95 and outputs the Japanese concept related thesaurus 61. The English concept related thesaurus generation 306 receives the English concept label data 94 and the English concept related term data 96 and outputs the English concept related thesaurus 62.
These inputs have been described.
【0075】出力である日本語概念関連シソーラス61
と英語概念関連シソーラス62は次のとおりである。日
本語概念関連シソーラス61は、日本語の各概念の関連
概念集合を表すレコードの集まりである。すなわち、 RCJ(Xi)={X(i,1),X(i,2),・・・,X(i,pi)} (i=
1,2,・・・,P). ここで、Xは日本語概念ラベルである。関連概念集合の
例を以下に示す。Output Japanese Concept Related Thesaurus 61
And the English concept related thesaurus 62 are as follows. The Japanese concept related thesaurus 61 is a set of records representing a related concept set of each Japanese concept. That is, RC J (X i ) = {X (i, 1), X (i, 2),..., X (i, p i )} (i =
1,2, ..., P). Here, X is a Japanese concept label. An example of a related concept set is shown below.
【0076】RCJ(銀行)={ローン,金利,口座,利率,証
券,経済,金融,投資}. RCJ(岸)={川,水,ボート,湖,釣り}. 英語概念関連シソーラス62は、英語の各概念の関連概
念集合を表すレコードの集まりである。すなわち、 RCE(Yi)={Y(i,1),Y(i,2),・・・,Y(i,qi)} (i=
1,2,・・・,Q). ここで、Yは英語概念ラベルである。関連概念集合の例
を以下に示す。 RCE(bank・銀行)={account・口座,interest・金利/利
率,loan,investment,economy}. RCE(bank・岸)={river,boat,water,fishing,park・公
園,lake}.RC J (bank) = {loan, interest, account, interest, securities, economy, finance, investment}. RC J (shore) = {river, water, boat, lake, fishing}. The English concept related thesaurus 62 is a collection of records representing a related concept set of each English concept. That is, RC E (Y i ) = {Y (i, 1), Y (i, 2),..., Y (i, q i )} (i =
1,2, ..., Q). Here, Y is an English concept label. An example of a related concept set is shown below. RC E (bank) = {account, account, interest, interest / rate, loan, investment, economy}. RC E (bank / shore) = {river, boat, water, fishing, park / park, lake}.
【0077】英語概念関連シソーラス生成306のアル
ゴリズムは以下のとおりである。なお、日本語概念関連
シソーラス生成305のアルゴリズムも全く同様であ
る。英語概念Yの関連ターム集合RTE(Y)の各要素y
に対応して、yの概念ラベル集合CE(y)の要素のうち
Yとの相関度が最大のものを関連概念集合RCE(Y)の
要素として選択する。すなわち、The algorithm of the English concept related thesaurus generation 306 is as follows. The algorithm of the Japanese concept related thesaurus generation 305 is exactly the same. Each element y of the related term set RT E (Y) of the English concept Y
, The element of the concept label set CE (y) having the highest degree of correlation with Y is selected as an element of the related concept set RC E (Y). That is,
【0078】[0078]
【数4】 (Equation 4)
【0079】ここで、S2は関連ターム集合に基づく英
語概念の相関度で、次式で定義される。 S2(Y1,Y2)=|RTE(Y1)∩RTE(Y2)|/|RT
E(Y1)∪RTE(Y2)|. たとえば、英語概念「bank・銀行」の関連ターム集合が
「interest」を含み、英語ターム「interest」の概念ラ
ベル集合が{interest・興味,interest・金利/利率}である
とする。このとき、「bank・銀行」と「interest・興味」
との相関度、「bank・銀行」と「interest・金利/利率」
との相関度が計算される。後者の相関度が大きければ、
「bank・銀行」の関連概念集合の要素として「interest・
金利/利率」が選択される。Here, S 2 is the degree of correlation of the English concept based on the related term set, and is defined by the following equation. S 2 (Y 1 , Y 2 ) = | RT E (Y 1 ) ∩RT E (Y 2 ) | / | RT
E (Y 1 ) ∪RT E (Y 2 ) |. For example, the related term set of the English concept “bank / bank” includes “interest”, and the concept label set of the English term “interest” is {interest / interest, interest Interest rate / interest rate}. At this time, "bank / bank" and "interest / interest"
Correlation with "bank / bank" and "interest / interest / interest rate"
Is calculated. If the latter has a high degree of correlation,
As an element of the related concept set of "bank
"Interest / interest" is selected.
【0080】(7)日本語概念マージ307 (8)英語概念マージ308 日本語概念マージ307と英語概念マージ308の処理
は、日本語と英語の役割が反転する以外、全く同様であ
る。したがって、ここでは英語概念マージ308につい
て説明する。(7) Japanese Concept Merge 307 (8) English Concept Merge 308 The processing of the Japanese concept merge 307 and the English concept merge 308 are exactly the same except that the roles of Japanese and English are reversed. Therefore, here, the English concept merge 308 will be described.
【0081】英語概念マージ308は、日本語の同一概
念に結合された英語概念で類似度の高いものをマージし
て一つの概念にする。入力は、英語概念関連シソーラス
62、日英概念結合データ63、英日概念結合データ6
4であり、出力はそれらの更新データである。The English concept merge 308 merges English concepts combined with the same Japanese concept having a high degree of similarity into one concept. The input is an English concept related thesaurus 62, Japanese-English concept combined data 63, English-Japanese concept combined data 6
4 and the output is their updated data.
【0082】英語概念マージ308のアルゴリズムは以
下のとおりである。全ての日本語概念Xに関して、以下
の処理を可能な限り繰り返す。Y1,Y2∈CLJE(X)で
S3(Y1,Y2)≧βなる英語概念の組Y1,Y2が存在する
ならば、a)からc)を実行する。ここで、S3(Y1,Y
2)は英語概念Y1とY2の類似度で、次式で定義される。 S3(Y1,Y2)=|RCE(Y1)∩RCE(Y2)|/|RC
E(Y1)∪RCE(Y2)|.The algorithm of the English concept merge 308 is as follows. The following processing is repeated as much as possible for all Japanese concepts X. If Y 1, Y 2 ∈CL JE ( X) by S 3 (Y 1, Y 2 ) ≧ the set Y 1 of β becomes English concepts, Y 2 is present, executes c) from a). Here, S 3 (Y 1 , Y
2 ) is the similarity between the English concepts Y 1 and Y 2 and is defined by the following equation. S 3 (Y 1 , Y 2 ) = | RC E (Y 1 ) ∩RC E (Y 2 ) | / | RC
E (Y 1 ) ∪RC E (Y 2 ) |.
【0083】a)英語概念関連シソーラス62の更新 全てのY∈RCE(Y1)に関して、RCE(Y)←RCE(Y)
−{Y1}+{Y1+Y2}. 全てのY∈RCE(Y2)に関して、RCE(Y)←RCE(Y)
−{Y2}+{Y1+Y2}. RCE(Y1+Y2)←RCE(Y1)∪RCE(Y2). RCE(Y1)とRCE(y2)を消去する。A) Update of English Concept Related Thesaurus 62 For all Y∈RC E (Y 1 ), RC E (Y) ← RC E (Y)
− {Y 1 } + {Y 1 + Y 2 }. For all Y∈RC E (Y 2 ), RC E (Y) ← RC E (Y)
− {Y 2 } + {Y 1 + Y 2 }. RC E (Y 1 + Y 2 ) ← RC E (Y 1 ) ∪RC E (Y 2 ). Erase RC E (Y 1 ) and RC E (y 2 ).
【0084】b)日英概念結合データ63の更新 全てのx∈CLEJ(Y1)に関して、CLJE(X)←CL
JE(X)−{Y1}+{Y1+Y 2}. 全てのX∈CLEJ(Y2)に関して、CLJE(X)←CL
JE(X)−{Y2}+{Y1+Y 2}. c)英日概念結合データ64の更新 CLEJ(Y1+Y2)←CLEJ(Y1)∪CLEJ(Y2). CLEJ(Y1)とCLEJ(Y2)を消去する。B) Update of Japanese-English concept combined data 63 All x63CLEJ(Y1), CLJE(X) ← CL
JE(X)-{Y1} + {Y1+ Y Two}. All X∈CLEJ(YTwo), CLJE(X) ← CL
JE(X)-{YTwo} + {Y1+ Y Two}. c) Update of English-Japanese concept combined data 64 CLEJ(Y1+ YTwo) ← CLEJ(Y1) ∪CLEJ(YTwo). CLEJ(Y1) And CLEJ(YTwo).
【0085】上記アルゴリズム中の閾値βは大きめに設
定し、類似度が非常に高い概念のみをマージするのがよ
い。概念の範囲やニュアンスが異なるタームを別々のエ
ンティティとするほうが、利用価値の高いシソーラスに
なるからである。この点は、相手言語のタームが表す複
数の概念を区別することが目的の場合(英語概念ラベル
生成303のアルゴリズムにおける閾値α)と異なって
いる。It is preferable that the threshold value β in the above algorithm is set to be relatively large, and only concepts having a very high similarity are merged. This is because using a term with a different concept range or nuance as a separate entity results in a more useful thesaurus. This is different from the case where the purpose is to distinguish a plurality of concepts represented by the terms of the partner language (the threshold α in the algorithm of the English concept label generation 303).
【0086】以上説明した処理によって、日本語コーパ
ス51と英語コーパス52が対になった日英二言語テキ
ストコーパスから、日本語概念関連シソーラス61、英
語概念関連シソーラス62、日英概念結合データ63、
英日概念結合データ64からなる日英パラレルシソーラ
スを生成することができる。このように生成された日英
パラレルシソーラスは、図1に示す通信ネットワーク3
を介して、クライアント計算機2によるシソーラスナビ
ゲーションに利用される。つぎに、図5〜図7を用いて
本システムの処理を説明する。By the above-described processing, the Japanese-English bilingual text corpus in which the Japanese corpus 51 and the English corpus 52 are paired, the Japanese concept-related thesaurus 61, the English concept-related thesaurus 62, the Japanese-English concept combined data 63,
A Japanese-English parallel thesaurus composed of English-Japanese concept combined data 64 can be generated. The Japanese-English parallel thesaurus generated in this manner is connected to the communication network 3 shown in FIG.
Is used for thesaurus navigation by the client computer 2 via the. Next, the processing of this system will be described with reference to FIGS.
【0087】図5は、本システムにおいて、クライアン
ト計算機2の表示画面の内容を説明する図である。図5
に示す表示画面は、概念集合エリア1010、ズームイ
ンエリア1020及び機能選択ボタンから構成される。
機能選択ボタンには、ズームインボタン1030、翻訳
ボタン1040、クリアボタン1050、終了ボタン1
060がある。FIG. 5 is a diagram for explaining the contents of the display screen of the client computer 2 in the present system. FIG.
Is composed of a concept grouping area 1010, a zoom-in area 1020, and a function selection button.
The function selection buttons include a zoom-in button 1030, a translation button 1040, a clear button 1050, an end button 1
060.
【0088】ズームインエリア1020には、一つ以上
の概念クラスタ1021がそれに対応付けられた選択ボ
タン1022とともに表示される。この概念クラスタ1
021は、関連性の高い概念の集合である。たとえば、
“地球環境問題”に該当する概念クラスタであれば、
「地球温暖化」、「オゾン層」、「温室効果」、「フロ
ン」及び「大気」等の概念が表示される。クライアント
計算機2のユーザは、これら概念クラスタ1021を複
数指定することができる。In the zoom-in area 1020, one or more concept clusters 1021 are displayed together with the selection buttons 1022 associated therewith. This concept cluster 1
021 is a set of highly relevant concepts. For example,
If it is a concept cluster corresponding to “global environmental issues”,
Concepts such as “global warming”, “ozone layer”, “greenhouse effect”, “CFC”, and “atmosphere” are displayed. The user of the client computer 2 can designate a plurality of these concept clusters 1021.
【0089】図6は、本実施の形態によるパラレルシソ
ーラスナビゲーションシステムの処理を説明するフロー
チャートである。以下、図5に示した表示内容と対応し
て本システムの処理を説明する。最初に初期画面を表示
する(ステップ410)。初期画面では、概念集合エリ
ア1010とズームインエリア1020は空白である。
本システムには、「日本語」/「英語」を切り替える言
語インジケータが内部に設けられており、初期画面を表
示したときには、言語インジケータを「日本語」にす
る。FIG. 6 is a flowchart for explaining the processing of the parallel thesaurus navigation system according to the present embodiment. Hereinafter, the processing of the present system will be described corresponding to the display contents shown in FIG. First, an initial screen is displayed (step 410). On the initial screen, the concept set area 1010 and the zoom-in area 1020 are blank.
The system includes a language indicator for switching between "Japanese" and "English". When the initial screen is displayed, the language indicator is set to "Japanese".
【0090】初期画面表示(ステップ410)の後、入
力待ちの状態になる(ステップ420)。この状態で
は、概念集合エリア1010は書き込み可能であり、通
常、ユーザが一つ以上の日本語タームあるいは日本語概
念ラベルを書き込む。入力待ちの状態で押されたボタン
により、以下のように分岐する。After displaying the initial screen (step 410), the system is in a state of waiting for input (step 420). In this state, concept set area 1010 is writable, and the user typically writes one or more Japanese terms or Japanese concept labels. Depending on the button pressed while waiting for input, branching occurs as follows.
【0091】(1)ズームインボタン1030が押され
たとき 概念集合エリア1010に表示されている概念集合を読
み込む(ステップ430)。ユーザが概念集合エリア1
010に書き込むのは、通常、概念ラベルでなくターム
である。タームが書き込まれている場合には、該ターム
から生成された全ての概念ラベルが書き込まれていると
みなして処理する。この処理は、言語インジケータが
「日本語」のときには日本語概念関連シソーラス61を
参照し、言語インジケータが「英語」のときには英語概
念関連シソーラス62を参照することにより行われる。(1) When the zoom-in button 1030 is pressed The concept set displayed in the concept set area 1010 is read (step 430). User sets concept collection area 1
Writing to 010 is usually a term, not a concept label. If a term has been written, processing is performed assuming that all concept labels generated from the term have been written. This process is performed by referring to the Japanese concept related thesaurus 61 when the language indicator is "Japanese" and referring to the English concept related thesaurus 62 when the language indicator is "English".
【0092】つぎに、概念集合に含まれる概念と関連の
強い概念を加えて概念集合を拡大し、拡大された概念集
合をクラスタリングする(ステップ440)。この処理
は、言語インジケータが「日本語」のときには日本語概
念関連シソーラス61を参照し、言語インジケータが
「英語」のときには英語概念関連シソーラス62を参照
することにより行われる。最後に、得られた概念クラス
タを選択ボタン1022とともにズームインエリア10
20に表示し(ステップ450)、入力待ちの状態に戻
る。Next, the concept set is expanded by adding a concept strongly related to the concept included in the concept set, and the expanded concept set is clustered (step 440). This process is performed by referring to the Japanese concept related thesaurus 61 when the language indicator is "Japanese" and referring to the English concept related thesaurus 62 when the language indicator is "English". Finally, the obtained concept cluster is displayed together with the select button 1022 in the zoom-in area 10.
20 (step 450), and returns to the state of waiting for input.
【0093】(2)概念クラスタの選択ボタン1022
が押されたとき 選択された概念クラスタ1021を概念集合エリア10
10にコピー(上書き)し(ステップ460)、入力待
ちの状態に戻る。入力待ちの状態では、概念集合エリア
1010は書き込み可能であり、ユーザがタームあるい
は概念ラベルを追加したり、削除したりすることが可能
である。(2) Concept cluster selection button 1022
Is pressed. The selected concept cluster 1021 is added to the concept set area 10
10 (overwrite) (step 460), and return to the state of waiting for input. In the state of waiting for input, the concept set area 1010 is writable, and the user can add or delete terms or concept labels.
【0094】(3)翻訳ボタン1040が押されたとき 概念集合エリア1010に表示されている概念集合を読
み込む(ステップ470)。この処理はステップ430
と全く同じである。つぎに、概念集合を翻訳する(ステ
ップ480)。言語インジケータが「日本語」のときに
は日本語概念集合から英語概念集合への翻訳が実行さ
れ、言語インジケータが「英語」のときには英語概念集
合から日本語概念集合への翻訳が実行される。(3) When translation button 1040 is pressed The concept set displayed in concept set area 1010 is read (step 470). This processing is performed in step 430
Is exactly the same as Next, the concept set is translated (step 480). When the language indicator is "Japanese", the translation from the Japanese concept set to the English concept set is executed, and when the language indicator is "English", the translation from the English concept set to the Japanese concept set is executed.
【0095】最後に、翻訳結果を概念集合エリア101
0に表示(上書き)し、言語インジケータを反転させ
(ステップ490)、入力待ちの状態に戻る。入力待ち
の状態では、概念集合エリア1010は書き込み可能で
あり、ユーザがタームあるいは概念ラベルを追加した
り、削除したりすることが可能である。Finally, the translation result is stored in the concept set area 101.
0 is displayed (overwritten), the language indicator is inverted (step 490), and the process returns to the state of waiting for input. In the state of waiting for input, the concept set area 1010 is writable, and the user can add or delete terms or concept labels.
【0096】(4)クリアボタン1050が押されたと
き 初期画面表示状態(ステップ410)に戻る。 (5)終了ボタン1060が押されたとき 処理を終了する。 以上述べた処理により、言語間の遷移を含むパラレルシ
ソーラスのナビゲーションが可能になる。(4) When the clear button 1050 is pressed The display returns to the initial screen display state (step 410). (5) When the end button 1060 is pressed The processing ends. The above-described processing enables navigation of a parallel thesaurus including transition between languages.
【0097】図7は、本システムを特徴付ける概念集合
翻訳(ステップ480)の処理を詳細に説明する図であ
る。図7は、日本語概念集合を英語概念集合に翻訳する
処理を示したものであるが、英語概念集合を日本語概念
集合に翻訳する処理も全く同様である。FIG. 7 is a diagram for explaining in detail the concept set translation (step 480) which characterizes the present system. FIG. 7 shows a process of translating a Japanese concept set into an English concept set. The process of translating an English concept set into a Japanese concept set is exactly the same.
【0098】入力日本語概念集合が与えられると、日英
概念結合データ63を参照して、日本語概念集合中の日
本語概念に結合されている英語概念を集めて、核となる
英語概念集合を生成する(ステップ481)。When the input Japanese concept set is given, the English concepts connected to the Japanese concepts in the Japanese concept set are collected with reference to the Japanese-English concept combination data 63 to form the core English concept set. Is generated (step 481).
【0099】つぎに、英語概念関連シソーラス62を参
照して、この英語概念集合に含まれる英語概念と関連の
強い英語概念を集め、さらに、英日概念結合データ64
を参照して、関連英語概念のうちで日本語概念と結合さ
れていないものを選択する。核となる英語概念集合に選
択した英語概念を追加して翻訳結果とする(ステップ4
82)。Next, with reference to the English concept relation thesaurus 62, English concepts that are strongly related to the English concepts included in this English concept set are collected, and further, the English-Japanese concept combined data 64
And select a related English concept that is not combined with the Japanese concept. Add the selected English concept to the core English concept set to obtain the translation result (step 4
82).
【0100】日本語概念集合から英語疑念集合への翻訳
(遷移)の例を示す。入力の日本語概念集合は{地球温
暖化,オゾン層,温室効果,フロン,大気,二酸化炭
素,環境}であるとする。日英概念結合データ63は以
下のレコードを含むとする。An example of translation (transition) from a Japanese concept set to an English doubt set will be described. The Japanese concept set of input is {global warming, ozone layer, greenhouse effect, chlorofluorocarbon, atmosphere, carbon dioxide, environment}. It is assumed that the Japanese-English concept combined data 63 includes the following records.
【0101】CLJE(地球温暖化)=φ. CLJE(オゾン層)={ozone layer}. CLJE(温室効果)=φ. CLJE(フロン)=φ. CLJE(大気)={atmosphere・大気}. CLJE(二酸化炭素)={carbon dioxide}. CLJE(環境)={environment}. さらに、英語概念関連シソーラス62が以下のレコード
を含むとする。CL JE (global warming) = φ. CL JE (ozone layer) = {ozone layer}. CL JE (greenhouse effect) = φ. CL JE (Freon) = φ. CL JE (atmosphere) = {atmosphere / atmosphere}. CL JE (carbon dioxide) = {carbon dioxide}. CL JE (environment) = {environment}. Further, it is assumed that the English concept related thesaurus 62 includes the following records.
【0102】RCJ(ozone layer)={chrolofluorocarbo
n,depletion,atmosphere・大気,warming}. RCJ(atmosphere・大気)={pollution,environment,gas
・気体/ガス,carbon dioxide}. RCJ(carbon dioxide)={atmosphere・大気,energy,war
ming,environment,regulation}. RCJ(environment)={protection,carbon dioxide,ene
rgy,atmosphere・大気,pollution}. また、英日概念結合データ64は以下のレコードを含む
とする。RC J (ozone layer) = {chrolofluorocarbo
n, depletion, atmosphere, atmosphere, warming}. RC J (atmosphere ・ atmosphere) = {pollution, environment, gas
・ Gas / gas, carbon dioxide}. RC J (carbon dioxide) = {atmosphere, atmosphere, energy, war
ming, environment, regulation}. RC J (environment) = {protection, carbon dioxide, ene
rgy, atmosphere ・ atmosphere, pollution}. The English-Japanese concept combined data 64 includes the following records.
【0103】CLEJ(ozone layer)={オゾン層}. CLEJ(chrolofluorocarbon)=φ. CLEJ(depletion)={破壊}. CLEJ(atmosphere・大気)={大気}. CLEJ(warming)=φ. CLEJ(pollution)={汚染}. CLEJ(environment)={環境}. CLEJ(gas・気体/ガス)={気体,ガス}. CLEJ(carbon dioxide)={二酸化炭素}. CLEJ(energy)={エネルギー}. CLEJ(regulation)={規制}. CLEJ(protection)={保護}.CL EJ (ozone layer) = {ozone layer}. CL EJ (chrolofluorocarbon) = φ. CL EJ (depletion) = {destruction}. CL EJ (atmosphere, atmosphere) = {atmosphere}. CL EJ (warming) = φ. CL EJ (pollution) = {contamination}. CL EJ (environment) = {environment}. CL EJ (gas, gas / gas) = {gas, gas}. CL EJ (carbon dioxide) = {carbon dioxide}. CL EJ (energy) = {energy}. CL EJ (regulation) = {regulation}. CL EJ (protection) = {protection}.
【0104】このとき、日本語概念集合{地球温暖化,オ
ゾン層,温室効果,フロン,大気,二酸化炭素,環境}から英
語概念集合への翻訳結果は{ozone layer,atmosphere・大
気,carbon dioxide,environment,chrolofluorocarbon,w
arming}になる。At this time, the translation result from the Japanese concept set {global warming, ozone layer, greenhouse effect, Freon, atmosphere, carbon dioxide, environment} to the English concept set is {ozone layer, atmosphere, atmosphere, carbon dioxide, environment, chrolofluorocarbon, w
arming}.
【0105】英語概念集合を構成する6つの英語概念の
うち、「ozone layer」、「atmosphere・大気」、「carb
on dioxide」及び「environment」の4つは、日本語概
念集合中の日本語概念とシソーラス中で陽に結合されて
いたものである。また、「chrolofluorocarbon」及び
「warming」の2つは、日本語概念集合中の日本語概念
とシソーラス中で陽に結合されていなかったが、上記4
つの英語概念の関連概念として追加されたものである。
実は、「chrolofluorocarbon」は「フロン」の英語訳で
あり、「warming」は「地球温暖化」の英語訳の一部で
ある。このようにして、概念結合として陽に表現されて
いない対訳を含む翻訳結果を得ることができる。Of the six English concepts that make up the English concept set, “ozone layer”, “atmosphere / atmosphere”, and “carb”
The four, "on dioxide" and "environment," were explicitly combined in the thesaurus with the Japanese concepts in the Japanese concept set. Also, two of “chrolofluorocarbon” and “warming” were not explicitly connected to the Japanese concept in the Japanese concept set in the thesaurus,
It has been added as a related concept of two English concepts.
In fact, "chrolofluorocarbon" is an English translation of "CFCs" and "warming" is part of the English translation of "global warming." In this way, it is possible to obtain a translation result including a bilingual translation that is not explicitly expressed as a concept combination.
【0106】以上、この発明の実施の形態を図面を参照
して詳述してきたが、具体的な構成はこれらの実施の形
態に限られるものではなく、この発明の要旨を逸脱しな
い範囲の設計の変更等があってもよい。はじめに、上記
実施の形態では、日本語と英語とのパラレルシソーラス
を生成しているが、たとえば、日本語とフランス語、更
には、日本語のものも含めて一般的な2ヶ国語によるパ
ラレルシソーラスを生成するものであってもよい。The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to these embodiments, and the design of the present invention does not depart from the gist of the present invention. May be changed. First, in the above-described embodiment, a parallel thesaurus of Japanese and English is generated. For example, a parallel thesaurus in general bilingual languages including Japanese and French, and Japanese is also used. It may be generated.
【0107】また、上記実施の形態では、図4に示した
ように、多義語と同義語の各々が有する概念を考慮した
機能を実現しているが、多義語の概念のみを考慮した機
能、又は同義語のみを考慮した機能を実現してもよい。
この場合、日本語概念マージ307及び英語概念マージ
308の機能を選択的に設けることで実現できる。Further, in the above embodiment, as shown in FIG. 4, a function taking into account the concept of each of the polysemy and the synonym is realized. Alternatively, a function considering only synonyms may be realized.
This can be realized by selectively providing the functions of the Japanese concept merge 307 and the English concept merge 308.
【0108】また、本発明におけるクライアント計算機
2としては、有線回線により通信ネットワーク3に接続
されるパーソナルコンピュータ又はワークステーション
等、また、無線回線により通信ネットワーク3に接続さ
れる移動体通信端末(携帯電話、PHS(Personal Han
dy-Phone System)、PDA(Personal Digital Assist
ance)等)であってもよい。The client computer 2 according to the present invention may be a personal computer or a workstation connected to the communication network 3 by a wired line, or a mobile communication terminal (mobile phone) connected to the communication network 3 by a wireless line. , PHS (Personal Han
dy-Phone System), PDA (Personal Digital Assist)
ance) etc.).
【0109】なお、本発明のパラレルシソーラスの生成
装置、及びパラレルシソーラスナビゲーションシステム
は、このサーバ計算機1又はクライアント計算機2を機
能させるためのプログラムによっても実現される。この
プログラムは、たとえばCD−ROM等のコンピュータ
で読み取り可能な記録媒体に格納されている。Note that the parallel thesaurus generation device and the parallel thesaurus navigation system of the present invention are also realized by a program for causing the server computer 1 or the client computer 2 to function. This program is stored in a computer-readable recording medium such as a CD-ROM.
【0110】パラレルシソーラスの生成装置、又はパラ
レルシソーラスナビゲーションシステムを機能させるた
めのプログラムを記録した記録媒体は、図1に示す記憶
装置13そのものであってもよいし、また、外部記憶装
置としてCD−ROMドライブ等のプログラム読み取り
装置(図示せず)が設けられ、そこに挿入することで読
み取り可能なCD−ROM等であってもよい。また、上
記記録媒体は、磁気テープ、カセットテープ、フロッピ
ーディスク、ハードディスク、MO/MD/DVD等、
又は半導体メモリであってもよい。The storage device 13 itself shown in FIG. 1 may be used as a storage device for storing a program for operating the parallel thesaurus generation device or the parallel thesaurus navigation system, or a CD-ROM as an external storage device. A program reading device (not shown) such as a ROM drive may be provided, and a CD-ROM or the like readable by inserting the program reading device may be used. The recording medium is a magnetic tape, cassette tape, floppy disk, hard disk, MO / MD / DVD, etc.
Alternatively, it may be a semiconductor memory.
【0111】また、本発明のパラレルシソーラスの生成
装置により生成されたパラレルシソーラスは、CD−R
OM等のコンピュータで読み取り可能な記録媒体に格納
されてもよい。このパラレルシソーラスは、二つの言語
のシソーラスを結合したものであり、日本語及び英語概
念ラベル生成302,303により二つの言語のターム
を組み合わせた概念ラベルが生成され、日英概念結合3
04(図4参照)により、二つの言語の概念ラベルが概
念に基づいて結合されている。The parallel thesaurus generated by the parallel thesaurus generating apparatus of the present invention is a CD-R.
It may be stored in a computer-readable recording medium such as OM. This parallel thesaurus is a combination of the thesauruses of two languages, and a concept label combining the terms of the two languages is generated by Japanese and English concept label generations 302 and 303.
04 (see FIG. 4), concept labels of two languages are combined based on the concept.
【0112】[0112]
【発明の効果】本発明のパラレルシソーラスの生成プロ
グラムを記録した記録媒体によれば、二つの言語の関連
シソーラスが結合されたパラレルシソーラスを二つの言
語のテキストコーパスから自動的に生成することができ
る。生成されるパラレルシソーラスは、概念と概念の関
連を示したものである。According to the recording medium storing the parallel thesaurus generation program of the present invention, a parallel thesaurus in which related thesauruses of two languages are combined can be automatically generated from a text corpus of two languages. . The generated parallel thesaurus shows the relation between concepts.
【0113】また、本発明のパラレルシソーラスを記録
した記録媒体によれば、タームとタームの関連を示す従
来のシソーラスと異なり、多義語や同義語の問題が解決
されているので、本発明により生成されたシソーラスを
用いることで、各種の自然言語処理システムの精度を向
上することができる。Further, according to the recording medium on which the parallel thesaurus of the present invention is recorded, unlike the conventional thesaurus showing the relation between terms, the problem of polysemy and synonym is solved. By using the thesaurus obtained, the accuracy of various natural language processing systems can be improved.
【0114】また、本発明のパラレルシソーラスナビゲ
ーションプログラムを記録した記録媒体によれば、複数
言語にまたがる効率的なテキストマイニングが可能にな
る。特に、母国語のシソーラスをナビゲーションして外
国語の情報にアクセスすることが容易になる。従来のク
ロスランゲージ情報検索において問題とされる検索要求
の翻訳精度も、概念集合の遷移(翻訳)機能により大き
く改善される。According to the recording medium in which the parallel thesaurus navigation program of the present invention is recorded, efficient text mining over a plurality of languages can be performed. In particular, it becomes easier to navigate the thesaurus in the native language and access information in foreign languages. The translation accuracy of a search request, which is a problem in the conventional cross-language information search, is also greatly improved by the concept set transition (translation) function.
【図1】本発明の実施の形態によるパラレルシソーラス
の生成装置と、該装置を収容するパラレルシソーラスナ
ビゲーションシステムの構成を説明するブロック図であ
る。FIG. 1 is a block diagram illustrating a configuration of a parallel thesaurus generation device according to an embodiment of the present invention and a parallel thesaurus navigation system accommodating the device.
【図2】本発明の実施の形態によるパラレルシソーラス
の生成装置における入出力とモジュール構成を機能的に
説明する図である。FIG. 2 is a diagram functionally illustrating input / output and module configuration in a parallel thesaurus generation device according to an embodiment of the present invention.
【図3】日本語シソーラス生成の処理の詳細を説明する
図である。FIG. 3 is a diagram illustrating details of processing for generating a Japanese thesaurus.
【図4】日英シソーラス結合モジュールの処理の詳細を
説明する図である。FIG. 4 is a diagram illustrating details of the processing of the Japanese-English thesaurus combining module.
【図5】本発明の実施の形態によるパラレルシソーラス
ナビゲーションシステムにおいて、クライアント計算機
の表示画面の内容を説明する図である。FIG. 5 is a diagram illustrating contents of a display screen of a client computer in the parallel thesaurus navigation system according to the embodiment of the present invention.
【図6】本発明の実施の形態によるパラレルシソーラス
ナビゲーションシステムの処理を説明するフローチャー
トである。FIG. 6 is a flowchart illustrating a process of the parallel thesaurus navigation system according to the embodiment of the present invention.
【図7】本発明の実施の形態によるパラレルシソーラス
ナビゲーションシステムを特徴付ける概念集合翻訳(ス
テップ480)の処理を詳細に説明する図である。FIG. 7 is a diagram illustrating in detail a concept set translation process (step 480) characterizing the parallel thesaurus navigation system according to the embodiment of the present invention.
1 サーバ計算機 2 クライアント計算機 3 通信ネットワーク 10 日本語シソーラス生成 11 処理装置 12 入力装置 13 記憶装置 20 英語シソーラス生成 30 日英シソーラス結合 51 日本語コーパス 52 英語コーパス 61 日本語概念関連シソーラス 62 英語概念関連シソーラス 63 日英概念結合データ 64 英日概念結合データ 71 日本語ターム関連シソーラス 72 英語ターム関連シソーラス 73 日英対訳辞書 74 英日対訳辞書 81 タームと出現頻度 82 共起タームの対と共起頻度 91 日英ターム結合データ 92 英日ターム結合データ 93 日本語概念ラベルデータ 94 英語概念ラベルデータ 95 日本語概念の関連タームデータ 96 英語概念の関連タームデータ 101 ターム抽出 102 共起データ抽出 103 相関解析 301 日英ターム結合 302 日本語概念ラベル生成 303 英語概念ラベル生成 304 日英概念結合 305 日本語概念関連シソーラス生成 306 英語概念関連シソーラス生成 307 日本語概念マージ 308 英語概念マージ 1010 概念集合エリア 1020 ズームインエリア 1021 概念クラスタ 1022 選択ボタン 1030 ズームインボタン 1040 翻訳ボタン 1050 クリアボタン 1060 終了ボタン Reference Signs List 1 server computer 2 client computer 3 communication network 10 Japanese thesaurus generation 11 processing device 12 input device 13 storage device 20 English thesaurus generation 30 Japanese-English thesaurus combination 51 Japanese corpus 52 English corpus 61 Japanese concept related thesaurus 62 English concept related thesaurus 63 Japanese-English concept combined data 64 English-Japanese concept combined data 71 Japanese term-related thesaurus 72 English term-related thesaurus 73 Japanese-English bilingual dictionary 74 English-Japanese bilingual dictionary 81 Terms and appearance frequency 82 Co-occurrence term pairs and co-occurrence frequency 91 days English term combination data 92 English-Japanese term combination data 93 Japanese concept label data 94 English concept label data 95 Japanese concept related term data 96 English concept related term data 101 Term extraction 102 Co-occurrence data extraction 103 Correlation analysis 301 Japanese-English term combination 302 Japanese concept label generation 303 English concept label generation 304 Japanese-English concept combination 305 Japanese concept related thesaurus generation 306 English concept related thesaurus generation 307 Japanese concept merge 308 English concept merge 1010 Concept set area 1020 Zoom-in area 1021 Concept cluster 1022 Select button 1030 Zoom-in button 1040 Translate button 1050 Clear button 1060 Exit button
Claims (5)
ーパスからタームを抽出し、ターム間の相関を解析する
ことにより第1言語のターム関連シソーラスを生成する
第1言語シソーラス生成手段と、第2言語のテキストコ
ーパスからタームを抽出し、ターム間の相関を解析する
ことにより第2言語のターム関連シソーラスを生成する
第2言語シソーラス生成手段と、第1言語のターム関連
シソーラスと第2言語のターム関連シソーラスを結合す
るシソーラス結合手段と、を備えるパラレルシソーラス
の生成装置として機能させるためのプログラムを記録し
たことを特徴とするコンピュータ読み取り可能な記録媒
体。1. A first language thesaurus generating means for extracting a term from a text corpus of a first language and analyzing a correlation between the terms to generate a term-related thesaurus of the first language, and a second language Extracting the terms from the text corpus of the second language and analyzing the correlation between the terms to generate a term-related thesaurus of the second language, a term-related thesaurus of the first language and a term-related thesaurus of the second language A computer-readable recording medium on which is recorded a program for functioning as a parallel thesaurus generating device, comprising: a thesaurus coupling means for coupling a thesaurus.
照して第1言語のターム関連シソーラスと第2言語のタ
ーム関連シソーラスとの間で対応するタームを結合する
ターム結合手段と、結合された第2言語のタームを組み
合わせることにより第1言語の各タームから概念ラベル
を生成する第1言語概念ラベル生成手段と、結合された
第1言語のタームを組み合わせることにより第2言語の
各タームから概念ラベルを生成する第2言語概念ラベル
生成手段と、言語間のターム結合を言語間の概念結合に
変換する概念結合手段と、第1言語のターム関連シソー
ラスに含まれるターム間の関連を概念間の関連に変換す
る第1言語概念関連シソーラス生成手段と、第2言語の
ターム関連シソーラスに含まれるターム間の関連を概念
間の関連に変換する第2言語概念関連シソーラス生成手
段と、同一の第2言語の概念に結合され、関連する第1
言語の概念の集合が類似している第1言語の概念をマー
ジして一つの概念にする第1言語概念マージ手段と、同
一の第1言語の概念に結合され、関連する第2言語の概
念の集合が類似している第2言語の概念をマージして一
つの概念にする第2言語概念マージ手段と、を有するこ
とを特徴とする請求項1記載のコンピュータ読み取り可
能な記録媒体。2. The method according to claim 1, wherein the step of combining the plurality of terms includes a step of combining the corresponding terms between the term-related thesaurus in the first language and the term-related thesaurus in the second language with reference to the bilingual dictionary. First language concept label generating means for generating a concept label from each term in the first language by combining terms in the second language, and a concept from each term in the second language by combining the combined terms in the first language A second language concept label generating means for generating a label, a concept connecting means for converting a term connection between languages into a concept connection between languages, and a relation between terms included in a term relation thesaurus of the first language between concepts. A first language concept relation thesaurus generating means for converting to a relation, and a relation between terms included in a term relation thesaurus of a second language to a relation between concepts A second language concept related thesaurus generating means, and a first language concept associated with the same second language concept
First language concept merging means for merging concepts of a first language having a similar set of language concepts into one concept, and a concept of a second language associated with the same concept of the first language and related 2. The computer-readable recording medium according to claim 1, further comprising: a second language concept merging unit that merges concepts of a second language having a similar set into a single concept.
組み合わせた概念ラベルと概念ラベルが表す概念に基づ
く概念ラベルの結合とから構成されるシソーラスを記録
したことを特徴とするパラレルシソーラスを記録した記
録媒体。3. A parallel thesaurus characterized by recording a thesaurus composed of a concept label obtained by combining a term in a first language and a term in a second language and a combination of concept labels based on the concept represented by the concept label. The recording medium on which it was recorded.
ム又は概念の集合から、第2言語の複数のターム又は概
念の集合に遷移する遷移手段を備えるパラレルシソーラ
スナビゲーションシステムとして機能させるためのプロ
グラムを記録したことを特徴とするコンピュータ読み取
り可能な記録媒体。4. A program for causing a computer to function as a parallel thesaurus navigation system including transition means for transitioning from a set of a plurality of terms or concepts in a first language to a set of a plurality of terms or concepts in a second language. A computer-readable recording medium characterized by being recorded.
概念の集合から、該集合中のターム又は概念に結合され
た第2言語のターム又は概念に、該第2言語のターム又
は概念の関連ターム又は関連概念であって、第1言語の
ターム又は概念に結合されていないターム又は概念を加
えた集合に遷移することを特徴とする請求項4記載のコ
ンピュータ読み取り可能な記録媒体。5. The method according to claim 1, wherein the transition unit is configured to convert the term or concept of the second language from a set of terms or concepts of the first language to a term or concept of the second language connected to the terms or concepts in the set. 5. The computer-readable recording medium according to claim 4, wherein a transition is made to a set obtained by adding a term or concept related terms or concepts that are not combined with the terms or concepts in the first language.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000149413A JP4259726B2 (en) | 2000-05-22 | 2000-05-22 | Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000149413A JP4259726B2 (en) | 2000-05-22 | 2000-05-22 | Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation program |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2001331484A true JP2001331484A (en) | 2001-11-30 |
| JP2001331484A5 JP2001331484A5 (en) | 2005-02-10 |
| JP4259726B2 JP4259726B2 (en) | 2009-04-30 |
Family
ID=18655281
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000149413A Expired - Fee Related JP4259726B2 (en) | 2000-05-22 | 2000-05-22 | Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4259726B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005309706A (en) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | Information processing system and method, and computer program |
| US7240051B2 (en) | 2003-03-13 | 2007-07-03 | Hitachi, Ltd. | Document search system using a meaning relation network |
| US7467079B2 (en) | 2003-09-29 | 2008-12-16 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
-
2000
- 2000-05-22 JP JP2000149413A patent/JP4259726B2/en not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7240051B2 (en) | 2003-03-13 | 2007-07-03 | Hitachi, Ltd. | Document search system using a meaning relation network |
| US7467079B2 (en) | 2003-09-29 | 2008-12-16 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
| JP2005309706A (en) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | Information processing system and method, and computer program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4259726B2 (en) | 2009-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9223779B2 (en) | Text segmentation with multiple granularity levels | |
| CN114065758B (en) | Document keyword extraction method based on hypergraph random walk | |
| Kostoff | Co-word analysis | |
| JP2005526317A (en) | Method and system for automatically searching a concept hierarchy from a document corpus | |
| CN113032552B (en) | Text abstract-based policy key point extraction method and system | |
| JP2004062893A (en) | System and method for automatic retrieval of example sentence based on weighted editing distance | |
| CN105005556A (en) | Index keyword extraction method and system based on big geological data | |
| CN102253930A (en) | Method and device for translating text | |
| US9424245B2 (en) | Universal language classification devices, systems, and methods | |
| CN113963748B (en) | Protein knowledge graph vectorization method | |
| Kostoff | Database tomography: Origins and duplications | |
| CN101470701A (en) | Text analyzer supporting semantic rule based on finite state machine and method thereof | |
| Gero et al. | Word centrality constrained representation for keyphrase extraction | |
| Khorjuvenkar et al. | Parts of speech tagging for Konkani language | |
| Nasharuddin et al. | Cross-lingual information retrieval | |
| JP4259726B2 (en) | Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation program | |
| Zaman et al. | Intelligent abstractive summarization of scholarly publications with transfer learning | |
| Banisakher et al. | Improving the identification of the discourse function of news article paragraphs | |
| JPH10149370A (en) | Document retrieval method and device using context information | |
| Chen et al. | LocatingGPT: A multi-modal document retrieval method based on retrieval-augmented generation | |
| Hu | A study on question answering system using integrated retrieval method | |
| Lee et al. | A bootstrapping approach for geographic named entity annotation | |
| Ittycheriah | A statistical approach for open domain question answering | |
| Liu et al. | Domain phrase identification using atomic word formation in Chinese text | |
| Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040303 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040303 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050705 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050905 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050920 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051121 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051128 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20051209 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090203 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |