[go: up one dir, main page]

JP2004310170A - Bilingual word pair learning method and apparatus, and recording medium storing a bilingual word pair learning program - Google Patents

Bilingual word pair learning method and apparatus, and recording medium storing a bilingual word pair learning program Download PDF

Info

Publication number
JP2004310170A
JP2004310170A JP2003099007A JP2003099007A JP2004310170A JP 2004310170 A JP2004310170 A JP 2004310170A JP 2003099007 A JP2003099007 A JP 2003099007A JP 2003099007 A JP2003099007 A JP 2003099007A JP 2004310170 A JP2004310170 A JP 2004310170A
Authority
JP
Japan
Prior art keywords
word
pair
bilingual
natural language
language sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003099007A
Other languages
Japanese (ja)
Other versions
JP4708682B2 (en
Inventor
Setsuo Yamada
節夫 山田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003099007A priority Critical patent/JP4708682B2/en
Publication of JP2004310170A publication Critical patent/JP2004310170A/en
Application granted granted Critical
Publication of JP4708682B2 publication Critical patent/JP4708682B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】第1の自然言語から第2の自然言語への翻訳処理に必要な第1の自然言語文の要素である単語または単語列と対応する第2の自然言語文の要素である単語または単語列からなる対訳対を自動的に、正確に、より多く抽出することができる対訳単語対の学習方法を提供する。
【解決手段】第1の自然言語文とその対訳である第2の自然言語文を入力して(S1)、該第1の自然言語文の要素である単語または単語列を該第2の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成し(S2)、該第2の自然言語文の要素である単語または単語列を該第1の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成し(S3)、(S2)と(S3)で生成した2種類の対訳単語対の集合のうち同じ対訳単語対を抽出する(S4)。
【選択図】図1
A word or a word which is an element of a second natural language sentence corresponding to a word or a word string which is an element of a first natural language sentence necessary for translation processing from a first natural language to a second natural language. Provided is a learning method of a translated word pair that can automatically, accurately, and more extract a translated word pair composed of a word string.
A first natural language sentence and a bilingual second natural language sentence are input (S1), and a word or word sequence that is an element of the first natural language sentence is input to the second natural language sentence. A pair of a bilingual word or word string obtained in association with a word or word string that is an element of the language sentence is generated (S2), and the word or word string that is an element of the second natural language sentence is generated. A pair of a bilingual word or word string obtained in association with a word or word string that is an element of the first natural language sentence is generated (S3), and a pair of (2) generated in (S2) and (S3) The same bilingual word pair is extracted from the set of types of bilingual word pairs (S4).
[Selection diagram] Fig. 1

Description

【0001】
【発明の属する技術分野】
本発明は、対訳関係にある対訳単語対を抽出する学習方法に係わり、特に対訳関係にある自然言語文からの自動的な対訳単語対を抽出する学習方法に関する。
【0002】
【従来の技術】
統計情報を利用して、対訳関係にある対訳文対から対訳単語対を自動学習する方法(特許文献1 参照)が知られているが、例えば日英間のように言語構造が大きく違う単語対の場合、対訳単語対の抽出精度に問題があった。また、このような言語構造が大きく違う場合、片側の言語の構文情報を利用して単語対の抽出精度を向上させる学習方法(非特許文献1 参照)が知られている。
【0003】
【特許文献1】
特開平5−189481号公報
ピーターフィトシューブラウン「翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム」
【非特許文献1】
Kenji Yamada and Kevin Knight,「A Syntax−based Statistical Translation Model」,39th Annual Meeting of the Association for Computation Linguistics(ACL−01),pp.523−530,2001
【0004】
【発明が解決しようとする課題】
上記の従来の特許文献1や非特許文献1における対訳単語対の学習方法では、対訳文の2言語のうち対応付ける基になる言語が変わると得られる単語対が変わり、安定した単語対を抽出できない問題がある。また、非特許文献1の学習方法において、構文情報を利用しない方法より抽出精度は向上しているものの、まだ十分な精度とはなっていない。
本発明は、上記の点に鑑みなされたもので、入力される対訳文の構文情報を片言語ずつ利用して得られた対訳単語対から、同じ対訳単語対を抽出することで安定した対訳単語対を抽出し、また、抽出された共通の対訳単語対を入力された対訳文に加え、対訳単語対の学習を繰り返すことで対訳単語対の抽出精度を向上させる、対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体を提供することを目的とする。
【0005】
【課題を解決するための手段】
図1は、本発明を説明するための対訳単語対の学習方法の概要フローチャートである。
本発明は、第1の自然言語文とその対訳である第2の自然言語文を入力して対訳関係にある単語対を学習する装置において、第1の自然言語文とその対訳である第2の自然言語文を入力し(ステップ1)、第1の自然言語文の要素である単語または単語列に第2の自然言語文の要素である単語または単語列を対応付けて対訳単語対の集合を獲得し(ステップ2)、第2の自然言語文の要素である単語または単語列に第1の自然言語文の要素である単語または単語列を対応付けて対訳単語対の集合を獲得し(ステップ3)、これら2種類の対訳単語対の集合のうち同じ対訳対を抽出する(ステップ4)。
【0006】
また、本発明は、前記対訳単語対獲得ステップの単語または単語列を対応付ける処理において、構文解析ステップを設けることによって得られる構文木と単語または単語列を対応付けるステップを含む。
【0007】
また、本発明は、第1の自然言語文の要素である単語または単語列、及び、前記同じ対訳対を抽出するステップによって得られる共通単語対の第1の自然言語文の要素である単語または単語列に対して、第2の自然言語文の要素である単語または単語列、及び、前記同じ対訳対を抽出するステップによって得られる共通単語対の第2の自然言語文の要素である単語または単語列を対応付けるステップと、第2の自然言語文の要素である単語または単語列、及び、前記同じ対訳対を抽出するステップによって得られる共通単語対の第2の自然言語文の要素である単語または単語列に対して、第1の自然言語文の要素である単語または単語列、及び、前記同じ対訳対を抽出するステップによって得られる共通単語対の第1の自然言語文の要素である単語または単語列を対応付けるステップを含む。
また、本発明は、前記同じ対訳対を抽出するステップにおいて得られる共通単語対を用いて、該共通単語対が変化しなくなるまで対訳単語対の学習方法を繰り返すステップを含む。
【0008】
図2は、本発明の対訳単語対の学習装置の概要構成図である。
対訳単語対の学習装置は、第1の自然言語文とその対訳である第2の自然言語文を読み込む対訳文読み込み手段1と、第1の自然言語文の要素である単語または単語列に第2の自然言語文の要素である単語または単語列を対応付け、第1の自然言語を基に対応付けた対訳単語対を記憶装置71に格納する、及び、第2の自然言語文の要素である単語または単語列に第1の自然言語文の要素である単語または単語列を対応付け、第2の自然言語を基に対応付けた対訳単語対を記憶装置72に格納する対訳単語対獲得手段6と、記憶装置71、72の中で同じ対訳単語対である共通対訳単語対を抽出し、記憶装置9に格納する共通対訳単語対抽出手段8を含む。
【0009】
また、本発明の対訳単語対獲得手段6において単語切り結果や構文解析結果を利用するために、対訳文読み込み手段1で読み込まれた文を形態素解析する形態素解析手段2と、続いて構文解析する構文解析手段3を含む。
また、本発明の対訳単語対獲得手段6において、共通対訳単語対抽出手段8によって記憶装置9に格納された共通対訳単語対を利用するために、共通対訳単語対を言語別に分ける言語別単語抽出手段Aを含む。
また、本発明は、共通対訳単語対抽出手段8によって記憶装置9に格納された共通対訳単語対が変化しなくなるまで対訳単語対の学習を繰り返す手段を含む。
【0010】
(作用)
上記のように、本発明の対訳単語対の学習方法においては、対訳文読み込み手段1に第1の自然言語文とその対訳である第2の自然言語文を入力し、対訳単語対獲得手段6で第1の自然言語文の要素である単語または単語列に第2の自然言語文の要素である単語または単語列を対応付け、第1の自然言語を基に対応付けた対訳単語対を記憶装置71に格納し、また、対訳単語対獲得手段6で第2の自然言語文の要素である単語または単語列に第1の自然言語文の要素である単語または単語列を対応付け、第2の自然言語を基に対応付けた対訳単語対を記憶装置72に格納し、共通対訳単語対抽出手段8で、記憶装置71、72の中で同じ対訳単語対である共通対訳単語対を抽出し、記憶装置9に格納する。これにより、第1の自然言語文とその対訳である第2の自然言語文から自動的に安定した対訳単語対が抽出できる。
【0011】
また、形態素解析手段2で対訳文読み込み手段1によって入力された文の形態素解析を行い、形態素解析結果を記憶装置41、42に格納し、さらに、構文解析手段3で構文解析を行い、構文解析結果を記憶装置51、52に格納し、対訳単語対獲得手段6において、形態素解析結果、及び、構文解析結果を利用して、第1の自然言語を基に対応付けた対訳単語対を記憶装置71に格納し、及び、第2の自然言語を基に対応付けた対訳単語対を記憶装置72に格納し、共通対訳単語対抽出手段8で、記憶装置71、72の中で同じ単語対である共通対訳単語対を抽出し、記憶装置9に格納する。これにより、共通対訳単語対をより正確に抽出することができる。
【0012】
また、言語別単語抽出手段Aで、共通対訳単語対抽出手段8によって記憶装置9に格納された共通対訳単語対を言語別に分け、対訳文読み込み手段1によって入力された対訳文に加えて、分けられた第1の自然言語文の要素である単語または単語列、及び、第2の自然言語文の要素である単語または単語列を対訳単語対獲得手段6において利用する。これによって、共通対訳単語対抽出手段8では共通対訳単語対をより正確に、より多く抽出することができる。
【0013】
また、対訳単語対の学習を繰り返す手段で、共通対訳単語対抽出手段8によって記憶装置9に格納された共通対訳単語対が変化しなくなるまで、対訳単語対の学習を行う。これによって、さらに正確に、より多くの共通対訳単語対を抽出することができる。
したがって、上記方法を全て実行する、及び上記手段を用いることにより、対訳単語対が自動的に得られ、対訳単語対の学習が可能となる。
上記の記載は、対訳単語対の学習方法について述べているが、対訳単語対の学習装置及び対訳単語対の学習プログラムについても同様である。
【0014】
【発明の実施の形態】
以下に、本発明の一実施例について図面により説明する。
図3は、本発明の一実施例である対訳単語対の学習装置基本ブロック構成図である。同図に示す対訳単語対の学習装置は、対訳文読み込み部1、形態素解析部2、構文解析部3、対訳単語対獲得部6、共通対訳単語対抽出部8、言語別単語抽出部A、記憶装置41、42、51、52、71、72、9より構成される。
【0015】
対訳文読み込み部1に対訳コーパスに格納された第1の自然言語文とその対訳である第2の自然言語文を入力する(読み込む)。
形態素解析部2は、入力された第1の自然言語文を形態素解析した結果を記憶装置41に格納し、入力された第2の自然言語文を形態素解析した結果を記憶装置42に格納する。
構文解析部3は、記憶装置41に格納されている形態素解析結果を利用して、第1の自然言語文の構文解析を行い、その結果を記憶装置51に格納し、記憶装置42に格納されている形態素解析結果を利用して、第2の自然言語文の構文解析を行い、その結果を記憶装置52に格納する。
【0016】
対訳単語対獲得部6は、第1の自然言語を基にした対訳単語対獲得部61と第2の自然言語を基にした対訳単語対獲得部62より構成される。
第1の自然言語を基にした対訳単語対獲得部61は、例えば、第1の自然言語文を形態素解析した結果である単語列に第2の自然言語文の構文解析結果を対応付けて対訳単語対を抽出し、記憶装置71に格納する。
第2の自然言語を基にした対訳単語対獲得部62は、例えば、第2の自然言語文を形態素解析した結果である単語列に第1の自然言語文の構文解析結果を対応付けて対訳単語対を抽出し、記憶装置72に格納する。
共通対訳単語対抽出部8は、記憶装置71、72に格納されている対訳単語対の集合のうち同じ対訳単語対を抽出し、記憶装置9に格納する。
言語別単語抽出部Aは、記憶装置9に格納されている共通対訳単語対を第1の自然言語、第2の自然言語の単語に分け、対訳文読み込み部1で読み込まれている対訳コーパスの対訳文に追加する。
【0017】
図4は、本発明の一実施例である学習の繰り返しを行うフローチャートである。
以下、このフローチャートに基づいて、第1の自然言語が英語、第2の自然言語が日本語であるとした場合の一実施例について説明する。
ステップ101では、対訳文読み込み部1に第1の自然言語文とその対訳である第2の自然言語文を入力する。例えば、入力対訳文が図5に示すように、英文が「The house is somewhere about here」、「Look about」、その対訳である日文が「その家はどこかこのあたりにある」、「あたりを見まわす」を含んでいたとする。
【0018】
ステップ102では、ステップ101で読み込んだ対訳文を形態素解析部2によってそれぞれ形態素解析し、その結果を記憶装置41、42に格納する。例えば、日文は図6に示すように、「その/家/は/どこ/か/この/あたり/に/ある」、「あたり/を/見/まわす」と単語切りがなされたとする。また、形態素解析部2では、構文解析のために各単語に品詞を付与する。例えば、英文では図7に示すように、「Look」には動詞、「about」には副詞、及び、図9に示す品詞が付与されたとする。また、例えば、日文では、図8に示すように、「あたり」には名詞、「を」には助詞、「見」には動詞、「まわす」には動詞、及び図10に示す品詞が付与されたとする。
ステップ103では、記憶装置41、42に格納された形態素解析結果を基に、構文解析部3によってそれぞれ構文解析し、その結果を記憶装置51、52に格納する。例えば、英文は図7、9に示す結果が、また、日文は図8、10に示す結果が得られたとする。
【0019】
ステップ104、及び、ステップ105では、記憶装置41、42、51、52に格納されている、形態素解析結果、及び、構文解析結果を利用して、第1の自然言語を基にした対訳単語対獲得部61によって第1の自然言語を基にした対訳単語対が記憶装置71に格納され、また、第2の自然言語を基にした対訳単語対獲得部62によって第2の自然言語を基にした対訳単語対が記憶装置72に格納される。
例えば、上記の例では、図11に示すように形態素解析を行った英文を基に日文の構文解析結果を対応付けた場合では、「その」と「the」、「家」と「house」などが対応付けられ、また、形態素解析を行った日文を基に英文の構文解析結果を対応付けた場合では、「the」と「その」、「house」と「家」などが対応付けられたとする。なお、空欄は対応するものがないことを表し、例えば、図11の英文を基に日文の構文解析結果を対応付けた場合の「か」は、対応する英語単語または単語列がなかったことを意味する。また、この例では、構文解析結果の中間ノード単位を超えない範囲で、単語列に構文解析結果をできるだけ合わせるように構文解析結果の語順を入れ替えて対応付けている。ここで、構文解析結果の中間ノードとは、動詞、名詞、動詞句、名詞句といった構文解析結果上の文法的なカテゴリーを示す。中間ノード単位とは、構文解析結果において中間ノード(つまり文法的なカテゴリー)よりも下に属する単語列を指し、例えば、図8に示す構文解析結果では、名詞句単位は、名詞句よりも下に属する単語列なので、「あたり」「を」を指し、動詞句単位は、「見」「まわす」を指す。中間ノード単位を超えない範囲とは、中間ノード単位である単語列内の範囲に限ることを意味する。例えば、図8に示す構文解析結果では、名詞句単位の範囲にある「あたり」と「を」を入れ替えたり、名詞句単位全体の「あたり/を」と動詞句単位全体の「見/まわす」を入れ替えることはできるが、助詞「を」は名詞句の範囲の単語で、動詞「見」は動詞句の範囲の単語なので、名詞句単位と動詞句単位の範囲を超えて、個別に助詞「を」と動詞「見」を入れ替えることはできない。したがって、英文「look about」に日文「あたり/を/見/まわす」の構文解析結果を対応付ける場合は、図11(上図)に示すように、名詞句「あたり/を」と動詞句「見/まわす」の語順を入れ替えることによって、「見」と「look」、「あたり」と「about」が対応付けられている。これら対訳単語対は、記憶装置71、72に格納される。
【0020】
ステップ106では、共通対訳単語対抽出部8によって、記憶装置71に格納されている対訳単語対と記憶装置72に格納されている対訳単語対のうち同じ対訳単語対を抽出し、既に記憶装置9に保存されている共通対訳単語対と全て同じかどうかを判断し、全て同じなら(yes)、同じでないものがあれば(no)となり、yesが選択されると対訳単語対の学習は終了し、noが選択されると、次のステップ107に進む。上記の例では、図5に示す入力文から共通対訳単語対抽出部8によって抽出される共通対訳単語対は、図12に示す通り、例えば、「その」と「the」、「家」と「house」などが抽出される。記憶装置9にはまだ何も保存されていないのでnoが選択され、次のステップ107へ進む。
【0021】
ステップ107では、ステップ106で記憶装置9に保存されている共通対訳単語対と一致しなかった対訳単語対を記憶装置9へ格納する。上記の例の場合、図12に示すステップ106で抽出された対訳単語対は全て記憶装置9へ格納する。
ステップ108では、記憶装置9に格納されている共通対訳単語対をそれぞれの言語別に分け、それぞれ入力対訳に加える。すなわち、共通対訳単語対を対訳コーパスに保存する。上記の例の場合、言語別に分けられ、入力された英文に、「the」、「house」、「is」、「about」が、また、その対訳として入力された日文に「その」、「家」、「は」、「あたり」が、加えられる。
【0022】
上記例では、再度ステップ101に進むので、以下では上記の例についてさらにステップ毎に説明する。
ステップ101では、対訳文読み込み部1に元の対訳文とステップ108で加えられた対訳単語対と両方が入力される。
ステップ102では、形態素解析部2でステップ101によって入力された対訳単語対の品詞を付与し、結果を記憶装置41、42に格納する。
ステップ103では、構文解析部3でステップ101によって入力された対訳単語対について記憶装置41、42に格納された形態素解析結果を利用し、構文解析をし、結果を記憶装置51、52に格納する。
【0023】
ステップ104、及び、ステップ105では、記憶装置41、42、51、52に格納されている、入力文及び共通単語対の単語または単語列の形態素結果、構文解析結果を利用して、第1の自然言語を基にした対訳単語対獲得部61によって第1の自然言語を基にした対訳単語対が記憶装置71に格納され、また、第2の自然言語を基にした対訳単語対獲得部62によって第2の自然言語を基にした対訳単語対が記憶装置72に格納される。上記の例の場合、共通対訳単語対である「あたり」と「about」が入力文に加わったため(図12 参照)、構文解析結果を単語列に対応する時に、「あたり」と「about」が対応付くことが考慮される。例えば、英文「The house is somewhere about here」に日文「その/家/は/どこ/か/この/あたり/に/ある」の構文解析結果を合わせる場合、図10で示した構文解析結果から動詞句「ある」と副詞句「この/あたり/に」が入れ替わり、さらに、副詞句の中では、連体詞「この」と助詞「に」が入れ替わり、図13に示すような語順となる。この結果、例えば、英文との対応は図15に示す通りとなり、「この」と「here」が対応付く。一方、同じ例文に対して、日文に英文の構文解析結果を合わせる場合、図9で示した構文解析結果から副詞句の中の副詞「about」と副詞「here」が入れ替わり、図14に示すような語順となる。この結果、例えば、日文との対応は図15に示す通りとなり、「here」と「この」が対応付く。これら図15に示す対訳単語対は、記憶装置71、72に格納される。
【0024】
ステップ106では、共通対訳単語対抽出部8によって、記憶装置71に格納されている対訳単語対と記憶装置72に格納されている対訳単語対のうち同じ対訳単語対を抽出すると、上記例では、新たに「この」と「here」の共通対訳単語対が抽出される。これは、現在記憶装置9に保存されている図12の共通対訳単語対と一致しないものがあるので、このステップの判定は、noとなり、ステップ107に進む。
【0025】
ステップ107では、記憶装置9に保存されている図12と一致しない「この」と「here」を追加し、図16に示す共通対訳単語対が記憶装置9に格納される。
ステップ108では、記憶装置9に格納されている共通対訳単語対をそれぞれの言語別に分け、それぞれ入力対訳に加える。
この後、さらにステップ101へと処理は進むが、共通対訳単語対が変化しなくなると、ステップ106の判定がyesとなり、対訳単語対の学習は終了する。
なお、上記の例では、図3に示す構成図に基づいて説明したが、この例に限定されることなく特許請求の範囲内で種々の変更・応用が可能である。
【0026】
本発明の対訳単語対の学習装置は、CPUやメモリ等を有するコンピュータと利用者端末とCD−ROM、磁気ディスク装置、半導体メモリ等の機械読み取り可能な記録媒体とから構成することができる。
記録媒体に記録された対訳単語対の学習プログラム、あるいは通信回線を介して伝送された対訳単語対の学習プログラムはコンピュータに読み取られ、コンピュータの動作を制御し、コンピュータ上に前述した各構成要素と各処理を実現する。
【0027】
【発明の効果】
以上説明したように、本発明によれば、第1の自然言語文とその対訳である第2の自然言語文から、第1の自然言語文を第2の自然言語文に対応付けた対訳単語対と、第2の自然言語文を第1の自然言語文に対応付けた対訳単語対と比較して共通する対訳単語対を抽出することにより、自動的に安定した第1の自然言語と第2の自然言語の対訳単語対が抽出できる。
また、対応付けるステップで、形態素解析手段や構文解析手段を利用した結果を用いることにより、より正確に第1の自然言語と第2の自然言語の対訳単語対が抽出できる。
また、一度抽出された対訳単語対を、入力された対訳文に追加することにより、より多く第1の自然言語と第2の自然言語の対訳単語対が抽出できる。
また、抽出される対訳単語対が変化しなくなるまで、上記対訳単語対の学習を繰り返すことにより、さらに多く、より正確に第1の自然言語と第2の自然言語の対訳単語対が抽出できる。
このようにして抽出された対訳単語対は、例えば、電子化対訳辞書の構築または拡充に利用できたり、機械翻訳システムの対訳辞書として利用することが可能である。
【図面の簡単な説明】
【図1】本発明の原理を説明するための対訳単語対の学習方法の概要フローチャート。
【図2】本発明の対訳単語対の学習装置の概要構成図。
【図3】本発明の一実施例である対訳単語対の学習装置の基本ブロック構成図。
【図4】本発明の一実施例である学習の繰り返しを行うフローチャート。
【図5】本発明の一実施例である入力対訳文の例を示す図。
【図6】本発明の一実施例である日文の形態素解析結果(単語切り)の例を示す図。
【図7】本発明の一実施例である英文の構文解析結果の例(その1)を示す図。
【図8】本発明の一実施例である日文の構文解析結果の例(その1)を示す図。
【図9】本発明の一実施例である英文の構文解析結果の例(その2)を示す図。
【図10】本発明の一実施例である日文の構文解析結果の例(その2)を示す図。
【図11】本発明の一実施例である単語対応結果の例(その1)を示す図。
【図12】本発明の一実施例である共通の単語対応の例(その1)を示す図。
【図13】本発明の一実施例である日文の構文解析結果の語順を入れ替えた例を示す図。
【図14】本発明の一実施例である英文の構文解析結果の語順を入れ替えた例を示す図。
【図15】本発明の一実施例である単語対応結果の例(その2)を示す図。
【図16】本発明の一実施例である共通の単語対応の例(その2)を示す図。
【符号の説明】
1・・・対訳文読み込み部、2・・・形態素解析部、3・・・構文解析部、6・・・対訳単語対獲得部、8・・・共通対訳単語対抽出部、9・・・共通対訳単語対、71・・・第1の自然言語を基に対応付けた対訳単語対記憶装置、72・・・第2の自然言語を基に対応付けた対訳単語対記憶装置、A・・・言語別単語抽出部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a learning method for extracting a bilingual word pair having a bilingual relationship, and more particularly to a learning method for automatically extracting a bilingual word pair from a bilingual natural language sentence.
[0002]
[Prior art]
A method of automatically learning a bilingual word pair from a bilingual sentence pair having a bilingual relationship using statistical information (see Patent Document 1) is known. For example, a word pair having a significantly different language structure such as between Japanese and English is known. In the case of, there is a problem in the extraction accuracy of the translated word pair. Further, when such a language structure is significantly different, a learning method is known (see Non-Patent Document 1) that improves the accuracy of extracting word pairs by using the syntax information of one language.
[0003]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 5-189481, "Peter Phythoe Brown""Translation computer operation method, lexical model generation method, model generation method, translation computer system, lexical model generation computer system, and model generation computer system"
[Non-patent document 1]
Kenji Yamada and Kevin Knight, "A Syntax-based Statistical Translation Model", 39th Annual Meeting of the Association for Licensing for the Promotion of Licensing. 523-530, 2001
[0004]
[Problems to be solved by the invention]
In the above-mentioned conventional bilingual word pair learning method in Patent Literature 1 and Non-Patent Literature 1, when the base language to be associated among the two languages of the bilingual sentence changes, the obtained word pair changes, and a stable word pair cannot be extracted. There's a problem. Further, in the learning method of Non-Patent Document 1, although the extraction accuracy is improved as compared with the method that does not use syntax information, the accuracy is not yet sufficient.
The present invention has been made in view of the above points, and a stable bilingual word is obtained by extracting the same bilingual word pair from bilingual word pairs obtained by using the syntax information of an input bilingual sentence one language at a time. A bilingual word pair learning method that extracts pairs, adds the extracted common bilingual word pairs to the input bilingual sentence, and repeats the learning of the bilingual word pairs to improve the accuracy of extracting the bilingual word pairs. It is an object of the present invention to provide an apparatus and a recording medium in which a learning program for a translated word pair is recorded.
[0005]
[Means for Solving the Problems]
FIG. 1 is a schematic flowchart of a method for learning a bilingual word pair for explaining the present invention.
The present invention relates to an apparatus for learning a word pair having a bilingual relationship by inputting a first natural language sentence and a second natural language sentence which is a translation thereof, and a second natural language sentence which is a translation of the first natural language sentence. (Step 1), and a word or word string as an element of the second natural language sentence is associated with a word or word string as an element of the first natural language sentence to form a set of bilingual word pairs. (Step 2), a word or word string as an element of the first natural language sentence is associated with a word or word string as an element of the second natural language sentence, and a set of bilingual word pairs is obtained ( Step 3) Extract the same bilingual pair from the set of these two types of bilingual word pairs (step 4).
[0006]
The present invention also includes a step of associating a word or word string with a syntax tree obtained by providing a syntax analysis step in the processing of associating a word or word string in the translated word pair acquisition step.
[0007]
In addition, the present invention provides a word or word string that is an element of a first natural language sentence, and a word or a word that is an element of a first natural language sentence of a common word pair obtained by extracting the same bilingual pair. For the word string, a word or word string that is an element of a second natural language sentence, and a word or word that is an element of a second natural language sentence of a common word pair obtained by extracting the same bilingual pair Associating a word string, a word or word string that is an element of a second natural language sentence, and a word that is an element of a second natural language sentence of a common word pair obtained by extracting the same parallel translation pair Alternatively, for a word string, a word or a word string that is an element of a first natural language sentence, and an element of a first natural language sentence of a common word pair obtained by extracting the same bilingual pair. Comprising the step of associating a word or word string.
The present invention also includes a step of using the common word pair obtained in the step of extracting the same bilingual pair, and repeating the method of learning the bilingual word pair until the common word pair no longer changes.
[0008]
FIG. 2 is a schematic configuration diagram of a bilingual word pair learning apparatus according to the present invention.
A bilingual word pair learning apparatus includes: a bilingual sentence reading unit 1 that reads a first natural language sentence and a second natural language sentence that is a parallel translation thereof; A word or a word string which is an element of the second natural language sentence is associated, and a bilingual word pair associated based on the first natural language is stored in the storage device 71. A bilingual word pair acquiring means for associating a word or word sequence which is an element of a first natural language sentence with a certain word or word sequence, and storing a bilingual word pair associated based on a second natural language in the storage device 72 6 and a common bilingual word pair extraction unit 8 that extracts a common bilingual word pair that is the same bilingual word pair from the storage devices 71 and 72 and stores the same in the storage device 9.
[0009]
Further, in order to use the word segmentation result and the syntax analysis result in the bilingual word pair acquisition unit 6 of the present invention, the morphological analysis unit 2 that morphologically analyzes the sentence read by the bilingual sentence reading unit 1 and then performs the syntax analysis. Includes syntax analysis means 3.
Further, in the bilingual word pair acquiring means 6 of the present invention, in order to use the common bilingual word pairs stored in the storage device 9 by the common bilingual word pair extracting means 8, language-specific word extraction for dividing the common bilingual word pairs by language is performed. Means A is included.
The present invention also includes means for repeating the learning of the bilingual word pair until the common bilingual word pair stored in the storage device 9 by the common bilingual word pair extracting means 8 does not change.
[0010]
(Action)
As described above, in the bilingual word pair learning method of the present invention, the first natural language sentence and the second natural language sentence that is a translation thereof are input to the bilingual sentence reading means 1 and the bilingual word pair acquiring means 6 is input. A word or word string that is an element of the second natural language sentence is associated with a word or word string that is an element of the first natural language sentence, and a bilingual word pair that is associated based on the first natural language is stored. The word or word string, which is an element of the first natural language sentence, is associated with the word or word string, which is an element of the second natural language sentence, by the bilingual word pair acquisition means 6, Is stored in the storage device 72, and the common bilingual word pair extraction means 8 extracts a common bilingual word pair that is the same bilingual word pair in the storage devices 71 and 72. , In the storage device 9. As a result, a stable bilingual word pair can be automatically extracted from the first natural language sentence and the second natural language sentence that is a translation thereof.
[0011]
The morphological analysis unit 2 performs morphological analysis of the sentence input by the bilingual sentence reading unit 1, stores the morphological analysis results in the storage devices 41 and 42, and further performs syntactic analysis by the syntactic analysis unit 3, and performs syntactic analysis. The results are stored in the storage devices 51 and 52, and the bilingual word pair acquiring means 6 uses the morphological analysis result and the syntax analysis result to store the bilingual word pair associated with the first natural language in the storage device. 71, and a bilingual word pair associated with the second natural language is stored in the storage device 72. The common bilingual word pair extraction means 8 uses the same word pair in the storage devices 71, 72. A certain bilingual word pair is extracted and stored in the storage device 9. This makes it possible to more accurately extract a common bilingual word pair.
[0012]
Further, the language-specific word extracting means A divides the common bilingual word pairs stored in the storage device 9 by the common bilingual word pair extracting means 8 for each language, and in addition to the bilingual sentence inputted by the bilingual sentence reading means 1, separates the bilingual sentence. The word or word string that is the element of the first natural language sentence and the word or word string that is the element of the second natural language sentence are used in the translated word pair acquisition means 6. As a result, the common bilingual word pair extracting means 8 can extract more common bilingual word pairs more accurately.
[0013]
Further, by means of repeating the learning of the bilingual word pair, the bilingual word pair is learned until the common bilingual word pair stored in the storage device 9 by the common bilingual word pair extracting means 8 does not change. Thereby, more common bilingual word pairs can be extracted more accurately.
Therefore, by executing all of the above methods and using the above means, a translated word pair is automatically obtained, and learning of the translated word pair becomes possible.
Although the above description describes a method of learning a bilingual word pair, the same applies to a learning device of a bilingual word pair and a learning program of a bilingual word pair.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
An embodiment of the present invention will be described below with reference to the drawings.
FIG. 3 is a basic block diagram of a bilingual word pair learning apparatus according to an embodiment of the present invention. The bilingual word pair learning apparatus shown in FIG. 1 includes a bilingual sentence reading unit 1, a morphological analysis unit 2, a syntactic analysis unit 3, a bilingual word pair acquiring unit 6, a common bilingual word pair extracting unit 8, a language-specific word extracting unit A, It is composed of storage devices 41, 42, 51, 52, 71, 72 and 9.
[0015]
The first natural language sentence stored in the bilingual corpus and the second natural language sentence corresponding to the first natural language sentence are input (read) to the bilingual sentence reading unit 1.
The morphological analysis unit 2 stores the result of morphological analysis of the input first natural language sentence in the storage device 41, and stores the result of morphological analysis of the input second natural language sentence in the storage device 42.
The syntax analysis unit 3 uses the morphological analysis result stored in the storage device 41 to perform syntax analysis of the first natural language sentence, stores the result in the storage device 51, and stores the result in the storage device 42. The second natural language sentence is analyzed using the morphological analysis result, and the result is stored in the storage device 52.
[0016]
The translation word pair acquisition unit 6 includes a translation word pair acquisition unit 61 based on a first natural language and a translation word pair acquisition unit 62 based on a second natural language.
The bilingual word pair acquiring unit 61 based on the first natural language, for example, associates the syntax analysis result of the second natural language sentence with a word string that is a result of morphological analysis of the first natural language sentence, and performs the bilingual translation. A word pair is extracted and stored in the storage device 71.
The bilingual word pair acquisition unit 62 based on the second natural language, for example, associates the syntax analysis result of the first natural language sentence with a word string that is a result of morphological analysis of the second natural language sentence, and translates the bilingual word. The word pair is extracted and stored in the storage device 72.
The common bilingual word pair extraction unit 8 extracts the same bilingual word pair from the set of bilingual word pairs stored in the storage devices 71 and 72 and stores the same in the storage device 9.
The language-specific word extraction unit A divides a common bilingual word pair stored in the storage device 9 into words of a first natural language and a second natural language, and outputs a bilingual corpus read by the bilingual sentence reading unit 1. Add to parallel text.
[0017]
FIG. 4 is a flowchart for repeating learning according to one embodiment of the present invention.
Hereinafter, an example in which the first natural language is English and the second natural language is Japanese will be described based on this flowchart.
In step 101, a first natural language sentence and a second natural language sentence that is a translation thereof are input to the bilingual sentence reading unit 1. For example, as shown in FIG. 5, the input translation is “The house is somewhere about here”, “Look about”, and the bilingual sentence is “the house is somewhere around here”, “ Look around. "
[0018]
In step 102, the bilingual sentence read in step 101 is morphologically analyzed by the morphological analysis unit 2, and the results are stored in the storage devices 41 and 42. For example, as shown in FIG. 6, it is assumed that the words in the Japanese sentence are “word / house / ha / where / somewhere / this / around / to / is” and “round / to / watch / turn”. In addition, the morphological analysis unit 2 gives a part of speech to each word for syntax analysis. For example, as shown in FIG. 7, it is assumed that a verb is given to "Look", an adverb is given to "about", and a part of speech shown in FIG. 9, as shown in FIG. Also, for example, in Japanese text, as shown in FIG. 8, a noun is given to "hit", a particle is given to "wo", a verb is given to "see", a verb is given to "turn", and a part of speech shown in FIG. Suppose it was done.
In step 103, the syntax analysis unit 3 performs syntax analysis based on the morphological analysis results stored in the storage devices 41 and 42, and stores the results in the storage devices 51 and 52. For example, suppose that the results shown in FIGS. 7 and 9 are obtained for English sentences, and the results shown in FIGS.
[0019]
In Steps 104 and 105, a bilingual word pair based on the first natural language is obtained by using the morphological analysis result and the syntax analysis result stored in the storage devices 41, 42, 51, and 52. A translation word pair based on the first natural language is stored in the storage device 71 by the acquisition unit 61, and a translation word pair acquisition unit 62 based on the second natural language is based on the second natural language. The translated word pair is stored in the storage device 72.
For example, in the above example, as shown in FIG. 11, when the syntax analysis result of the Japanese sentence is associated with the English sentence subjected to the morphological analysis, "the" and "the", "house" and "house", etc. In the case where the results of parsing an English sentence are associated based on the Japanese sentence subjected to morphological analysis, it is assumed that “the” and “the”, “house” and “house” are associated with each other. . Note that a blank column indicates that there is no corresponding item. For example, "?" In the case where the result of syntactic analysis of the Japanese sentence based on the English sentence in FIG. 11 indicates that there is no corresponding English word or word string. means. Further, in this example, the word order of the syntax analysis result is changed and matched so as to match the syntax analysis result with the word string as much as possible without exceeding the intermediate node unit of the syntax analysis result. Here, the intermediate node of the parsing result indicates a grammatical category on the parsing result, such as a verb, a noun, a verb phrase, and a noun phrase. The term “intermediate node unit” refers to a word string belonging to a lower level than an intermediate node (that is, a grammatical category) in the syntax analysis result. For example, in the syntax analysis result shown in FIG. 8, the noun phrase unit is lower than the noun phrase. Since it is a word string belonging to, it refers to "hit" and "wo", and the verb phrase unit refers to "see" and "turn". The range not exceeding the intermediate node unit means that the range is limited to the range in the word string which is the intermediate node unit. For example, in the syntax analysis result shown in FIG. 8, "hit" and "wo" in the range of the noun phrase unit are exchanged, and "hit / wo" of the whole noun phrase unit and "look / turn" of the whole verb / phrase unit are displayed. Can be replaced, but the particle "wo" is a word in the range of noun phrases and the verb "mi" is a word in the range of verb phrases. Cannot be interchanged with the verb "mi". Therefore, when associating the sentence analysis result of the Japanese sentence “per / wo / look / turn” with the English sentence “look about”, as shown in FIG. 11 (upper figure), the noun phrase “per / wo” and the verb phrase “see By changing the word order of “/ turn”, “look” and “look” and “hit” and “about” are associated with each other. These bilingual word pairs are stored in the storage devices 71 and 72.
[0020]
In step 106, the common bilingual word pair extraction unit 8 extracts the same bilingual word pair from the bilingual word pair stored in the storage device 71 and the bilingual word pair stored in the storage device 72. It is determined whether or not all are the same as the common bilingual word pairs stored in. If all are the same (yes), if there is not the same (no), and if yes is selected, the learning of the bilingual word pair ends. , No, the process proceeds to the next step 107. In the above example, common bilingual word pairs extracted by the common bilingual word pair extraction unit 8 from the input sentence shown in FIG. 5 are, for example, “that” and “the”, “house” and “house” as shown in FIG. "house" is extracted. Since nothing has been stored in the storage device 9, no is selected, and the process proceeds to the next step 107.
[0021]
In step 107, a bilingual word pair that does not match the common bilingual word pair stored in the storage device 9 in step 106 is stored in the storage device 9. In the case of the above example, all the translated word pairs extracted in step 106 shown in FIG.
In step 108, the common bilingual word pairs stored in the storage device 9 are classified for each language and added to the input bilingual translation. That is, the common bilingual word pair is stored in the bilingual corpus. In the case of the above example, “the”, “house”, “is”, and “about” are included in the English sentence divided according to the language, and “the” and “house” are included in the Japanese sentence as a translation thereof. ”,“ Wa ”, and“ per ”are added.
[0022]
In the above example, the process proceeds to step 101 again, so that the above example will be further described step by step.
In step 101, both the original bilingual sentence and the bilingual word pair added in step 108 are input to the bilingual sentence reading unit 1.
In step 102, the morphological analysis unit 2 gives the part of speech of the bilingual word pair input in step 101, and stores the results in the storage devices 41 and 42.
In step 103, the parsing unit 3 performs a syntactic analysis on the bilingual word pair input in step 101 using the morphological analysis results stored in the storage devices 41 and 42, and stores the results in the storage devices 51 and 52. .
[0023]
In steps 104 and 105, the first sentence and the morpheme result of the word or word string of the common word pair stored in the storage devices 41, 42, 51, and 52 are used to perform the first analysis. A bilingual word pair based on the first natural language is stored in the storage device 71 by the bilingual word pair obtaining unit 61 based on the natural language, and a bilingual word pair obtaining unit 62 based on the second natural language. Thus, a bilingual word pair based on the second natural language is stored in the storage device 72. In the case of the above example, the common bilingual word pair “hit” and “about” are added to the input sentence (see FIG. 12), so that when the syntax analysis result corresponds to the word string, “hit” and “about” are It is taken into account that it will correspond. For example, when the parsing result of the Japanese sentence “that / house / is / where / ka / this / per // is” is combined with the English sentence “The house is somewhere about here”, the verb is obtained from the parsing result shown in FIG. The phrase “a” is replaced by the adverb phrase “this / periphery / ni”. In the adverb phrase, the adverb “kon” is replaced by the particle “ni”, and the word order is as shown in FIG. As a result, for example, correspondence with English sentences is as shown in FIG. 15, and "this" and "here" are associated with each other. On the other hand, when the parsing result of the English sentence is matched with the Japanese sentence for the same example sentence, the adverb “about” and the adverb “here” in the adverb phrase are switched from the parsing result shown in FIG. 9, as shown in FIG. Word order. As a result, for example, the correspondence with the Japanese text is as shown in FIG. 15, and "here" and "this" are associated with each other. These translated word pairs shown in FIG. 15 are stored in the storage devices 71 and 72.
[0024]
In step 106, when the common bilingual word pair extraction unit 8 extracts the same bilingual word pair from the bilingual word pair stored in the storage device 71 and the bilingual word pair stored in the storage device 72, A common bilingual word pair of "this" and "here" is newly extracted. This does not match the common bilingual word pair of FIG. 12 currently stored in the storage device 9. Therefore, the determination in this step is no and the process proceeds to step 107.
[0025]
In step 107, “this” and “here” that do not match FIG. 12 stored in the storage device 9 are added, and the common bilingual word pairs shown in FIG. 16 are stored in the storage device 9.
In step 108, the common bilingual word pairs stored in the storage device 9 are classified for each language and added to the input bilingual translation.
Thereafter, the process further proceeds to step 101, but when the common bilingual word pair no longer changes, the determination in step 106 becomes yes, and the learning of the bilingual word pair ends.
Although the above example has been described based on the configuration diagram shown in FIG. 3, various changes and applications are possible without being limited to this example within the scope of the claims.
[0026]
The bilingual word pair learning apparatus of the present invention can be composed of a computer having a CPU and a memory, a user terminal, and a machine-readable recording medium such as a CD-ROM, a magnetic disk device, and a semiconductor memory.
The learning program of the translation word pair recorded on the recording medium, or the learning program of the translation word pair transmitted via the communication line is read by the computer, controls the operation of the computer, and the above-described components on the computer and Implement each process.
[0027]
【The invention's effect】
As described above, according to the present invention, a bilingual word in which a first natural language sentence is associated with a second natural language sentence from a first natural language sentence and a bilingual second natural language sentence By extracting a common translated word pair by comparing a pair and a translated word pair in which the second natural language sentence is associated with the first natural language sentence, the automatically translated first natural language and the second translated natural language sentence are automatically extracted. A bilingual word pair of natural language 2 can be extracted.
Further, in the associating step, a translated word pair of the first natural language and the second natural language can be more accurately extracted by using a result obtained by using the morphological analysis means or the syntax analysis means.
In addition, by adding the bilingual word pair once extracted to the input bilingual sentence, more bilingual word pairs of the first natural language and the second natural language can be extracted.
Further, by repeating the learning of the translated word pairs until the extracted translated word pairs no longer change, more and more accurately the translated word pairs of the first natural language and the second natural language can be extracted.
The bilingual word pairs extracted in this way can be used, for example, for constructing or expanding an electronic bilingual dictionary, or can be used as a bilingual dictionary for a machine translation system.
[Brief description of the drawings]
FIG. 1 is a schematic flowchart of a method of learning a translated word pair for explaining the principle of the present invention.
FIG. 2 is a schematic configuration diagram of a bilingual word pair learning apparatus of the present invention.
FIG. 3 is a basic block configuration diagram of a bilingual word pair learning apparatus according to an embodiment of the present invention.
FIG. 4 is a flowchart illustrating repetition of learning according to an embodiment of the present invention.
FIG. 5 is a diagram showing an example of an input bilingual sentence according to an embodiment of the present invention.
FIG. 6 is a diagram showing an example of a morphological analysis result (word cut) of a Japanese sentence according to an embodiment of the present invention.
FIG. 7 is a view showing an example (No. 1) of a result of parsing an English sentence according to an embodiment of the present invention.
FIG. 8 is a view showing an example (part 1) of a result of parsing Japanese sentences according to an embodiment of the present invention.
FIG. 9 is a view showing an example (part 2) of a result of parsing an English sentence according to an embodiment of the present invention.
FIG. 10 is a view showing an example (part 2) of the result of parsing Japanese sentences according to an embodiment of the present invention.
FIG. 11 is a diagram showing an example (part 1) of a word correspondence result according to an embodiment of the present invention.
FIG. 12 is a diagram showing an example (part 1) of common word correspondence according to an embodiment of the present invention.
FIG. 13 is a view showing an example in which the order of words in the results of parsing Japanese sentences according to an embodiment of the present invention is changed.
FIG. 14 is a diagram illustrating an example in which the word order of the result of parsing an English sentence according to an embodiment of the present invention is changed.
FIG. 15 is a view showing an example (part 2) of a word correspondence result according to an embodiment of the present invention.
FIG. 16 is a view showing an example (part 2) of common word correspondence according to an embodiment of the present invention.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Translation reading part, 2 ... Morphological analysis part, 3 ... Syntax analysis part, 6 ... Translation word pair acquisition part, 8 ... Common translation word pair extraction part, 9 ... Common bilingual word pair, 71... Bilingual word pair storage device associated based on first natural language, 72... Bilingual word pair storage device associated based on second natural language, A.・ Language-specific word extraction unit

Claims (12)

第1の自然言語文とその対訳である第2の自然言語文を入力して対訳関係にある単語対を抽出する対訳単語対の学習方法において、
該第1の自然言語文の要素である単語または単語列を該第2の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成して記憶する手順1と、
該第2の自然言語文の要素である単語または単語列を該第1の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成して記憶する手順2と、
手順1と手順2で生成した対応付けられた対訳関係にある単語または単語列の対とを比較して、同じ単語または単語列の対である共通単語対を抽出して記憶する手順3と、を備えたことを特徴とする対訳単語対の学習方法。
A bilingual word pair learning method for extracting a bilingual word pair by inputting a first natural language sentence and a second natural language sentence that is a translation thereof,
A pair of a word or a word string having a translational relationship obtained by associating a word or a word string that is an element of the first natural language sentence with a word or a word string that is an element of the second natural language sentence is generated. Procedure 1 for storing
Generating a pair of a word or a word string having a bilingual relation obtained by associating a word or a word string as an element of the second natural language sentence with a word or a word string as an element of the first natural language sentence And memorizing step 2
A third step of comparing the pair of words or word strings in the associated bilingual relations generated in step 1 and step 2 to extract and store a common word pair that is the same word or pair of word strings; A method for learning a bilingual word pair, comprising:
請求項1に記載の対訳単語対の学習方法において、
手順1と手順2は、入力された自然言語文を構文解析して得られる構文木と単語または単語列を対応付けることを特徴とする対訳単語対の学習方法。
The method for learning a bilingual word pair according to claim 1,
Procedures 1 and 2 are bilingual word pair learning methods characterized by associating a syntax tree obtained by parsing an input natural language sentence with a word or word string.
請求項1または2に記載の対訳単語対の学習方法において、
手順1は、該第1の自然言語文の要素である単語または単語列、及び、手順3で抽出した共通単語対の第1の自然言語文の要素である単語または単語列に対して、該第2の自然言語文の要素である単語または単語列、及び、手順3で抽出した共通単語対の第2の自然言語文の要素である単語または単語列を対応付けることによって得られた対訳関係にある単語または単語列の対を生成する手順を有し、
手順2は、該第2の自然言語文の要素である単語または単語列、及び、手順3で抽出した共通単語対の第2の自然言語文の要素である単語または単語列に対して、該第1の自然言語文の要素である単語または単語列、及び、手順3で抽出した共通単語対の第1の自然言語文の要素である単語または単語列を対応付けることによって得られた対訳関係にある単語または単語列の対を生成する手順を有することを特徴とする対訳単語対の学習方法。
The method for learning a bilingual word pair according to claim 1 or 2,
In step 1, the word or word string that is an element of the first natural language sentence and the word or word string that is an element of the first natural language sentence of the common word pair extracted in step 3 are A word or word string that is an element of the second natural language sentence and a bilingual relationship obtained by associating a word or word string that is an element of the second natural language sentence of the common word pair extracted in step 3 A procedure for generating a pair of a certain word or word string,
In step 2, the words or word strings that are the elements of the second natural language sentence and the words or word strings that are the elements of the second natural language sentence of the common word pair extracted in step 3 are A word or word string that is an element of the first natural language sentence and a bilingual relationship obtained by associating the word or word string that is an element of the first natural language sentence of the common word pair extracted in step 3 A method for learning a bilingual word pair, comprising a step of generating a pair of a certain word or word string.
請求項3に記載の対訳単語対の学習方法において、
手順3において記憶した共通単語対が変化しなくなるまで学習を繰り返す手順を有することを特徴とする対訳単語対の学習方法。
The learning method of a bilingual word pair according to claim 3,
A learning method of a bilingual word pair, comprising a step of repeating learning until the common word pair stored in step 3 no longer changes.
第1の自然言語文とその対訳である第2の自然言語文を入力して対訳関係にある単語対を抽出する対訳単語対の学習装置において、
該第1の自然言語文の要素である単語または単語列を該第2の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成して記憶する第1の対訳単語対獲得手段と、
該第2の自然言語文の要素である単語または単語列を該第1の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成して記憶する第2の対訳単語対獲得手段と、
第1と第2の対訳単語対獲得手段で生成された対応付けられた対訳関係にある単語または単語列の対とを比較して、同じ単語または単語列の対である共通単語対を抽出して記憶する共通対訳単語対抽出手段と、を備えたことを特徴とする対訳単語対の学習装置。
A bilingual word pair learning apparatus for inputting a first natural language sentence and a second natural language sentence which is a translation thereof and extracting a word pair having a bilingual relationship,
A pair of a word or a word string having a translational relationship obtained by associating a word or a word string that is an element of the first natural language sentence with a word or a word string that is an element of the second natural language sentence is generated. First paired translation word pair acquisition means for storing
Generating a pair of a word or a word string having a bilingual relation obtained by associating a word or a word string as an element of the second natural language sentence with a word or a word string as an element of the first natural language sentence Second translation word pair acquisition means for storing
A common word pair that is the same word or pair of word strings is extracted by comparing the pair of pairs of words or word strings having an associated bilingual relation generated by the first and second parallel word pair acquisition means. A bilingual word pair learning device, comprising:
請求項5に記載の対訳単語対の学習装置において、
第1と第2の対訳単語対獲得手段は、入力された自然言語文を構文解析して得られる構文木と単語または単語列を対応付けることを特徴とする対訳単語対の学習装置。
The learning device for a bilingual word pair according to claim 5,
The first and second parallel word pair acquiring means associates a syntax tree obtained by parsing an input natural language sentence with a word or a word sequence, and is a bilingual word pair learning device.
請求項5または6に記載の対訳単語対の学習装置において、
第1の対訳単語対獲得手段は、該第1の自然言語文の要素である単語または単語列、及び、共通対訳単語対抽出手段で抽出された共通単語対の第1の自然言語文の要素である単語または単語列に対して、該第2の自然言語文の要素である単語または単語列、及び、共通対訳単語対抽出手段で抽出された共通単語対の第2の自然言語文の要素である単語または単語列を対応付けることによって得られた対訳関係にある単語または単語列の対を生成する手段を備え、
第2の対訳単語対獲得手段は、該第2の自然言語文の要素である単語または単語列、及び、共通対訳単語対抽出手段で抽出された共通単語対の第2の自然言語文の要素である単語または単語列に対して、該第1の自然言語文の要素である単語または単語列、及び、共通対訳単語対抽出手段で抽出された共通単語対の第1の自然言語文の要素である単語または単語列を対応付けることによって得られた対訳関係にある単語または単語列の対を生成する手段を備えたことを特徴とする対訳単語対の学習装置。
7. The learning device for bilingual word pairs according to claim 5,
The first bilingual word pair acquiring means includes a word or a word string which is an element of the first natural language sentence, and an element of a first natural language sentence of a common word pair extracted by the common bilingual word pair extracting means. , The word or word string that is an element of the second natural language sentence, and the element of the second natural language sentence of the common word pair extracted by the common parallel word pair extraction unit Means for generating a pair of words or word strings in a bilingual relationship obtained by associating a word or word string that is,
The second bilingual word pair acquiring means includes a word or word string as an element of the second natural language sentence, and an element of a second natural language sentence of the common word pair extracted by the common bilingual word pair extracting means. , The word or word string that is an element of the first natural language sentence, and the element of the first natural language sentence of the common word pair extracted by the common parallel word pair extraction unit A learning device for bilingual word pairs, comprising means for generating a pair of words or word sequences having a bilingual relation obtained by associating a word or word sequence.
請求項7に記載の対訳単語対の学習装置において、
共通対訳単語対抽出手段で抽出され、記憶した共通単語対が変化しなくなるまで学習を繰り返す手段を備えたことを特徴とする対訳単語対の学習装置。
The learning device for a bilingual word pair according to claim 7,
A bilingual word pair learning device, comprising: means for repeating learning until the stored common word pair extracted by the common bilingual word pair extracting means does not change.
第1の自然言語文とその対訳である第2の自然言語文を入力して対訳関係にある単語対を抽出する対訳単語対の学習プログラムを記録した記録媒体において、
該第1の自然言語文の要素である単語または単語列を該第2の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成して記憶する処理1と、
該第2の自然言語文の要素である単語または単語列を該第1の自然言語文の要素である単語または単語列に対応付けて得られた対訳関係にある単語または単語列の対を生成して記憶する処理2と、
処理1と処理2で生成された対応付けられた対訳関係にある単語または単語列の対とを比較して、同じ単語または単語列の対である共通単語対を抽出して記憶する処理3と、をコンピュータに実行させる対訳単語対の学習プログラムを記録した記録媒体。
A recording medium storing a bilingual word pair learning program for inputting a first natural language sentence and a bilingual second natural language sentence and extracting a bilingual word pair,
A pair of a word or a word string having a translational relationship obtained by associating a word or a word string that is an element of the first natural language sentence with a word or a word string that is an element of the second natural language sentence is generated. Processing 1 for storing
Generating a pair of a word or a word string having a bilingual relation obtained by associating a word or a word string as an element of the second natural language sentence with a word or a word string as an element of the first natural language sentence Processing 2 for storing
A process 3 for comparing the pair of words or word strings having the corresponding translations generated in the processes 1 and 2 to extract and store a common word pair that is a pair of the same word or word sequence; , A recording medium storing a program for learning a pair of translated words, which causes a computer to execute the process.
請求項9に記載の対訳単語対の学習プログラムを記録した記録媒体において、
処理1と処理2は、入力された自然言語文を構文解析して得られる構文木と単語または単語列を対応付ける処理を有する対訳単語対の学習プログラムを記録した記録媒体。
A recording medium recording a learning program for a translated word pair according to claim 9,
Processing media 1 and 2 are a recording medium storing a bilingual word pair learning program having a process of associating a word or word string with a syntax tree obtained by parsing an input natural language sentence.
請求項9または10に記載の対訳単語対の学習プログラムを記録した記録媒体において、
処理1は、該第1の自然言語文の要素である単語または単語列、及び、処理3で抽出された共通単語対の第1の自然言語文の要素である単語または単語列に対して、該第2の自然言語文の要素である単語または単語列、及び、処理3で抽出された共通単語対の第2の自然言語文の要素である単語または単語列を対応付けることによって得られた対訳関係にある単語または単語列の対を生成する処理を有し、
処理2は、該第2の自然言語文の要素である単語または単語列、及び、処理3で抽出された共通単語対の第2の自然言語文の要素である単語または単語列に対して、該第1の自然言語文の要素である単語または単語列、及び、処理3で抽出された共通単語対の第1の自然言語文の要素である単語または単語列を対応付けることによって得られた対訳関係にある単語または単語列の対を生成する処理を有する対訳単語対の学習プログラムを記録した記録媒体。
A recording medium recording a learning program for a translated word pair according to claim 9 or 10,
Processing 1 is performed on a word or word string that is an element of the first natural language sentence and a word or word string that is an element of the first natural language sentence of the common word pair extracted in processing 3 A bilingual translation obtained by associating a word or word string that is an element of the second natural language sentence with a word or word string that is an element of the second natural language sentence of the common word pair extracted in process 3 Having a process of generating a pair of related words or word strings,
Processing 2 is performed on a word or word string that is an element of the second natural language sentence and a word or word string that is an element of the second natural language sentence of the common word pair extracted in processing 3 A bilingual translation obtained by associating a word or word string that is an element of the first natural language sentence with a word or word string that is an element of the first natural language sentence of the common word pair extracted in process 3 A recording medium recording a learning program for a translated word pair having a process of generating a pair of related words or word strings.
請求項11に記載の対訳単語対の学習プログラムを記録した記録媒体において、
処理3において抽出され記憶した共通単語対が変化しなくなるまで学習を繰り返す処理を有する対訳単語対の学習プログラムを記録した記録媒体。
A recording medium storing a learning program for a translated word pair according to claim 11,
A recording medium in which a learning program for a bilingual word pair having a process of repeating learning until the common word pair extracted and stored in process 3 no longer changes is recorded.
JP2003099007A 2003-04-02 2003-04-02 Bilingual word pair learning method, apparatus, and recording medium on which parallel word pair learning program is recorded Expired - Fee Related JP4708682B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003099007A JP4708682B2 (en) 2003-04-02 2003-04-02 Bilingual word pair learning method, apparatus, and recording medium on which parallel word pair learning program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003099007A JP4708682B2 (en) 2003-04-02 2003-04-02 Bilingual word pair learning method, apparatus, and recording medium on which parallel word pair learning program is recorded

Publications (2)

Publication Number Publication Date
JP2004310170A true JP2004310170A (en) 2004-11-04
JP4708682B2 JP4708682B2 (en) 2011-06-22

Family

ID=33463586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003099007A Expired - Fee Related JP4708682B2 (en) 2003-04-02 2003-04-02 Bilingual word pair learning method, apparatus, and recording medium on which parallel word pair learning program is recorded

Country Status (1)

Country Link
JP (1) JP4708682B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008108209A (en) * 2006-10-27 2008-05-08 Internatl Business Mach Corp <Ibm> Technique for enhancing precision of machine translation
JP2013054607A (en) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> Rearrangement rule learning device, method and program, and translation device, method and program
US11645475B2 (en) 2019-02-05 2023-05-09 Fujitsu Limited Translation processing method and storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008108209A (en) * 2006-10-27 2008-05-08 Internatl Business Mach Corp <Ibm> Technique for enhancing precision of machine translation
US8126698B2 (en) 2006-10-27 2012-02-28 International Business Machines Corporation Technique for improving accuracy of machine translation
JP2013054607A (en) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> Rearrangement rule learning device, method and program, and translation device, method and program
US11645475B2 (en) 2019-02-05 2023-05-09 Fujitsu Limited Translation processing method and storage medium

Also Published As

Publication number Publication date
JP4708682B2 (en) 2011-06-22

Similar Documents

Publication Publication Date Title
Silberztein Formalizing natural languages: The NooJ approach
Yeniterzi Exploiting morphology in Turkish named entity recognition system
US5895446A (en) Pattern-based translation method and system
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
KR100918338B1 (en) Recording medium storing method, apparatus and program for generating third language text by inputting multilingual band text
Al-Mannai et al. Unsupervised word segmentation improves dialectal Arabic to English machine translation
Musaev et al. Text processing technology in Uzbek speech to sign language translation systems
Yeong et al. Using dictionary and lemmatizer to improve low resource English-Malay statistical machine translation system
Doyle et al. A character-level LSTM network model for tokenizing the Old Irish text of the Würzburg glosses on the Pauline Epistles
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
JP4476609B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
JP2004310170A (en) Bilingual word pair learning method and apparatus, and recording medium storing a bilingual word pair learning program
Tambouratzis et al. Machine Translation with Minimal Reliance on Parallel Resources
Rozovskaya et al. Challenges in processing colloquial Arabic
KR950013129B1 (en) Machine Translation Device and Method
KR100322743B1 (en) Morphological analysis method and apparatus used in text-to-speech synthesizer
JP2000250913A (en) Example-type natural language translation method, bilingual example collection creating method and apparatus, and recording medium recording the program thereof
Roberts et al. aConCorde: Towards a proper concordance of Arabic
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
JP2006201873A (en) Unregistered word automatic extraction device and program, and unregistered word automatic registration device and program
Lau et al. Real-World Application of Machine Translation of Cantonese-to-Written-Chinese Translation
Arnoult Adjunction in hierarchical phrase-based translation
Chen et al. Chinese Spelling Check based on Neural Machine Translation
Yu et al. Cross-Lingual Text Augmentation: A Contrastive Learning Approach for Low-Resource Languages
JP3892227B2 (en) Machine translation system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050727

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080403

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080417

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080530

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090709

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110317

LAPS Cancellation because of no payment of annual fees