JP2009217689A - Information processor, information processing method, and program - Google Patents
Information processor, information processing method, and program Download PDFInfo
- Publication number
- JP2009217689A JP2009217689A JP2008062532A JP2008062532A JP2009217689A JP 2009217689 A JP2009217689 A JP 2009217689A JP 2008062532 A JP2008062532 A JP 2008062532A JP 2008062532 A JP2008062532 A JP 2008062532A JP 2009217689 A JP2009217689 A JP 2009217689A
- Authority
- JP
- Japan
- Prior art keywords
- language
- corpus
- sentence
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims 5
- 238000013519 translation Methods 0.000 claims abstract description 310
- 238000004364 calculation method Methods 0.000 claims abstract description 95
- 238000009825 accumulation Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 14
- 230000014616 translation Effects 0.000 description 238
- 238000012545 processing Methods 0.000 description 24
- 238000002474 experimental method Methods 0.000 description 9
- 239000004065 semiconductor Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】対訳辞書等を用いないで、コンパラブルコーパスから対訳関係にある文の対を生成する情報処理装置を提供する。
【解決手段】第1言語と第2言語に関する対訳コーパスが記憶される対訳コーパス記憶部11、第1言語のコーパスと第2言語のコーパスを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部12、対訳コーパスを用いて、第1言語のコーパスの各文を第2言語に翻訳する機械翻訳部13、翻訳後の第2言語の文を蓄積する第2言語文蓄積部15、第2言語のコーパスの文と、蓄積された第2言語の文との類似情報を算出する類似情報算出部16、類似情報を用い、第2言語のコーパスの文と、その文と類似性の高い蓄積された第2言語の文の翻訳元の第1言語の文とを対応付ける対訳情報を生成する対訳情報生成部17、対訳情報を出力する対訳情報出力部18を備える。
【選択図】図1An information processing apparatus for generating a pair of sentences in a bilingual relationship from a comparable corpus without using a bilingual dictionary or the like.
A bilingual corpus storage unit stores a bilingual corpus related to a first language and a second language, and a comparable corpus storage unit stores a comparable corpus having a first language corpus and a second language corpus. The machine translation unit 13 translates each sentence of the corpus of the first language into the second language using the bilingual corpus, the second language sentence accumulation unit 15 that accumulates the translated second language sentence, and the second language Similar information calculation unit 16 that calculates similar information between a corpus sentence and an accumulated second language sentence, and using the similar information, a corpus sentence in the second language and a sentence that is highly similar to the sentence is accumulated. A bilingual information generating unit 17 that generates bilingual information for associating a sentence in the first language as a translation source of the second language sentence, and a bilingual information output unit 18 that outputs the bilingual information are provided.
[Selection] Figure 1
Description
本発明は、コンパラブルコーパスを用いて、対訳関係にある文を対応付ける情報である対訳情報を生成する情報処理装置等に関する。 The present invention relates to an information processing apparatus that generates parallel translation information, which is information that associates sentences in a parallel translation relationship, using a comparable corpus.
従来、コーパスベース翻訳技術の研究・開発において、対訳コーパスが用いられている。特に、近年活発に研究・開発がなされている統計翻訳技術においては、文単位で対応付けられた対訳コーパスが不可欠である。そして、その対訳コーパスを、コンパラブルコーパスから自動抽出する文アライメントの研究がさかんに行われている(例えば、非特許文献1,非特許文献2参照)。
しかしながら、コンパラブルコーパスから対訳コーパスを抽出する従来の方法において、高い性能を得るためには、対訳辞書や対訳シソーラスを必要とする。したがって、対訳辞書や対訳シソーラスの用意されていない新たなタスクや言語対に対して適用することができないという問題があった。 However, in the conventional method of extracting a bilingual corpus from a comparable corpus, a bilingual dictionary and a bilingual thesaurus are required to obtain high performance. Therefore, there is a problem that it cannot be applied to a new task or language pair for which no bilingual dictionary or bilingual thesaurus is prepared.
本発明は、この問題を解決するためになされたものであり、対訳辞書や対訳シソーラスを用いることなく、コンパラブルコーパスから、対訳関係にある文の対を生成することができる情報処理装置等を提供することを目的とする。 The present invention has been made to solve this problem. An information processing apparatus and the like that can generate a pair of sentences in a bilingual relationship from a comparable corpus without using a bilingual dictionary or a bilingual thesaurus. The purpose is to provide.
上記目的を達成するため、本発明による情報処理装置は、対訳関係にある第1言語の文と第2言語の文とを対応付けるコーパスである対訳コーパスが記憶される対訳コーパス記憶部と、第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部と、前記対訳コーパスを用いて、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部と、を備えたものである。 To achieve the above object, an information processing apparatus according to the present invention includes a bilingual corpus storage unit that stores a bilingual corpus that is a corpus that associates a sentence in a first language and a sentence in a second language that are in a bilingual relationship. A comparable corpus storage unit storing a comparable corpus having a language corpus and a second language corpus, and using the parallel corpus, each sentence included in the first language corpus of the comparable corpus A machine translation unit that performs machine translation into a second language, a second language sentence accumulation unit that accumulates sentences of the second language machine-translated by the machine translation unit, and a second language corpus that the comparable corpus has A similarity information calculation unit that calculates similarity information that is information related to the similarity between the sentence and the second language sentence accumulated by the second language sentence accumulation unit, and the similarity information Of the combination of the sentence included in the second language corpus of the comparable corpus and the sentence of the second language stored in the second language sentence storage unit, using the similar information calculated by the output unit A sentence included in the second language corpus of the comparable corpus, and a source of machine translation for the second language sentence accumulated by the second language sentence accumulation unit A bilingual information generating unit that generates bilingual information that is information for associating a sentence in the first language, and a bilingual information output unit that outputs the bilingual information generated by the bilingual information generating unit.
このような構成により、対訳辞書や対訳シソーラスを用いることなく、コンパラブルコーパスから、対訳関係にある文の対である対訳情報を生成することができる。 With such a configuration, it is possible to generate bilingual information that is a pair of sentences in a bilingual relationship from a comparable corpus without using a bilingual dictionary or bilingual thesaurus.
また、本発明による情報処理装置では、前記機械翻訳部は、前記対訳コーパスを用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる各文を第1言語に機械翻訳する処理をも行うものであり、前記機械翻訳部によって機械翻訳された第1言語の文を蓄積する第1言語文蓄積部をさらに備え、前記類似情報算出部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文との類似性に関する情報である類似情報をも算出し、前記対訳情報生成部は、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文に対して機械翻訳の元となる第2言語の文とを対応付ける情報である対訳情報をも生成してもよい。 Further, in the information processing apparatus according to the present invention, the machine translation unit performs a process of machine-translating each sentence included in the second language corpus of the comparable corpus into the first language using the parallel corpus. A first language sentence storage unit that stores a first language sentence machine-translated by the machine translation unit, wherein the similarity information calculation unit includes a first language corpus of the comparable corpus Similar information that is information on the similarity between the sentence included in the first language sentence storage unit and the sentence in the first language stored in the first language sentence storage unit is also calculated, and the parallel information generation unit is calculated by the similarity information calculation unit Using the similar information, among the combinations of the sentence included in the corpus of the first language possessed by the comparable corpus and the sentence of the first language accumulated by the first language sentence accumulation unit, A second language that is a source of machine translation for a sentence included in the first language corpus of the comparable corpus and a sentence in the first language accumulated by the first language sentence accumulating unit The bilingual information, which is information for associating the sentence, may also be generated.
このような構成により、第1言語から第2言語への機械翻訳と、第2言語から第1言語への機械翻訳の両方を用いて、コンパラブルコーパスから対訳情報を生成することができ、一方向の機械翻訳のみを用いた場合よりも、より多くの対訳情報を生成することができると考えられる。 With such a configuration, bilingual information can be generated from a comparable corpus using both machine translation from the first language to the second language and machine translation from the second language to the first language. More bilingual information can be generated than when only direction machine translation is used.
また、本発明による情報処理装置では、前記機械翻訳部は、前記対訳情報生成部が生成した対訳情報が存在する場合には、当該対訳情報と、前記対訳コーパスとを用いて機械翻訳を行うものであり、前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行してもよい。 In the information processing apparatus according to the present invention, the machine translation unit performs machine translation using the bilingual information and the bilingual corpus when the bilingual information generated by the bilingual information generation unit exists. And a series of processes for performing machine translation by the machine translation unit, calculation of similar information by the similar information calculation unit, and generation of bilingual information by the bilingual information generation unit may be repeatedly executed twice or more. Good.
このような構成により、対訳情報も用いて機械翻訳を行うことによって、機械翻訳の精度を向上させることができると考えられ、その結果として、コンパラブルコーパスから生成される対訳情報の精度も高いものになると考えられる。 With such a configuration, it is considered that machine translation accuracy can be improved by performing machine translation using bilingual information, and as a result, accuracy of bilingual information generated from a comparable corpus is high. It is thought that it becomes.
本発明による情報処理装置は、第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部と、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部と、を備え、前記機械翻訳部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を1回目に翻訳する際には、前記対訳情報を用いない機械翻訳を行い、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を2回目以降に翻訳する際には、前記対訳情報を用いた機械翻訳を行い、前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行する、ものである。 The information processing apparatus according to the present invention is included in a comparable corpus storage unit that stores a comparable corpus having a first language corpus and a second language corpus, and a first language corpus that the comparable corpus has. A machine translation unit that machine-translates each sentence into a second language, a second language sentence accumulation unit that accumulates sentences in the second language machine-translated by the machine translation unit, and a second language that the comparable corpus has A similarity information calculation unit that calculates similarity information that is information related to the similarity between the sentence included in the corpus and the sentence in the second language accumulated by the second language sentence accumulation unit, and the similarity calculated by the similarity information calculation unit Of the combinations of the sentence included in the second language corpus of the comparable corpus and the second language sentence accumulated by the second language sentence accumulation unit using the information, It becomes the source of machine translation for sentences included in the second language corpus of the comparable corpus, and sentences of the second language accumulated by the second language sentence accumulating unit, which are included in the combination having high similarity. A bilingual information generating unit that generates bilingual information that is information that associates a sentence in a first language; and a bilingual information output unit that outputs bilingual information generated by the bilingual information generating unit, When each sentence included in the first language corpus of the comparable corpus is translated for the first time, machine translation without using the parallel translation information is performed and included in the first language corpus of the comparable corpus When translating each sentence to be translated from the second time onward, machine translation using the parallel translation information is performed, machine translation by the machine translation unit, calculation of similar information by the similarity information calculation unit, Repeatedly executing the series of processing two or more times for performing the generation of parallel translation information by the information generating unit is intended.
このような構成により、対訳辞書や対訳シソーラスを用いることなく、コンパラブルコーパスから、対訳関係にある文の対である対訳情報を生成することができる。また、このような構成の場合には、1回目の機械翻訳で、対訳コーパスを用いないため、対訳コーパスを準備する必要もないというメリットもある。なお、2回目以降の機械翻訳は、コンパラブルコーパスから生成された対訳情報を用いて行われるため、生成される対訳情報は、機械翻訳が繰り返して実行されるにつれて、徐々に精度の高いものになっていくと考えられ得る。 With such a configuration, it is possible to generate bilingual information that is a pair of sentences in a bilingual relationship from a comparable corpus without using a bilingual dictionary or bilingual thesaurus. In addition, in such a configuration, there is an advantage that it is not necessary to prepare a bilingual corpus because the bilingual corpus is not used in the first machine translation. Since the second and subsequent machine translations are performed using parallel translation information generated from the comparable corpus, the generated parallel translation information gradually becomes highly accurate as machine translation is repeatedly executed. It can be thought that it will become.
本発明による情報処理装置等によれば、対訳辞書や対訳シソーラスを用いることなく、コンパラブルコーパスから、対訳関係にある文の対を生成することができるようになる。 According to the information processing apparatus and the like according to the present invention, it is possible to generate a sentence pair having a translation relation from a comparable corpus without using a bilingual dictionary or a bilingual thesaurus.
以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 Hereinafter, an information processing apparatus according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.
(実施の形態1)
本発明の実施の形態1による情報処理装置について、図面を参照しながら説明する。本実施の形態による情報処理装置は、コンパラブルコーパスから、対訳関係にある文の対を生成するものである。
(Embodiment 1)
An information processing apparatus according to
図1は、本実施の形態による情報処理装置1の構成を示すブロック図である。本実施の形態による情報処理装置1は、対訳コーパス記憶部11と、コンパラブルコーパス記憶部12と、機械翻訳部13と、第1言語文蓄積部14と、第2言語文蓄積部15と、類似情報算出部16と、対訳情報生成部17と、対訳情報出力部18と、対訳情報記憶部19とを備える。
FIG. 1 is a block diagram showing a configuration of an
対訳コーパス記憶部11では、対訳コーパスが記憶される。対訳コーパスは、対訳関係にある、第1言語の文と第2言語の文とを対応付けるコーパスである。この対訳コーパスは、例えば、人手によって生成されたものであってもよく、その他の方法によって生成されたものであってもよい。ここで、「第1言語の文と、第2言語の文とを対応付ける」とは、第1言語の文と第2言語の文の一方の情報から、他方の情報を取得できればよいという意味である。したがって、対訳コーパスは、第1言語の文と第2言語の文とを組として含む情報を有してもよく、第1言語の文と第2言語の文とをリンク付ける情報であってもよい。後者の場合には、対訳コーパスは、例えば、第1言語の文と第2言語の文の格納されている位置を示すポインタやアドレスとを対応付ける情報であってもよい。本実施の形態では、前者の場合について説明する。 The parallel corpus storage unit 11 stores a parallel corpus. The bilingual corpus is a corpus that associates a sentence in the first language and a sentence in the second language, which are in a bilingual relationship. This bilingual corpus may be generated manually, for example, or may be generated by other methods. Here, “corresponding the sentence in the first language and the sentence in the second language” means that it is only necessary to obtain the other information from the information in one of the sentence in the first language and the sentence in the second language. is there. Accordingly, the bilingual corpus may include information including a sentence in the first language and a sentence in the second language as a pair, or information that links the sentence in the first language and the sentence in the second language. Good. In the latter case, the bilingual corpus may be information associating, for example, a first language sentence and a pointer or address indicating the position where the second language sentence is stored. In the present embodiment, the former case will be described.
対訳コーパス記憶部11に対訳コーパスが記憶される過程は問わない。例えば、記録媒体を介して対訳コーパスが対訳コーパス記憶部11で記憶されるようになってもよく、通信回線等を介して送信された対訳コーパスが対訳コーパス記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対訳コーパスが対訳コーパス記憶部11で記憶されるようになってもよい。対訳コーパス記憶部11での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対訳コーパス記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。 The process in which the bilingual corpus is stored in the bilingual corpus storage unit 11 does not matter. For example, a bilingual corpus may be stored in the bilingual corpus storage unit 11 via a recording medium, and a bilingual corpus transmitted via a communication line or the like is stored in the bilingual corpus storage unit 11. Alternatively, the parallel corpus input via the input device may be stored in the parallel corpus storage unit 11. Storage in the bilingual corpus storage unit 11 may be temporary storage in a RAM or the like, or may be long-term storage. The bilingual corpus storage unit 11 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.).
コンパラブルコーパス記憶部12では、第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶される。対訳コーパスでは、対訳関係にある文が対になっているのに対して、このコンパラブルコーパスでは、そのような文アライメントがとられていなくてよい。コンパラブルコーパスが有する第1言語のコーパスと、第2言語のコーパスとは、その第1言語のコーパスを第2言語に翻訳したものが第2言語のコーパスとなる関係を有していてもよく、あるいは、そうでなくてもよい。コンパラブルコーパスは、例えば、日本語のウェブ百科事典である第1言語のコーパスと、英語のウェブ百科事典である第2言語のコーパスとを有するものであってもよく、日本語のニュース記事である第1言語のコーパスと、英語のニュース記事である第2言語のコーパスとを有するものであってもよく、その他のものであってもよい。なお、第1言語、第2言語は、両者が異なる言語であれば、その種類を問わないことは言うまでもない。第1言語、第2言語は、例えば、日本語、英語、フランス語、ドイツ語、イタリア語、スペイン語、ロシア語、中国語、韓国語等から選択された任意の2個の言語であってもよい。
The comparable
なお、対訳コーパス記憶部11で記憶されている対訳コーパスと、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスとは、同一分野のコーパスであることが好適であるが、そうでなくてもよい。この分野は、例えば、ニュース、特許、経済、政治、科学等の分野であってもよい。
The bilingual corpus stored in the bilingual corpus storage unit 11 and the comparable corpus stored in the comparable
コンパラブルコーパス記憶部12にコンパラブルコーパスが記憶される過程は問わない。例えば、記録媒体を介してコンパラブルコーパスがコンパラブルコーパス記憶部12で記憶されるようになってもよく、通信回線等を介して送信されたコンパラブルコーパスがコンパラブルコーパス記憶部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたコンパラブルコーパスがコンパラブルコーパス記憶部12で記憶されるようになってもよい。コンパラブルコーパス記憶部12での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。コンパラブルコーパス記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
The process in which the comparable corpus is stored in the comparable
機械翻訳部13は、対訳コーパス記憶部11で記憶されている対訳コーパスを用いて、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する。また、機械翻訳部13は、対訳コーパス記憶部11で記憶されている対訳コーパスを用いて、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスの有する第2言語のコーパスに含まれる各文を第1言語に機械翻訳する処理をも行ってもよい。本実施の形態では、機械翻訳部13が、第2言語のコーパスに含まれる各文を第1言語に機械翻訳する処理をも行う場合について説明する。機械翻訳部13は、後述する対訳情報生成部17が生成した対訳情報が存在する場合には、その対訳情報と、対訳コーパスとを用いて機械翻訳を行ってもよい。
The
この機械翻訳部13による機械翻訳は、対訳コーパスを用いて自動的にシステム学習が可能なコーパスベース翻訳システムである。コーパスベース翻訳の一例である統計翻訳システムでは、例えば、対訳コーパスから翻訳モデルや言語モデルを自動学習し、これらのモデルを用いて翻訳を行う。
The machine translation by the
翻訳モデルとは、対訳コーパスに含まれる原言語の翻訳単位(例えば、単語や形態素、フレーズ等である)と、その原言語の翻訳単位と対訳関係にある目的言語の翻訳単位であり、対訳コーパスに含まれる翻訳単位である目的言語の翻訳単位と、その原言語の翻訳単位とその目的言語の翻訳単位とに関する確率とを対応付けて有する情報である。また、原言語の翻訳単位と目的言語の翻訳単位とに関する確率とは、例えば、原言語の翻訳単位が与えられたときの目的言語の翻訳単位の確率や、目的言語の翻訳単位が与えられたときの原言語の翻訳単位の確率等である。 A translation model is a translation unit of a source language (for example, a word, a morpheme, a phrase, or the like) included in a bilingual corpus, and a translation unit of a target language that has a bilingual relationship with the translation unit of the source language. Information having a translation unit of a target language, which is a translation unit included in the URL, and a probability relating to the translation unit of the source language and the translation unit of the target language. The probabilities regarding the source language translation unit and the target language translation unit include, for example, the probability of the target language translation unit when the source language translation unit is given, and the target language translation unit. Such as the probability of the source language translation unit.
なお、機械翻訳を行う方法についてはすでに知られているため、機械翻訳部13が機械翻訳を行う処理の詳細な説明を省略する。
In addition, since the method of performing machine translation is already known, the detailed description of the process in which the
第1言語文蓄積部14は、機械翻訳部13によって機械翻訳された第1言語の文を記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、第1言語文蓄積部14が有していてもよく、あるいは第1言語文蓄積部14の外部に存在してもよい。また、この記録媒体は、第1言語の文を一時的に記憶するものであってもよく、そうでなくてもよい。
The first language sentence accumulation unit 14 accumulates the sentence in the first language machine-translated by the
第2言語文蓄積部15は、機械翻訳部13によって機械翻訳された第2言語の文を記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、第2言語文蓄積部15が有していてもよく、あるいは第2言語文蓄積部15の外部に存在してもよい。また、この記録媒体は、第2言語の文を一時的に記憶するものであってもよく、そうでなくてもよい。
The second language
類似情報算出部16は、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との類似性に関する情報である類似情報を算出する。また、類似情報算出部16は、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する。ここで、類似情報は、類似情報を算出する対象となる2文の類似性を知ることができる情報であれば、その内容を問わない。例えば、類似情報は、その2文の類似度を示すものでもよく、あるいは、その2文の非類似度(相違度)を示すものでもよい。
The similar
類似情報は、例えば、BLEUであってもよく、WER(Word Error Rate)であってもよく、PER(Position independent word Error Rate)であってもよく、その他の指標等であってもよい。これらのBLEUや、WER,PER等を算出する方法はすでに知られているため、類似情報算出部16が類似情報を算出する処理の詳細な説明を省略する。
The similar information may be, for example, BLEU, WER (Word Error Rate), PER (Position independent word Error Rate), or other indicators. Since methods for calculating these BLEU, WER, PER, and the like are already known, a detailed description of the process in which the similar
なお、コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との類似情報や、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との類似情報に関して、類似情報算出部16は、そのすべての類似情報を算出してもよく、あるいは、それらの文の組合せのうちで類似性の高いであろうと考えられる組合せのみに絞って類似情報を算出してもよい。後者の場合には、類似情報を算出する処理負荷を軽減することができうる。例えば、コンパラブルコーパスの有する第1言語のコーパス及び第2言語のコーパスがニュースのコーパスである場合には、類似情報算出部16は、同時期や、同分野の2文の間の類似情報を算出してもよい。より具体的には、類似情報算出部16は、第1言語のコーパスに含まれる文と、その文と同時期や同分野の文(この文は第2言語のコーパスに含まれる文である)が機械翻訳され、第1言語文蓄積部14によって蓄積された文との類似情報を算出してもよい。また、類似情報算出部16は、例えば、コンパラブルコーパスの有する第1言語のコーパス及び第2言語のコーパスのうち、類似するサブコーパスに含まれる2文間の類似情報を算出してもよい。より具体的には、類似情報算出部16は、第1言語のコーパスのあるサブコーパスに含まれる文と、そのサブコーパスと類似するサブコーパス(このサブコーパスは第2言語のコーパスに含まれるサブコーパスである)に含まれる文が機械翻訳され、第1言語文蓄積部14によって蓄積された文との類似情報を算出してもよい。なお、第1言語のサブコーパスと、第2言語のサブコーパスの類似性は、例えば、各サブコーパスから、そのサブコーパスを特徴付ける用語である特徴用語を抽出し、その抽出された特徴用語を一方の言語に翻訳し、その翻訳後の特徴用語の一致度によって判断してもよい。特徴用語は、例えば、TF・IDFの値の高い用語であってもよい。
Note that similar information between the sentences included in the first language corpus of the comparable corpus and the sentences of the first language accumulated in the first language sentence accumulating unit 14 and the second language corpus of the comparable corpus Regarding the similar information between the sentence included and the sentence in the second language accumulated by the second language
対訳情報生成部17は、類似情報算出部16が算出した類似情報を用いて、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との組合せのうち、両者の類似性の高い組合せを特定する。そして、その特定した組合せに含まれるコンパラブルコーパスの有する第1言語のコーパスに含まれる文と、その特定した組合せに含まれる第1言語文蓄積部14が蓄積した第1言語の文に対して機械翻訳の元となる第2言語の文(この第2言語の文は、コンパラブルコーパスの有する第2言語のコーパスに含まれる文である)とを対応付ける情報である対訳情報を生成する。
The bilingual
また、対訳情報生成部17は、類似情報算出部16が算出した類似情報を用いて、コンパラブルコーパス記憶部12で記憶されているコンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せを特定する。そして、その特定した組合せに含まれる、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、その特定した組合せに含まれる第2言語文蓄積部15が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文(この第1言語の文は、コンパラブルコーパスの有する第1言語のコーパスに含まれる文である)とを対応付ける情報である対訳情報を生成する。
In addition, the bilingual
ここで、文Aと文Bとの類似性が高い組合せとは、文Aと文Bとの類似性がしきい値よりも大きい組合せであってもよく、文Aと文Bとの類似性の高い方から選択された、あらかじめ定められた個数の組合せや、文Aと文Bとの類似性の高い方から選択された、あらかじめ決められた割合の組合せであってもよい。しきい値よりも大きいとは、しきい値を含んでもよく、あるいは、含まなくてもよい。また、しきい値は、例えば、あらかじめ設定された値であってもよく、得られた類似性に応じて定められてもよい。後者の場合には、例えば、しきい値は、類似性の最大値に0.9などの1よりも小さい値を掛けた値であってもよい。 Here, the combination having a high similarity between the sentence A and the sentence B may be a combination in which the similarity between the sentence A and the sentence B is larger than a threshold, and the similarity between the sentence A and the sentence B A combination of a predetermined number selected from the higher one or a combination of a predetermined ratio selected from the higher similarity between the sentence A and the sentence B may be used. The term “greater than the threshold value” may or may not include the threshold value. The threshold value may be a preset value, for example, or may be determined according to the obtained similarity. In the latter case, for example, the threshold value may be a value obtained by multiplying the maximum value of similarity by a value smaller than 1 such as 0.9.
また、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せは、例えば、組合せの全体において特定されてもよく、コンパラブルコーパスの有する第2言語のコーパスに含まれる文を基準として、その文と類似性の高い第2言語文蓄積部15が蓄積した第2言語の文を検索することによって特定されてもよく、あるいは、第2言語文蓄積部15が蓄積した第2言語の文を基準として、その文と類似性の高いコンパラブルコーパスの有する第2言語のコーパスに含まれる文を検索することによって特定されてもよい。このように特定される組合せは、1個でもよく、あるいは、2個以上であってもよい。コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との組合せのうち、両者の類似性の高い組合せについても同様であるとする。
In addition, among combinations of sentences included in the corpus of the second language possessed by the comparable corpus and sentences of the second language accumulated by the second language
また、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せは、類似性の最も高い組合せを含んでいなくてもよい。コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との組合せのうち、両者の類似性の高い組合せについても同様であるとする。すなわち、他の要因等を考慮して、類似性の高い組合せを選択するようにしてもよい。例えば、対訳情報生成部17は、類似情報算出部16が算出した類似情報を用いて、コンパラブルコーパスの有する第1言語のコーパスの文(これを文Aとする)と、コンパラブルコーパスの有する第2言語のコーパスの文(これを文Bとする)との類似性に関する情報(この情報を「統合類似情報」と呼ぶことにする)を算出し、その統合類似情報の示す類似性の高い文Aと文Bとを対応付ける対訳情報を生成してもよい。「統合類似情報の示す類似性が高い」とは、前述の「類似性が高い」ことと同様である。ここで、統合類似情報として、コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との類似情報や、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との類似情報を用いた場合には、前述の説明と同様の処理となる。一方、統合類似情報として、文Aが機械翻訳された第2言語の文であって、第2言語文蓄積部15が蓄積した第2言語の文と文Bとの類似情報と、文Bが機械翻訳された第1言語の文であって、第1言語文蓄積部14が蓄積した第1言語の文と文Aとの類似情報とを引数とする関数の値を用いてもよい。その関数は、例えば、その引数としての類似情報の平均を算出する関数であってもよく、その引数としての類似情報の最大値(類似情報が非類似度を示す場合には最小値であってもよい)を算出する関数であってもよく、その他の関数であってもよい。このような統合類似情報を用いた場合には、例えば、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せは、類似性の最も高い組合せを含んでいないこともありうることになるが、そうであっても、全体としてみれば、その組合せは他の組合せよりも類似性が高いことになる。
In addition, among combinations of sentences included in the corpus of the second language possessed by the comparable corpus and sentences of the second language accumulated by the second language
前述のように、対訳情報は、コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、コンパラブルコーパスの有する第2言語のコーパスに含まれる文とを対応付ける情報である。ここで、「第1言語のコーパスに含まれる文と、第2言語のコーパスに含まれる文とを対応付ける」とは、第1言語のコーパスに含まれる文と第2言語のコーパスに含まれる文の一方の情報から、他方の情報を取得できればよいという意味である。したがって、対訳情報は、第1言語のコーパスに含まれる文と第2言語のコーパスに含まれる文とを組として含む情報であってもよく、第1言語のコーパスに含まれる文と第2言語のコーパスに含まれる文とをリンク付ける情報であってもよい。後者の場合には、対訳コーパスは、例えば、第1言語のコーパスに含まれる文と第2言語のコーパスに含まれる文の格納されている位置を示すポインタやアドレスとを対応付ける情報であってもよい。本実施の形態では、前者の場合について説明する。 As described above, the parallel translation information is information that associates a sentence included in the corpus of the first language included in the comparable corpus with a sentence included in the corpus of the second language included in the comparable corpus. Here, “the sentence included in the corpus of the first language and the sentence included in the corpus of the second language” is associated with the sentence included in the corpus of the first language and the sentence included in the corpus of the second language. This means that it is only necessary to acquire the other information from the one information. Therefore, the bilingual information may be information including a sentence included in the corpus of the first language and a sentence included in the corpus of the second language as a pair. The sentence included in the corpus of the first language and the second language The information may be linked to a sentence included in the corpus. In the latter case, the bilingual corpus may be, for example, information that associates a sentence included in the first language corpus with a pointer or an address indicating a position where the sentence included in the second language corpus is stored. Good. In the present embodiment, the former case will be described.
対訳情報出力部18は、対訳情報生成部17が生成した対訳情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。本実施の形態では、対訳情報出力部18は、対訳情報を対訳情報記憶部19に蓄積するものとする。なお、対訳情報出力部18は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、対訳情報出力部18は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
The parallel translation
対訳情報記憶部19では、対訳情報生成部17が生成した対訳情報が記憶される。対訳情報記憶部19での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対訳情報記憶部19は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
In the parallel translation
なお、機械翻訳部13による機械翻訳と、類似情報算出部16による類似情報の算出と、対訳情報生成部17による対訳情報の生成とを行う一連の処理は、1回だけ実行されるものであってもよく、2回以上繰り返して実行されるものであってもよい。後者の場合には、機械翻訳部13は、対訳コーパス記憶部11で記憶されている対訳コーパスと、それまでに生成された対訳情報とを用いて、機械翻訳を行うものとする。このように、その一連の処理を繰り返して実行することによって、機械翻訳部13によって学習されるコーパスが対訳コーパスよりも多くなり、より適切な機械翻訳が行われるようになる結果、よりよい対訳情報を生成することができるようになると考えられる。本実施の形態では、その一連の処理を繰り返して実行する場合について説明する。また、一連の処理が繰り返して実行される場合には、対訳情報出力部18は、最後の一連の処理で生成された対訳情報のみを出力するようにしてもよい。
A series of processes for machine translation by the
また、対訳コーパス記憶部11と、コンパラブルコーパス記憶部12と、第1言語文蓄積部14が第1言語の文を蓄積する記録媒体と、第2言語文蓄積部15が第2言語の文を蓄積する記録媒体と、対訳情報記憶部19とのうち、任意の2以上の記憶部や記録媒体は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、対訳コーパスを記憶している領域が対訳コーパス記憶部11となり、コンパラブルコーパスを記憶している領域がコンパラブルコーパス記憶部12となる。
In addition, the bilingual corpus storage unit 11, the comparable
次に、本実施の形態による情報処理装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)機械翻訳部13は、対訳情報記憶部19において、対訳情報が記憶されているかどうか判断する。そして、記憶されている場合には、ステップS102に進み、そうでない場合には、ステップS103に進む。
Next, the operation of the
(Step S101) The
(ステップS102)機械翻訳部13は、対訳コーパス記憶部11で記憶されている対訳コーパスと、対訳情報記憶部19で記憶されている対訳情報とを用いた学習を行う。この学習によって、対訳コーパスや対訳情報に応じた翻訳モデルが生成される。
(Step S <b> 102) The
(ステップS103)機械翻訳部13は、対訳コーパス記憶部11で記憶されている対訳コーパスを用いた学習を行う。この学習によって、対訳コーパスに応じた翻訳モデルが生成される。
(Step S103) The
(ステップS104)機械翻訳部13は、コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語の文に機械翻訳する。この翻訳の際に、学習された翻訳モデルを用いるものとする。
(Step S104) The
(ステップS105)第2言語文蓄積部15は、機械翻訳部13によって翻訳された第2言語の文を記録媒体に蓄積する。なお、ステップS104,S105の処理は、一文が機械翻訳されるごとに繰り返して実行されてもよい。
(Step S105) The second language
(ステップS106)機械翻訳部13は、コンパラブルコーパスの有する第2言語のコーパスに含まれる各文を第1言語の文に機械翻訳する。この翻訳の際に、学習された翻訳モデルを用いるものとする。
(Step S106) The
(ステップS107)第1言語文蓄積部14は、機械翻訳部13によって翻訳された第1言語の文を記録媒体に蓄積する。なお、ステップS106,S107の処理は、一文が機械翻訳されるごとに繰り返して実行されてもよい。
(Step S107) The first language sentence storage unit 14 stores the sentence in the first language translated by the
(ステップS108)類似情報算出部16は、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、第2言語文蓄積部15が蓄積した第2言語の文との類似情報を算出する。また、類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、第1言語文蓄積部14が蓄積した第1言語の文との類似情報を算出する。この処理の詳細については、図3のフローチャートを用いて後述する。
(Step S <b> 108) The similarity
(ステップS109)対訳情報生成部17は、類似情報を用いて、コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、コンパラブルコーパスの有する第2言語のコーパスに含まれる文とを対応付ける対訳情報を生成する。この処理の詳細については、図4のフローチャートを用いて後述する。
(Step S109) Using the similar information, the parallel translation
(ステップS110)対訳情報出力部18は、対訳情報生成部17が生成した対訳情報を出力する。本実施の形態では、対訳情報出力部18は、対訳情報を対訳情報記憶部19に蓄積するものとする。なお、ステップS109,S110の処理は、一の対訳情報が生成されるごとに繰り返して実行されてもよい。
(Step S110) The parallel translation
(ステップS111)機械翻訳部13は、機械翻訳の処理を終了するかどうか判断する。そして、終了する場合には、対訳情報を生成する一連の処理は終了となり、終了しない場合には、ステップS101に戻る。なお、終了するかどうかは、例えば、ステップS101〜S110の一連の処理が何回実行されたかによって判断されてもよい。例えば、その一連の処理があらかじめ設定されている回数だけ実行された場合には、終了すると判断され、そうでなければ、終了しないと判断されてもよい。
(Step S111) The
図3は、図2のフローチャートにおける類似情報の算出処理(ステップS108の処理)の詳細を示すフローチャートである。なお、この図3のフローチャートは、類似情報を算出する処理の一例を示すものであって、その他の方法によって類似情報が算出されてもよいことは言うまでもない。 FIG. 3 is a flowchart showing details of the similarity information calculation process (the process of step S108) in the flowchart of FIG. Note that the flowchart of FIG. 3 shows an example of processing for calculating similar information, and it goes without saying that the similar information may be calculated by other methods.
(ステップS201)類似情報算出部16は、カウンタiを1に設定する。
(Step S201) The similar
(ステップS202)類似情報算出部16は、カウンタjを1に設定する。
(Step S202) The similar
(ステップS203)類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスのi番目の文が機械翻訳され、第2言語文蓄積部15によって蓄積された第2言語の文と、コンパラブルコーパスの有する第2言語のコーパスのj番目の文との類似情報を算出する。なお、コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、その文が機械翻訳され、第2言語文蓄積部15によって蓄積された第2言語の文との対応をとることができるようになっているものとする。
(Step S203) The similar
(ステップS204)類似情報算出部16は、ステップS203で算出した類似情報を図示しない記録媒体において一時的に記憶する。なお、この類似情報の記憶の際に、どの2文の類似情報であるのかが分かるようにしておくことが好適である。そのために、例えば、カウンタiの値と、カウンタjの値と対応付けて、類似情報を記憶するようにしてもよい。
(Step S204) The similar
(ステップS205)類似情報算出部16は、カウンタjを1だけインクリメントする。
(Step S205) The similar
(ステップS206)類似情報算出部16は、コンパラブルコーパスの有する第2言語のコーパスにj番目の文が存在するかどうか判断する。そして、存在する場合には、ステップS203に戻り、そうでない場合には、ステップS207に進む。
(Step S206) The similar
(ステップS207)類似情報算出部16は、カウンタiを1だけインクリメントする。
(Step S207) The similar
(ステップS208)類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスにi番目の文が存在するかどうか判断する。そして、存在する場合には、ステップS202に戻り、そうでない場合には、ステップS209に進む。
(Step S208) The similar
(ステップS209)類似情報算出部16は、カウンタjを1に設定する。
(Step S209) The similar
(ステップS210)類似情報算出部16は、カウンタiを1に設定する。
(Step S210) The similar
(ステップS211)類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスのi番目の文と、コンパラブルコーパスの有する第2言語のコーパスのj番目の文が機械翻訳され、第1言語文蓄積部14によって蓄積された第1言語の文との類似情報を算出する。なお、コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、その文が機械翻訳され、第1言語文蓄積部14によって蓄積された第1言語の文との対応をとることができるようになっているものとする。
(Step S211) The similarity
(ステップS212)類似情報算出部16は、ステップS211で算出した類似情報を図示しない記録媒体において一時的に記憶する。なお、この類似情報の記憶の際に、どの2文の類似情報であるのかが分かるようにしておくことが好適である。そのために、例えば、カウンタiの値と、カウンタjの値と対応付けて、類似情報を記憶するようにしてもよい。
(Step S212) The similar
(ステップS213)類似情報算出部16は、カウンタiを1だけインクリメントする。
(Step S213) The similar
(ステップS214)類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスにi番目の文が存在するかどうか判断する。そして、存在する場合には、ステップS211に戻り、そうでない場合には、ステップS215に進む。
(Step S214) The similar
(ステップS215)類似情報算出部16は、カウンタjを1だけインクリメントする。
(Step S215) The similar
(ステップS216)類似情報算出部16は、コンパラブルコーパスの有する第2言語のコーパスにj番目の文が存在するかどうか判断する。そして、存在する場合には、ステップS210に戻り、そうでない場合には、図2のフローチャートに戻る。
(Step S216) The similar
図4は、図2のフローチャートにおける対訳情報の生成処理(ステップS109の処理)の詳細を示すフローチャートである。なお、この図4のフローチャートは、対訳情報の生成する処理の一例を示すものであって、その他の方法によって対訳情報が生成されてもよいことは言うまでもない。また、このフローチャートでは、類似情報が類似性を示す情報である場合について主に説明する。 FIG. 4 is a flowchart showing details of the bilingual information generation process (the process of step S109) in the flowchart of FIG. Note that the flowchart of FIG. 4 shows an example of processing for generating parallel translation information, and it goes without saying that parallel translation information may be generated by other methods. In this flowchart, the case where the similar information is information indicating similarity is mainly described.
(ステップS301)対訳情報生成部17は、類似情報算出部16が算出した類似情報のうち、しきい値よりも小さい類似情報を削除する。なお、この削除の際に、類似情報にカウンタの値等が対応付けられている場合には、その情報も一緒に削除するものとする。
(Step S301) The parallel translation
(ステップS302)対訳情報生成部17は、カウンタiを1に設定する。
(Step S302) The parallel translation
(ステップS303)対訳情報生成部17は、コンパラブルコーパスの有する第1言語のコーパスのi番目の文に関する類似情報を降順にソートする。なお、第1言語のコーパスのi番目の文に関する類似情報とは、そのi番目の文と、第2言語のコーパスに含まれる文との類似情報である。例えば、図3のフローチャートにおいて、類似情報がカウンタi,jの値に対応付けられて記憶されている場合には、対訳情報生成部17は、カウンタiの値に対応付けられている類似情報であって、削除されなかった類似情報をソートすることになる。なお、コンパラブルコーパスの有する第1言語のコーパスのi番目の文に関する類似情報が存在しない場合、例えば、ステップS301において、その類似情報がすべて削除された場合には、ステップS306に進んでもよい。
(Step S303) The parallel translation
(ステップS304)対訳情報生成部17は、ソート後の類似情報において、類似性の高い類似情報を特定する。類似情報が類似性を示す情報である場合には、例えば、降順にソートした後の上位からあらかじめ決められた個数の類似情報を特定してもよい。
(Step S304) The parallel translation
(ステップS305)対訳情報生成部17は、コンパラブルコーパスの有する第1言語のコーパスのi番目の文と、そのi番目の文に、特定した類似情報によって対応付けられる第2言語のコーパスの文とを対応付ける対訳情報を生成する。i番目の文に、特定した類似情報によって対応付けられる第2言語のコーパスの文とは、例えば、図3のフローチャートにおいて、類似情報がカウンタi,jの値に対応付けられて記憶されている場合には、特定された類似情報に対応するカウンタjの値で特定される第2言語のコーパスの文、すなわち、第2言語のコーパスのj番目の文である。
(Step S305) The parallel translation
(ステップS306)対訳情報生成部17は、カウンタiを1だけインクリメントする。
(Step S306) The parallel translation
(ステップS307)対訳情報生成部17は、コンパラブルコーパスの有する第1言語のコーパスにi番目の文が存在するかどうか判断する。そして、存在する場合には、ステップS303に戻り、そうでない場合には、図2のフローチャートに戻る。
(Step S307) The parallel translation
なお、図4のフローチャートにおいて、類似性の低い類似情報を削除する処理(ステップS301の処理)を行わなくてもよい。また、生成した対訳情報において重複が存在する場合、すなわち、同じ対訳情報が2以上存在する場合には、その重複が解消するために、2以上の同じ対訳情報のうち、1個だけを残して他の対訳情報を削除してもよい。また、図4のフローチャートでは、コンパラブルコーパスの有する第1言語のコーパスの文を基準に処理を行う場合について説明したが、コンパラブルコーパスの有する第2言語のコーパスの文を基準に処理を行ってもよい。 In the flowchart of FIG. 4, the process of deleting similar information with low similarity (the process of step S301) may not be performed. In addition, when there is duplication in the generated parallel translation information, that is, when there are two or more of the same translation information, only one of the two or more of the same translation information is left in order to eliminate the duplication. Other parallel translation information may be deleted. In the flowchart of FIG. 4, the case is described in which processing is performed on the basis of a corpus sentence in the first language possessed by the comparable corpus. May be.
次に、本実施の形態による情報処理装置1の動作について、具体例を用いて説明する。
まず、対訳情報記憶部19で対訳情報が記憶されていない状況において、処理が開始されたとする。すると、機械翻訳部13は、対訳情報記憶部19を参照し、対訳情報が存在しないと判断して(ステップS101)、対訳コーパス記憶部11で記憶されている対訳コーパスを読み出して学習し、翻訳モデルを生成する(ステップS103)。機械翻訳部13は、その生成した翻訳モデルを用いて、コンパラブルコーパスの有する第1言語のコーパスの各文を第2言語の文に機械翻訳する(ステップS104)。そして、コンパラブルコーパスの有する第1言語のコーパスの文の番号と、その第1言語の文が機械翻訳された第2言語の文とを対にして第2言語文蓄積部15に渡す。第2言語文蓄積部15は、第1言語のコーパスの文の番号と、第2言語の文とを対応付けて図示しない記録媒体に蓄積する(ステップS105)。
Next, the operation of the
First, it is assumed that the process is started in a situation where the parallel translation information is not stored in the parallel translation
同様にして、機械翻訳部13は、生成した翻訳モデルを用いて、コンパラブルコーパスの有する第2言語のコーパスの各文を第1言語の文に機械翻訳する(ステップS106)。そして、コンパラブルコーパスの有する第2言語のコーパスの文の番号と、その第2言語の文が機械翻訳された第1言語の文とを対にして第1言語文蓄積部14に渡す。第1言語文蓄積部14は、第2言語のコーパスの文の番号と、第1言語の文とを対応付けて図示しない記録媒体に蓄積する(ステップS107)。
Similarly, the
その後、類似情報算出部16は、類似情報を算出する処理を行う(ステップS108)。具体的には、類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスの1番目の文が機械翻訳された第2言語の文を、第2言語文蓄積部15が第2言語の文を蓄積した記録媒体を参照して特定する。また、類似情報算出部16は、コンパラブルコーパスの有する第2言語のコーパスの1番目の文を特定する。そして、類似情報算出部16は、それらの特定した2文の類似情報を算出する(ステップS201〜S203)。ここでは、その類似情報の値が「0.01」であったとする。すると、類似情報算出部16は、その時点でのカウンタiの値(=1)と、カウンタjの値(=1)と対応付けて、類似情報を図示しない記録媒体において一時的に記憶する(ステップS204)。図5の1番目のレコードは、そのようにして一時的に記憶された類似情報等を示すものである。図5のテーブルにおいて、第1言語のコーパスにおける文の番号が、カウンタiの値に対応し、第2言語のコーパスにおける文の番号が、カウンタjの値に対応している。
Thereafter, the similar
次に、類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスの1番目の文が機械翻訳された第2言語の文を、第2言語文蓄積部15が第2言語の文を蓄積した記録媒体を参照して特定する。また、類似情報算出部16は、コンパラブルコーパスの有する第2言語のコーパスの2番目の文を特定する。そして、それらの特定した2文の類似情報を算出する(ステップS205,S206,S201〜S203)。そして、類似情報算出部16は、図5の2番目のレコードで示されるように、その類似情報を、その時点でのカウンタi,jの値に対応付けて、図示しない記録媒体に蓄積する(ステップS204)。このような処理が繰り返されることによって、類似情報が図5のテーブルで示されるように蓄積されていく(ステップS202〜S208)。
Next, the similarity
次に、類似情報算出部16は、コンパラブルコーパスの有する第1言語のコーパスの1番目の文を特定する。また、類似情報算出部16は、コンパラブルコーパスの有する第2言語のコーパスの1番目の文が機械翻訳された第1言語の文を、第1言語文蓄積部14が第1言語の文を蓄積した記録媒体を参照して特定する。そして、類似情報算出部16は、それらの特定した2文の類似情報を算出する(ステップS209〜S211)。ここでは、その類似情報の値が、「0.03」であったとする。すると、類似情報算出部16は、その時点でのカウンタiの値(=1)と、カウンタjの値(=1)と対応付けて、類似情報を図示しない記録媒体において一時的に記憶する(ステップS212)。図6の1番目のレコードは、そのようにして一時的に記憶された類似情報等を示すものである。図6のテーブルにおいても、第1言語のコーパスにおける文の番号が、カウンタiの値に対応し、第2言語のコーパスにおける文の番号が、カウンタjの値に対応している。そして、上記説明と同様にして、類似情報を算出して蓄積する処理が繰り返されることによって、類似情報が図6のテーブルで示されるように蓄積されていく(ステップS210〜S216)。
Next, the similar
その後、対訳情報生成部17は、対訳情報を生成する処理を行う(ステップS109)。具体的には、対訳情報生成部17は、図5,図6のテーブルを参照し、類似情報がしきい値よりも小さいレコードを削除する(ステップS301)。ここでは、そのしきい値が「0.5」に設定されていたとする。すると、対訳情報生成部17は、例えば、図5で示されるテーブルの1番目のレコード、2番目のレコード、4番目のレコードなどを削除する。
Thereafter, the parallel translation
次に、対訳情報生成部17は、図5,図6で示されるテーブルから、第1言語のコーパスの1番目の文に関するレコード、すなわち、第1言語のコーパスにおける文の番号が「1」であるレコードを取得する。そして、その取得したレコードを類似情報の降順になるようにソートする(ステップS302,S303)。そのソート後のレコードは、図7で示されるようになっていたとする。また、この具体例では、第1言語のコーパスの一文ごとに、最大で3個の対訳情報を生成するように設定されていたとする。すると、対訳情報生成部17は、図7のレコードにおいて、類似情報の大きい順に3個のレコードと特定する(ステップS304)。そして、その各レコードから、第1言語のコーパスにおける文の番号と、第2言語のコーパスにおける文の番号とを取り出し、それらの文の番号で特定される文をコンパラブルコーパス記憶部12から読み出すことによって、対訳情報を生成する(ステップS305)。
Next, the bilingual
具体的には、対訳情報生成部17は、第1言語のコーパスの1番目の文と、第2言語のコーパスの123番目の文とを対応付ける対訳情報と、第1言語のコーパスの1番目の文と、第2言語のコーパスの222番目の文とを対応付ける対訳情報と、第1言語のコーパスの1番目の文と、第2言語のコーパスの3番目の文とを対応付ける対訳情報とを生成する。これらの対訳情報は、図示しない記録媒体において一時的に記憶されてもよく、あるいは、対訳情報出力部18によって対訳情報記憶部19に蓄積されてもよい。
Specifically, the bilingual
次に、対訳情報生成部17は、図5,図6で示されるテーブルから、第1言語のコーパスの2番目の文に関するレコード、すなわち、第1言語のコーパスにおける文の番号が「2」であるレコードを取得し、その取得したレコードを類似情報の降順になるようにソートする(ステップS306,S307,S303)。そして、上記説明と同様に、対訳情報生成部17は、類似情報の大きいレコードの特定や、対訳情報の生成を行う(ステップS304,S305)。このような処理(ステップS303〜S307)が繰り返して実行されることにより、対訳情報が生成されることになる。
Next, the bilingual
対訳情報出力部18は、生成された対訳情報を対訳情報記憶部19に蓄積する(ステップS110)。その後、機械翻訳部13は、対訳情報記憶部19を参照し、記憶されている対訳情報が存在するため、対訳情報が存在すると判断して(ステップS101)、その対訳情報と、対訳コーパスとを用いて学習を行い、翻訳モデルを生成する(ステップS102)。そして、前述の説明と同様に、新たな対訳情報を生成する処理が実行されることになる(ステップS104〜S110)。そして、対訳情報を生成する一連の処理が、あらかじめ決められた回数だけ繰り返して実行されることになる。
The parallel translation
なお、この一連の処理で生成された対訳情報を対訳情報記憶部19に蓄積する際に、対訳情報出力部18は、前回の一連の処理で生成された対訳情報を削除してから新たな対訳情報を蓄積してもよい。最新の対訳情報が最終的に用いられる対訳情報であって、過去の対訳情報は不要だからである。なお、対訳情報出力部18が、過去の対訳情報を残して最新の対訳情報を対訳情報記憶部19に蓄積する場合には、最新の対訳情報を過去の対訳情報と区別可能なようにフラグ等を設定して蓄積することが好適である。なお、機械翻訳部13が対訳コーパスと対訳情報をも用いて学習を行う場合にも、最新の対訳情報を用いて学習を行うことが好適である。
When the parallel translation information generated by this series of processes is accumulated in the parallel translation
また、この具体例で用いた図5〜図7の具体的なデータは、本実施の形態による情報処理装置1の動作の詳細を説明するために示したものであり、実際にコーパス等を用いて算出したデータではない。
Further, the specific data of FIGS. 5 to 7 used in this specific example is shown for explaining the details of the operation of the
[実験例]
次に、本実施の形態による情報処理装置1を評価するための実験について説明する。この実験では、対訳コーパス記憶部11で記憶される対訳コーパスと、コンパラブルコーパス記憶部12で記憶されるコンパラブルコーパスとを同じものとした。そして、得られた対訳情報のみを用いて再度、学習を行い、対訳コーパスを用いて学習を行ったシステムと、対訳情報のみを用いて学習を行ったシステムとを比較することによって、本実施の形態による情報処理装置1の評価を行う。すなわち、この実験により得られる対訳情報は、対訳コーパス記憶部11で記憶される対訳コーパスよりも規模の小さいものとなる。そして、その対訳情報を学習したシステムが、対訳コーパスを学習したシステムと同等の性能であれば、性能を劣化させることなく学習コーパスのサイズを縮小することが可能となっていることが分かり、その結果として、本実施の形態による情報処理装置1によって、コンパラブルコーパスから適切な対訳情報を抽出することができていることが間接的に証明されたことになる。
[Experimental example]
Next, an experiment for evaluating the
この実験では、翻訳モデルの学習には、pharaoh training toolkitを用いた。また、言語モデルの学習には、SRI language model tool kitを用いた。また、類似情報として、BLEUスコアを用いた。 In this experiment, the pharaoh training toolkit was used for learning the translation model. In addition, SRI language model tool kit was used for learning the language model. Moreover, the BLEU score was used as similar information.
[実験1]
この実験1では、日英特許に関する対訳コーパスを用いた。この対訳コーパスは、次に述べる手順によって生成した。まず、日英特許コーパスを用意する。その日英特許コーパスについては、次の文献を参照されたい。
[Experiment 1]
In
文献:Masao Utiyama、Hitoshi Isahara、「A Japanese−English Patent Parallel Corpus」、MT−Summi XI Literature: Masao Utyyama, Hitachi Isahara, “A Japan-English Patent Parallel Corpus”, MT-Summi XI
その日英特許コーパスでは、あらかじめ記事単位で日英特許が対応付けられており、その日英特許コーパスから抄録部分のみを抽出する。そして、その抽出した日英それぞれの抄録における文数が同じであれば、各文が順番に翻訳されていると仮定して、それぞれの文を対応付けて対訳コーパスに登録する。一方、文数が異なる場合には、その抄録は対訳コーパスの生成に用いない。このようにして、国際特許分類(IPC)のG06の公報から、740,000個の日本語の文と英語の文とのペアを有する対訳コーパスを生成した。 In the Japanese-English patent corpus, Japanese-English patents are associated with each article in advance, and only the abstract part is extracted from the Japanese-English patent corpus. If the number of sentences in the extracted Japanese and English abstracts is the same, each sentence is assumed to be translated in order, and each sentence is associated and registered in the bilingual corpus. On the other hand, if the number of sentences is different, the abstract is not used to generate a bilingual corpus. In this way, a bilingual corpus having 740,000 Japanese sentences and English sentences pairs was generated from the International Patent Classification (IPC) G06 publication.
図8は、その実験結果を示すグラフである。図8のグラフにおいて、縦軸はBLEUスコアであり、このBLEUスコアは、学習に用いられていないテストセット500文に対するテストセット単位のBLEUスコアである。横軸は、文単位のBLEUスコア(類似情報)をもとに取捨選択した学習セット(対訳情報)のサイズ、すなわち、学習で用いた日本語の文と英語の文とのペアの数である。図中の破線は、すべてのデータ(740,000個のペア)を学習に用いた結果である。 FIG. 8 is a graph showing the experimental results. In the graph of FIG. 8, the vertical axis represents a BLEU score, and this BLEU score is a BLEU score in units of test sets for a test set 500 sentence that is not used for learning. The horizontal axis represents the size of the learning set (translation information) selected based on the sentence-wise BLEU score (similar information), that is, the number of pairs of Japanese sentences and English sentences used in learning. . The broken line in the figure is the result of using all data (740,000 pairs) for learning.
図8から分かるように、300,000ペア程度を学習セットから削除したとしても、すべての対訳コーパスを用いて学習した場合と同等の性能が得られている。したがって、本実施の形態による情報処理装置1を用いて対訳コーパスのサイズを縮小したとしても、性能が劣化しないため、情報処理装置1によって、コンパラブルコーパスから適切な対訳情報を抽出できることが分かる。
As can be seen from FIG. 8, even when about 300,000 pairs are deleted from the learning set, the same performance as when learning is performed using all the parallel corpora. Therefore, even if the size of the bilingual corpus is reduced by using the
[実験2]
この実験2では、対訳コーパスとして、150,000個のペアを有するJENAADコーパスを用いた。そのJENAADコーパスについては、前述の非特許文献1を参照されたい。
[Experiment 2]
In this
図9は、JENAADコーパスを用いた場合における実験結果である。図9においても、実験1と同様に、学習に用いられていないテストセット500文に対するテストセット単位のBLEUスコアを示している。図9において、学習ペアの数が150,000個である「ベースライン」は、JENAADコーパスのすべてをそのまま用いた結果である。図9において、学習ペアの数が100,000個、50,000個である「ベースライン」は、前述の非特許文献1の方法によって得られた文アライメントスコアを用いて学習文の取捨選択を行った後の学習ペアを用いた場合の結果である。学習ペアの数が100,000個、50,000個である「提案方法」は、本実施の形態による情報処理装置1を用いて学習ペアの数を100,000個、50,000個に取捨選択したものである。
FIG. 9 shows experimental results when the JENAD AD corpus is used. FIG. 9 also shows the BLEU score in units of test sets for the test set 500 sentences not used for learning, as in
図9から分かるように、100,000個のペアを選択した場合には、提案方法は、ベースラインよりも高い翻訳性能が得られている。また、50,000個のペアを選択した場合でも、提案方法は、ベースラインよりも性能は劣るものの、実質的に遜色のないものである。したがって、本実施の形態による情報処理装置1を用いて対訳コーパスのサイズを縮小したとしても、性能が実質的に劣化しないため、情報処理装置1によって、コンパラブルコーパスから適切な対訳情報を抽出できることが分かる。
As can be seen from FIG. 9, when 100,000 pairs are selected, the proposed method has a higher translation performance than the baseline. Even when 50,000 pairs are selected, the proposed method is substantially inferior to the baseline, although the performance is inferior to the baseline. Therefore, even if the size of the bilingual corpus is reduced using the
以上のように、本実施の形態による情報処理装置1によれば、対訳辞書や対訳シソーラス等の言語資源を用いることなく、コンパラブルコーパスから、対訳関係にある文の対(ペア)を対応付ける対訳情報を生成することができる。また、機械翻訳部13による機械翻訳と、類似情報算出部16による類似情報の算出と、対訳情報生成部17による対訳情報の生成とを行う一連の処理を繰り返して実行することによって、機械翻訳部13は、対訳情報をも用いて学習を行うことができ、その結果として、機械翻訳の精度を向上させることができうる。その結果、生成される対訳情報の精度も高いものになると考えられる。
As described above, according to the
なお、本実施の形態では、対訳情報出力部18が対訳情報記憶部19に対訳情報を蓄積する場合について説明したが、これは一例であって、対訳情報出力部18は、蓄積以外の出力の処理を行ってもよいことは言うまでもない。なお、対訳情報出力部18が対訳情報を対訳情報記憶部19に蓄積しない場合には、情報処理装置1は、対訳情報記憶部19を備えていなくてもよい。
In this embodiment, the case where the parallel translation
また、本実施の形態では、機械翻訳部13が、コンパラブルコーパスの有する第1言語のコーパスの文と、第2言語のコーパスの文の両方について機械翻訳を行う場合について説明したが、機械翻訳部13は、第1言語のコーパスの文を第2言語の文に機械翻訳するだけであってもよい。その場合には、第1言語の文への翻訳は行われないため、類似情報算出部16や対訳情報生成部17は、第1言語文蓄積部14が蓄積した文に関する処理を行わなくてもよく、情報処理装置1は第1言語文蓄積部14を備えていなくてもよい。
In the present embodiment, the case has been described in which the
また、本実施の形態では、機械翻訳部13が対訳コーパスを用いて機械翻訳を行うコーパスベース翻訳システムである場合について説明したが、1回目の翻訳の際には、そうでなくてもよい。例えば、機械翻訳部13が1回目に、コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳したり、コンパラブルコーパスの有する第2言語のコーパスに含まれる各文を第1言語に機械翻訳したりする際には、対訳コーパスや対訳情報を用いない汎用の機械翻訳(例えば、ルールベースの機械翻訳であってもよい)を行い、機械翻訳部13が2回目以降にコンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳したり、コンパラブルコーパスの有する第2言語のコーパスに含まれる各文を第1言語に機械翻訳したりする際には、前回の機械翻訳によって生成された対訳情報を用いて機械翻訳(この機械翻訳は、コーパスベースの翻訳となる)を行ってもよい。したがって、機械翻訳部13は、例えば、ルールベースの機械翻訳と、統計機械翻訳との両方を実行可能なものであってもよい。このようにして、機械翻訳と、類似情報の算出と、対訳情報の生成とを行う一連の処理が2回以上繰り返して実行されることにより、生成される対訳情報は、徐々に精度の高いものになっていくと考えられ得る。
In the present embodiment, the case where the
また、上記実施の形態では、情報処理装置1がスタンドアロンである場合について説明したが、情報処理装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部は、通信回線を介して情報を出力してもよい。
Moreover, although the case where the
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In the above embodiment, each process or each function may be realized by centralized processing by a single device or a single system, or may be distributedly processed by a plurality of devices or a plurality of systems. It may be realized by doing.
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。 In the above embodiment, information related to processing executed by each component, for example, information received, acquired, selected, generated, transmitted, or received by each component In addition, information such as threshold values, mathematical formulas, addresses, etc. used by each component in processing is retained temporarily or over a long period of time on a recording medium (not shown) even when not explicitly stated in the above description. It may be. Further, the storage of information in the recording medium (not shown) may be performed by each component or a storage unit (not shown). Further, reading of information from the recording medium (not shown) may be performed by each component or a reading unit (not shown).
また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。 In the above embodiment, when information used by each component, for example, information such as a threshold value, an address, and various setting values used by each component may be changed by the user Even if it is not specified in the above description, the user may be able to change the information as appropriate, or it may not be. If the information can be changed by the user, the change is realized by, for example, a not-shown receiving unit that receives a change instruction from the user and a changing unit (not shown) that changes the information in accordance with the change instruction. May be. The change instruction received by the receiving unit (not shown) may be received from an input device, information received via a communication line, or information read from a predetermined recording medium, for example. .
また、上記実施の形態において、情報処理装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
In the above embodiment, when two or more constituent elements included in the
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における情報処理装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対訳関係にある第1言語の文と第2言語の文とを対応付けるコーパスである対訳コーパスが記憶される対訳コーパス記憶部で記憶されている対訳コーパスを用いて、第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部として機能させるためのものである。
In the above embodiment, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. In addition, the software which implement | achieves the
また、このプログラムにおいて、前記機械翻訳部は、前記対訳コーパスを用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる各文を第1言語に機械翻訳する処理をも行うものであり、コンピュータを、前記機械翻訳部によって機械翻訳された第1言語の文を蓄積する第1言語文蓄積部としてさらに機能させ、前記類似情報算出部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文との類似性に関する情報である類似情報をも算出し、前記対訳情報生成部は、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文に対して機械翻訳の元となる第2言語の文とを対応付ける情報である対訳情報をも生成してもよい。 In this program, the machine translation unit also performs a process of machine-translating each sentence included in the second language corpus of the comparable corpus into the first language using the bilingual corpus. The computer further functions as a first language sentence storage unit that stores sentences of the first language machine-translated by the machine translation unit, and the similarity information calculation unit is configured to use the corpus of the first language that the comparable corpus has. Similar information that is information on the similarity between the sentence included in the first language sentence storage unit and the sentence in the first language stored in the first language sentence storage unit is also calculated, and the parallel information generation unit is calculated by the similarity information calculation unit Using the similar information, the combination of the sentence included in the first language corpus of the comparable corpus and the sentence of the first language stored in the first language sentence storage unit is used. Machine translation of a sentence included in the first language corpus of the comparable corpus and a sentence in the first language accumulated by the first language sentence accumulating unit included in a combination having high similarity between the two. You may also generate parallel translation information, which is information for associating the original second language sentence.
また、このプログラムにおいて、前記機械翻訳部は、前記対訳情報生成部が生成した対訳情報が存在する場合には、当該対訳情報と、前記対訳コーパスとを用いて機械翻訳を行うものであり、前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行してもよい。 Further, in this program, the machine translation unit performs machine translation using the bilingual information and the bilingual corpus when the bilingual information generated by the bilingual information generation unit exists, A series of processes for machine translation by the machine translation unit, calculation of similar information by the similar information calculation unit, and generation of bilingual information by the bilingual information generation unit may be repeated twice or more.
なお、上記実施の形態における情報処理装置1を実現する他のソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部として機能させ、前記機械翻訳部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を1回目に翻訳する際には、前記対訳情報を用いない機械翻訳を行い、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を2回目以降に翻訳する際には、前記対訳情報を用いた機械翻訳を行い、前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行する、ものである。
In addition, the other software which implement | achieves the
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。 In the program, the functions realized by the program do not include functions that can be realized only by hardware. For example, a function that can be realized only by hardware such as a modem or an interface card in an output unit that outputs information is not included in at least the function realized by the program.
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。 Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by Further, this program may be used as a program constituting a program product.
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
図10は、上記プログラムを実行して、上記実施の形態による情報処理装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
FIG. 10 is a schematic diagram illustrating an example of an external appearance of a computer that executes the program and realizes the
図10において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
10, a
図11は、コンピュータシステム900の内部構成を示す図である。図11において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
FIG. 11 is a diagram showing an internal configuration of the
コンピュータシステム900に、上記実施の形態による情報処理装置1の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
A program that causes the
プログラムは、コンピュータ901に、上記実施の形態による情報処理装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上より、本発明による情報処理装置等によれば、対訳辞書や対訳シソーラスを用いることなく、コンパラブルコーパスから、対訳関係にある文の対を生成することができるという効果が得られ、例えば、統計翻訳技術で用いられる対訳コーパスを生成するものとして有用である。 As described above, according to the information processing apparatus and the like according to the present invention, it is possible to generate a pair of sentences having a translation relation from a comparable corpus without using a bilingual dictionary or a bilingual thesaurus. It is useful for generating parallel corpora used in statistical translation technology.
1 情報処理装置
11 対訳コーパス記憶部
12 コンパラブルコーパス記憶部
13 機械翻訳部
14 第1言語文蓄積部
15 第2言語文蓄積部
16 類似情報算出部
17 対訳情報生成部
18 対訳情報出力部
19 対訳情報記憶部
DESCRIPTION OF
Claims (8)
第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部と、
前記対訳コーパスを用いて、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、
前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、
前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、
前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、
前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部と、を備えた情報処理装置。 A bilingual corpus storage unit that stores a bilingual corpus that is a corpus that associates a sentence in a first language and a sentence in a second language in a bilingual relationship;
A comparable corpus storage unit that stores a comparable corpus having a first language corpus and a second language corpus;
A machine translation unit that machine-translates each sentence included in the corpus of the first language included in the comparable corpus into a second language using the bilingual corpus;
A second language sentence accumulating unit for accumulating sentences of the second language machine translated by the machine translation unit;
A similarity information calculation unit that calculates similarity information that is information about similarity between a sentence included in the corpus of the second language included in the comparable corpus and a sentence of the second language accumulated by the second language sentence accumulation unit; ,
Using the similar information calculated by the similar information calculation unit, a combination of a sentence included in the second language corpus of the comparable corpus and a second language sentence accumulated by the second language sentence accumulation unit Of these, machine translation is performed for a sentence included in the second language corpus of the comparable corpus and a sentence in the second language accumulated by the second language sentence accumulating unit, which are included in a combination having high similarity between the two. A bilingual information generating unit that generates bilingual information that is information that associates a sentence in the first language that is the source of
An information processing apparatus comprising: a parallel translation information output unit that outputs the parallel translation information generated by the parallel translation information generation unit.
前記機械翻訳部によって機械翻訳された第1言語の文を蓄積する第1言語文蓄積部をさらに備え、
前記類似情報算出部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文との類似性に関する情報である類似情報をも算出し、
前記対訳情報生成部は、前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる文と、前記第1言語文蓄積部が蓄積した第1言語の文に対して機械翻訳の元となる第2言語の文とを対応付ける情報である対訳情報をも生成する、請求項1記載の情報処理装置。 The machine translation unit also performs a process of machine-translating each sentence included in the second language corpus of the comparable corpus into the first language using the bilingual corpus,
A first language sentence accumulating unit for accumulating sentences in the first language machine translated by the machine translating unit;
The similarity information calculation unit obtains similarity information that is information related to the similarity between a sentence included in the first language corpus of the comparable corpus and a sentence in the first language accumulated in the first language sentence accumulation unit. Also calculate
The bilingual information generation unit uses the similarity information calculated by the similarity information calculation unit, and the sentence included in the corpus of the first language included in the comparable corpus and the first language sentence accumulated by the first language sentence accumulation unit. A sentence included in a corpus of a first language included in the comparable corpus and a first language accumulated by the first language sentence accumulating unit, which are included in a combination having high similarity between the sentences of a language The information processing apparatus according to claim 1, further comprising: bilingual information that is information for associating a sentence in a second language that is a source of machine translation with the sentence.
前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行する、請求項1または請求項2記載の情報処理装置。 The machine translation unit performs machine translation using the bilingual information and the bilingual corpus when the bilingual information generated by the bilingual information generation unit exists,
The series of processes for performing machine translation by the machine translation unit, calculation of similar information by the similarity information calculation unit, and generation of parallel translation information by the parallel translation information generation unit are repeatedly performed twice or more, or The information processing apparatus according to claim 2.
前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、
前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、
前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、
前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、
前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部と、を備え、
前記機械翻訳部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を1回目に翻訳する際には、前記対訳情報を用いない機械翻訳を行い、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を2回目以降に翻訳する際には、前記対訳情報を用いた機械翻訳を行い、
前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行する、情報処理装置。 A comparable corpus storage unit that stores a comparable corpus having a first language corpus and a second language corpus;
A machine translation unit that machine translates each sentence included in the first language corpus of the comparable corpus into a second language;
A second language sentence accumulating unit for accumulating sentences of the second language machine translated by the machine translation unit;
A similarity information calculation unit that calculates similarity information that is information about similarity between a sentence included in the corpus of the second language included in the comparable corpus and a sentence of the second language accumulated by the second language sentence accumulation unit; ,
Using the similar information calculated by the similar information calculation unit, a combination of a sentence included in the second language corpus of the comparable corpus and a second language sentence accumulated by the second language sentence accumulation unit Of these, machine translation is performed for a sentence included in the second language corpus of the comparable corpus and a sentence in the second language accumulated by the second language sentence accumulating unit, which are included in a combination having high similarity between the two. A bilingual information generating unit that generates bilingual information that is information that associates a sentence in the first language that is the source of
A bilingual information output unit that outputs the bilingual information generated by the bilingual information generating unit,
The machine translation unit performs machine translation without using the parallel translation information when the sentences included in the corpus of the first language included in the comparable corpus are translated for the first time. When translating each sentence contained in one language corpus from the second time onwards, perform machine translation using the bilingual information,
An information processing apparatus that repeatedly executes a series of processes for performing machine translation by the machine translation unit, calculation of similar information by the similarity information calculation unit, and generation of parallel translation information by the parallel translation information generation unit twice or more.
前記機械翻訳部が、前記対訳コーパスを用いて、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳ステップと、
前記第2言語文蓄積部が、前記機械翻訳ステップで機械翻訳された第2言語の文を蓄積する第2言語文蓄積ステップと、
前記類似情報算出部が、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積ステップで蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出ステップと、
前記対訳情報生成部が、前記類似情報算出ステップで算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積ステップで蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成ステップと、
前記対訳情報出力部が、前記対訳情報生成ステップで生成した対訳情報を出力する対訳情報出力ステップと、を備えた情報処理方法。 A parallel corpus storage unit that stores a parallel corpus that correlates a sentence in a first language and a sentence in a second language that are in a parallel translation relationship, and a comparable corpus having a corpus of a first language and a corpus of a second language Processing method processed using a composable corpus storage unit, a machine translation unit, a second language sentence storage unit, a similar information calculation unit, a parallel translation information generation unit, and a parallel translation information output unit Because
A machine translation step in which the machine translation unit machine translates each sentence included in the corpus of the first language included in the comparable corpus into a second language using the bilingual corpus;
A second language sentence accumulation step in which the second language sentence accumulation unit accumulates sentences of the second language machine-translated in the machine translation step;
The similarity information calculation unit calculates similarity information that is information related to the similarity between the sentence included in the second language corpus of the comparable corpus and the sentence in the second language accumulated in the second language sentence accumulation step. A similar information calculation step to calculate,
The bilingual information generation unit uses the similarity information calculated in the similarity information calculation step, and the sentence included in the corpus of the second language included in the comparable corpus and the second language sentence accumulated in the second language sentence accumulation step. Of the combinations with language sentences, the sentences included in the second language corpus of the comparable corpus and the second language stored in the second language sentence accumulation unit A bilingual information generating step for generating bilingual information that is information for associating a sentence in a first language as a source of machine translation with the sentence of
An information processing method comprising: a parallel translation information output step in which the parallel translation information output unit outputs the parallel translation information generated in the parallel translation information generation step.
前記機械翻訳部が、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳ステップと、
前記第2言語文蓄積部が、前記機械翻訳ステップで機械翻訳された第2言語の文を蓄積する第2言語文蓄積ステップと、
前記類似情報算出部が、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積ステップで蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出ステップと、
前記対訳情報生成部が、前記類似情報算出ステップで算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積ステップで蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積ステップで蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成ステップと、
前記対訳情報出力部が、前記対訳情報生成ステップで生成した対訳情報を出力する対訳情報出力ステップと、を備え、
前記機械翻訳ステップと、前記第2言語文蓄積ステップと、前記類似情報算出ステップと、前記対訳情報生成ステップとの一連の処理が2回以上繰り返して実行されるものであり、
前記機械翻訳ステップでは、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を1回目に翻訳する際には、前記対訳情報を用いない機械翻訳を行い、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を2回目以降に翻訳する際には、前記対訳情報を用いた機械翻訳を行う、情報処理方法。 A comparable corpus storage unit that stores a comparable corpus having a first language corpus and a second language corpus, a machine translation unit, a second language sentence storage unit, a similar information calculation unit, and bilingual information generation Information processing method that is processed using a translation part and a parallel translation information output part,
A machine translation step in which the machine translation unit machine translates each sentence included in the corpus of the first language included in the comparable corpus into a second language;
A second language sentence accumulation step in which the second language sentence accumulation unit accumulates sentences of the second language machine-translated in the machine translation step;
The similarity information calculation unit calculates similarity information that is information related to the similarity between the sentence included in the second language corpus of the comparable corpus and the sentence in the second language accumulated in the second language sentence accumulation step. A similar information calculation step to calculate,
The bilingual information generation unit uses the similarity information calculated in the similarity information calculation step, and the sentence included in the corpus of the second language included in the comparable corpus and the second language sentence accumulated in the second language sentence accumulation step. Of the combinations with language sentences, the sentences included in the corpus of the second language possessed by the comparable corpus included in the combination having high similarity between the two, and the second language accumulated in the second language sentence accumulation step A bilingual information generating step for generating bilingual information that is information for associating a sentence in a first language as a source of machine translation with the sentence of
The bilingual information output unit includes a bilingual information output step for outputting the bilingual information generated in the bilingual information generating step;
A series of processes of the machine translation step, the second language sentence accumulation step, the similarity information calculation step, and the parallel translation information generation step are repeatedly executed twice or more,
In the machine translation step, when each sentence included in the corpus of the first language included in the comparable corpus is translated for the first time, machine translation is performed without using the parallel translation information, and the comparable corpus includes An information processing method for performing machine translation using the parallel translation information when each sentence included in a corpus of one language is translated from the second time onward.
対訳関係にある第1言語の文と第2言語の文とを対応付けるコーパスである対訳コーパスが記憶される対訳コーパス記憶部で記憶されている対訳コーパスを用いて、第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、
前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、
前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、
前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、
前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部として機能させるためのプログラム。 Computer
A bilingual corpus stored in a bilingual corpus storage unit that stores a bilingual corpus that correlates a sentence in a first language and a sentence in a second language in a bilingual relationship is used. A machine translation unit that machine-translates each sentence included in the first language corpus of the comparable corpus stored in the comparable corpus storage unit that stores the comparable corpus having the language corpus into the second language; ,
A second language sentence accumulating unit for accumulating sentences of the second language machine translated by the machine translation unit;
A similarity information calculation unit that calculates similarity information that is information about similarity between a sentence included in the corpus of the second language included in the comparable corpus and a sentence of the second language accumulated by the second language sentence accumulation unit; ,
Using the similar information calculated by the similar information calculation unit, a combination of a sentence included in the second language corpus of the comparable corpus and a second language sentence accumulated by the second language sentence accumulation unit Of these, machine translation is performed for a sentence included in the second language corpus of the comparable corpus and a sentence in the second language accumulated by the second language sentence accumulating unit, which are included in a combination having high similarity between the two. A bilingual information generating unit that generates bilingual information that is information that associates a sentence in the first language that is the source of
The program for functioning as a parallel translation information output part which outputs the parallel translation information which the said parallel translation information generation part produced | generated.
第1言語のコーパスと第2言語のコーパスとを有するコンパラブルコーパスが記憶されるコンパラブルコーパス記憶部で記憶されているコンパラブルコーパスの有する第1言語のコーパスに含まれる各文を第2言語に機械翻訳する機械翻訳部と、
前記機械翻訳部によって機械翻訳された第2言語の文を蓄積する第2言語文蓄積部と、
前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との類似性に関する情報である類似情報を算出する類似情報算出部と、
前記類似情報算出部が算出した類似情報を用いて、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文との組合せのうち、両者の類似性の高い組合せに含まれる、前記コンパラブルコーパスの有する第2言語のコーパスに含まれる文と、前記第2言語文蓄積部が蓄積した第2言語の文に対して機械翻訳の元となる第1言語の文とを対応付ける情報である対訳情報を生成する対訳情報生成部と、
前記対訳情報生成部が生成した対訳情報を出力する対訳情報出力部として機能させ、
前記機械翻訳部は、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を1回目に翻訳する際には、前記対訳情報を用いない機械翻訳を行い、前記コンパラブルコーパスの有する第1言語のコーパスに含まれる各文を2回目以降に翻訳する際には、前記対訳情報を用いた機械翻訳を行い、
前記機械翻訳部による機械翻訳と、前記類似情報算出部による類似情報の算出と、前記対訳情報生成部による対訳情報の生成とを行う一連の処理を2回以上繰り返して実行する、プログラム。 Computer
Each sentence included in the first language corpus of the comparable corpus stored in the comparable corpus storage unit storing the comparable corpus having the first language corpus and the second language corpus is stored in the second language. A machine translation section that machine translates into
A second language sentence accumulating unit for accumulating sentences of the second language machine translated by the machine translation unit;
A similarity information calculation unit that calculates similarity information that is information about similarity between a sentence included in the corpus of the second language included in the comparable corpus and a sentence of the second language accumulated by the second language sentence accumulation unit; ,
Using the similar information calculated by the similar information calculation unit, a combination of a sentence included in the second language corpus of the comparable corpus and a second language sentence accumulated by the second language sentence accumulation unit Of these, machine translation is performed for a sentence included in the second language corpus of the comparable corpus and a sentence in the second language accumulated by the second language sentence accumulating unit, which are included in a combination having high similarity between the two. A bilingual information generating unit that generates bilingual information that is information that associates a sentence in the first language that is the source of
Function as a parallel translation information output unit that outputs the parallel translation information generated by the parallel translation information generation unit,
The machine translation unit performs machine translation without using the bilingual information when translating each sentence included in the corpus of the first language included in the comparable corpus for the first time. When translating each sentence contained in one language corpus from the second time onwards, perform machine translation using the bilingual information,
A program that repeatedly executes a series of processes of performing machine translation by the machine translation unit, calculation of similar information by the similarity information calculation unit, and generation of parallel translation information by the parallel translation information generation unit twice or more.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008062532A JP2009217689A (en) | 2008-03-12 | 2008-03-12 | Information processor, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008062532A JP2009217689A (en) | 2008-03-12 | 2008-03-12 | Information processor, information processing method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009217689A true JP2009217689A (en) | 2009-09-24 |
Family
ID=41189440
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008062532A Pending JP2009217689A (en) | 2008-03-12 | 2008-03-12 | Information processor, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009217689A (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106372187A (en) * | 2016-08-31 | 2017-02-01 | 中译语通科技(北京)有限公司 | Cross-language retrieval method oriented to big data |
| CN107038158A (en) * | 2016-02-01 | 2017-08-11 | 松下知识产权经营株式会社 | Paginal translation language material storage preparation method, device, program and machine translation system |
| JP2018055328A (en) * | 2016-09-28 | 2018-04-05 | 株式会社エヌ・ティ・ティ・データ | Parallel translation sentence extracting device, parallel translation sentence extracting method and program |
| CN110442877A (en) * | 2018-05-02 | 2019-11-12 | 国际商业机器公司 | Use robot planning as parallel language corpus |
| WO2021009972A1 (en) * | 2019-07-18 | 2021-01-21 | 株式会社モールサービス | Natural language processing method, natural language processing system, and natural language processing program |
| JPWO2021044519A1 (en) * | 2019-09-03 | 2021-03-11 | ||
| JP7107609B1 (en) | 2021-10-28 | 2022-07-27 | 株式会社川村インターナショナル | Language asset management system, language asset management method, and language asset management program |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004318510A (en) * | 2003-04-16 | 2004-11-11 | Toshiba Corp | Bilingual information creation device, bilingual information creating program, bilingual information creating method, bilingual information searching device, bilingual information searching program, and bilingual information searching method |
-
2008
- 2008-03-12 JP JP2008062532A patent/JP2009217689A/en active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004318510A (en) * | 2003-04-16 | 2004-11-11 | Toshiba Corp | Bilingual information creation device, bilingual information creating program, bilingual information creating method, bilingual information searching device, bilingual information searching program, and bilingual information searching method |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107038158A (en) * | 2016-02-01 | 2017-08-11 | 松下知识产权经营株式会社 | Paginal translation language material storage preparation method, device, program and machine translation system |
| CN107038158B (en) * | 2016-02-01 | 2021-12-03 | 松下知识产权经营株式会社 | Method and apparatus for creating translation corpus, recording medium, and machine translation system |
| CN106372187A (en) * | 2016-08-31 | 2017-02-01 | 中译语通科技(北京)有限公司 | Cross-language retrieval method oriented to big data |
| JP2018055328A (en) * | 2016-09-28 | 2018-04-05 | 株式会社エヌ・ティ・ティ・データ | Parallel translation sentence extracting device, parallel translation sentence extracting method and program |
| CN110442877A (en) * | 2018-05-02 | 2019-11-12 | 国际商业机器公司 | Use robot planning as parallel language corpus |
| JPWO2021009972A1 (en) * | 2019-07-18 | 2021-09-13 | 株式会社モールサービス | Natural language processing method, natural language processing system, and natural language processing program |
| WO2021009972A1 (en) * | 2019-07-18 | 2021-01-21 | 株式会社モールサービス | Natural language processing method, natural language processing system, and natural language processing program |
| WO2021044519A1 (en) * | 2019-09-03 | 2021-03-11 | 三菱電機株式会社 | Information processing device, program, and information processing method |
| JPWO2021044519A1 (en) * | 2019-09-03 | 2021-03-11 | ||
| KR20220027273A (en) * | 2019-09-03 | 2022-03-07 | 미쓰비시덴키 가부시키가이샤 | Information processing apparatus, computer readable recording medium and information processing method |
| JP7058807B2 (en) | 2019-09-03 | 2022-04-22 | 三菱電機株式会社 | Information processing equipment, programs and information processing methods |
| KR102473788B1 (en) | 2019-09-03 | 2022-12-02 | 미쓰비시덴키 가부시키가이샤 | Information processing device, computer readable recording medium and information processing method |
| JP7107609B1 (en) | 2021-10-28 | 2022-07-27 | 株式会社川村インターナショナル | Language asset management system, language asset management method, and language asset management program |
| JP2023066183A (en) * | 2021-10-28 | 2023-05-15 | 株式会社川村インターナショナル | Language asset management system, language asset management method, and language asset management program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9031935B2 (en) | Search system, search method, and program | |
| EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
| CA2853627C (en) | Automatic creation of clinical study reports | |
| US20120022850A1 (en) | Statistical machine translation processing | |
| JP5497048B2 (en) | Transliteration of proper expressions using comparable corpus | |
| JPH11110416A (en) | Method and device for retrieving document from data base | |
| JP2007257644A (en) | Program, method and apparatus for acquiring translated word based on translated word candidate character string prediction | |
| JP2001043236A (en) | Similar word extraction method, document search method, and apparatus used therefor | |
| CN113743090B (en) | Keyword extraction method and device | |
| JP2009217689A (en) | Information processor, information processing method, and program | |
| US8204736B2 (en) | Access to multilingual textual resources | |
| JP2011118689A (en) | Retrieval method and system | |
| JP2006065387A (en) | Text sentence search device, method, and program | |
| EP1503295A1 (en) | Text generation method and text generation device | |
| JP5869948B2 (en) | Passage dividing method, apparatus, and program | |
| CN101533391A (en) | System and method for searching similar matching sentences | |
| US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
| JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
| JP5499546B2 (en) | Important word extraction method, apparatus, program, recording medium | |
| Thanamani | Rule Based kannada named entity recognition | |
| Martins et al. | The WebCAT framework automatic generation of meta-data for Web resources | |
| JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
| EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
| JPWO2021009972A1 (en) | Natural language processing method, natural language processing system, and natural language processing program | |
| Tomás et al. | Mining wikipedia as a parallel and comparable corpus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110307 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121226 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130416 |