[go: up one dir, main page]

JP6817556B2 - Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system - Google Patents

Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system Download PDF

Info

Publication number
JP6817556B2
JP6817556B2 JP2017096570A JP2017096570A JP6817556B2 JP 6817556 B2 JP6817556 B2 JP 6817556B2 JP 2017096570 A JP2017096570 A JP 2017096570A JP 2017096570 A JP2017096570 A JP 2017096570A JP 6817556 B2 JP6817556 B2 JP 6817556B2
Authority
JP
Japan
Prior art keywords
sentence
database
words
language
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017096570A
Other languages
Japanese (ja)
Other versions
JP2018055670A (en
Inventor
山内 真樹
真樹 山内
菜々美 藤原
菜々美 藤原
今出 昌宏
昌宏 今出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to CN201710674166.5A priority Critical patent/CN107870901B/en
Priority to US15/697,489 priority patent/US10303761B2/en
Publication of JP2018055670A publication Critical patent/JP2018055670A/en
Application granted granted Critical
Publication of JP6817556B2 publication Critical patent/JP6817556B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、原文から類似文を生成する類似文生成方法、類似文生成プログラム、類似文生成装置、及び該類似文生成装置を備える類似文生成システムに関する。 The present disclosure relates to a similar sentence generation method for generating a similar sentence from an original sentence, a similar sentence generation program, a similar sentence generation device, and a similar sentence generation system including the similar sentence generation device.

近年、第1言語の文を第1言語と異なる第2言語の文に翻訳する機械翻訳が研究及び開発されており、このような機械翻訳の性能向上には、翻訳に利用可能な多数の例文を収集した対訳コーパスが必要となる。このため、1個の原文から当該原文に類似する1又は複数の類似文(言い換え文)を生成することが行われている。 In recent years, machine translation that translates a sentence in the first language into a sentence in a second language different from the first language has been researched and developed, and in order to improve the performance of such machine translation, many example sentences that can be used for translation have been studied and developed. You will need a bilingual corpus that collects. Therefore, one or a plurality of similar sentences (paraphrase sentences) similar to the original sentence are generated from one original sentence.

例えば、特許文献1には、所定のパターンで文を変形し、ふさわしい変形かどうかを判定するため、評価関数を用いて評価値を算出し、評価値の最も高い表現を選択する言語変換処理統一システムが開示されている。 For example, in Patent Document 1, in order to transform a sentence in a predetermined pattern and determine whether or not it is a suitable transformation, an evaluation value is calculated using an evaluation function, and a unified language conversion process is selected to select the expression having the highest evaluation value. The system is disclosed.

また、特許文献2には、活性に係るポイントを形態素に設定して、そのポイントを増減させ、増減されたポイントに基づいてテキストから情報を抽出する自然言語処理方法が開示されている。 Further, Patent Document 2 discloses a natural language processing method in which points related to activity are set as morphemes, the points are increased or decreased, and information is extracted from text based on the increased or decreased points.

また、特許文献3には、ユーザによって指定された言い換え前用例及び言い換え後用例に基づいて新たな言い換え後用例を生成し、解析済み文に差分を適用することによって作成された言い換え文を出力する文書処理装置が開示されている。 Further, in Patent Document 3, a new post-paraphrase example is generated based on the pre-paraphrase example and the post-paraphrase example specified by the user, and the paraphrase sentence created by applying the difference to the analyzed sentence is output. Document processing equipment is disclosed.

特許第3932350号公報Japanese Patent No. 3932350 特開2005−339043号公報Japanese Unexamined Patent Publication No. 2005-339043 特許第5060539号公報Japanese Patent No. 5060539

しかしながら、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、例文として使用可能な類似文の生成には、更なる改善が必要とされていた。 However, in order to improve the performance of machine translation, it is preferable that there are more example sentences available for translation, and further improvement is required to generate similar sentences that can be used as example sentences.

本開示は、上記従来の課題を解決するもので、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システムを提供することを目的とする。 The present disclosure solves the above-mentioned conventional problems, and can reduce the search cost for the database of the language model, and can identify similar sentences with high accuracy. Similar sentence generation method, similar sentence generation program, similar sentence. It is an object of the present invention to provide a generator and a similar sentence generation system.

本開示の一様態による方法は、原文から類似文を生成する方法であって、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する。 The uniform method of the present disclosure is a method of generating a similar sentence from the original sentence, in which the first sentence is input and one or more of the plurality of words constituting the first sentence have the same meaning as the first word. The second word / phrase of is extracted from the first database, the first database associates the word with a synonym of the word / phrase contained in the first database, and the one or more second words obtained based on the second database. The N-gram value is calculated based on the context-dependent value corresponding to the phrase, and the second database associates the phrase with the context-dependent value corresponding to the phrase contained in the second database, and the context-dependent value. Indicates the degree to which the meaning of the phrase contained in the second database depends on the context, and one or more second sentences in which the first phrase is replaced with the one or more second phrase in the first sentence. In, one or more consecutive third words and phrases including the second word and phrase corresponding to the N-gram value are extracted, and the appearance frequency of the one or more third words and phrases in the third database is calculated. The third database associates words and phrases with the appearance frequency of words and phrases contained in the third database in the third database, determines whether the calculated appearance frequency is equal to or higher than the threshold value, and the calculated appearance frequency is calculated. When it is determined that the threshold value is equal to or higher than the threshold value, the one or more second sentences are adopted as similar sentences to the first sentence and output to an external device.

本開示によれば、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。 According to the present disclosure, the search cost for the database of the language model can be reduced, and similar sentences can be identified with high accuracy.

本開示の実施の形態1における類似文生成装置の構成の一例を示すブロック図である。It is a block diagram which shows an example of the structure of the similar sentence generator in Embodiment 1 of this disclosure. 図1に示す置き換え候補辞書のデータ構成の一例を示す図である。It is a figure which shows an example of the data structure of the replacement candidate dictionary shown in FIG. 図1に示す文脈依存率辞書のデータ構成の一例を示す図である。It is a figure which shows an example of the data structure of the context dependency rate dictionary shown in FIG. 図1に示す言語モデルデータベースのデータ構成の一例を示す図である。It is a figure which shows an example of the data structure of the language model database shown in FIG. 図1に示す類似文生成装置による類似文生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the similar sentence generation processing by the similar sentence generation apparatus shown in FIG. 本開示の実施の形態2における類似文生成システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of the structure of the similar sentence generation system in Embodiment 2 of this disclosure. 図6に示す類似文生成システムのフィードバックデータ更新処理を含む類似文生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the similar sentence generation processing including the feedback data update process of the similar sentence generation system shown in FIG.

(本開示の基礎となった知見)
上記のように、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、文節置き換えを用いた類似文生成による、少量の対訳コーパスをベースとした文章量の自動拡大が要望されている。この文節置き換えを用いた類似文の生成の際、置き換え対象となる表現(語句)を含む類似候補文の取捨選択において、置き換えの良否が文脈に依存する場合が存在する。
(Knowledge on which this disclosure was based)
As described above, in order to improve the performance of machine translation, it is preferable that there are more example sentences available for translation, and it is desired to automatically expand the amount of sentences based on a small amount of parallel translation corpus by generating similar sentences using phrase replacement. ing. When generating a similar sentence using this phrase replacement, there are cases where the quality of the replacement depends on the context in the selection of similar candidate sentences including the expression (phrase) to be replaced.

このため、言語モデルに基づく置き換えルールの動的な取捨選択により、文脈依存性を考慮しつつ、事例の学習及び反映を可能にしたいが、効率良く類似候補文を取捨選択するには如何に類似候補文を取捨選択するかが重要となる。 For this reason, we would like to enable learning and reflection of cases while considering context dependence by dynamically selecting replacement rules based on the language model, but how similar is how to efficiently select similar candidate sentences. It is important to select the candidate sentences.

例えば、置き換え(換言)による対訳コーパスの拡張及び類似候補文の生成を行う場合、換言ルールとして、「話せない」が(1)「話せません」、(2)「喋れない」、(3)「秘密です」のいずれかに置き換えられる場合、「英語は話せない」との文章に、上記の換言ルールを適用すると、「英語は話せません」、「英語は喋れない」、及び「英語は秘密です」の3つの類似候補文が生成される。 For example, when expanding the bilingual corpus and generating similar candidate sentences by replacement (paraphrase), as paraphrase rules, "I can't speak" is (1) "I can't speak", (2) "I can't speak", (3). When replaced with either "secret", applying the above paraphrase rule to the sentence "I can't speak English", "I can't speak English", "I can't speak English", and "I can't speak English" Three similar candidate sentences of "It's a secret" are generated.

この場合、文脈から、「英語は話せません」及び「英語は喋れない」は、類似文として採用できるが、「英語は秘密です」は日本語として適切な表現ではないため、類似文として採用することはできず、棄却されることとなる。このように、同一の換言ルールを適用しても、文脈によって、類似候補文が類似文として採用できる場合とできない場合とが発生する。 In this case, from the context, "I can't speak English" and "I can't speak English" can be adopted as similar sentences, but "English is a secret" is not an appropriate expression for Japanese, so it is adopted as a similar sentence. It cannot be done and will be rejected. In this way, even if the same paraphrase rule is applied, there are cases where similar candidate sentences can be adopted as similar sentences and cases where they cannot be adopted, depending on the context.

類似文として採用できる採択文と採用できない棄却文とを識別する従来の方法としては、単語ベクトルや文ベクトルを用いた分散表現モデルでの類似性や言語モデル(例えば、N−gram言語モデル)での出現頻度等を基準に判断することが行われていた。具体的には、言語モデルの識別対象領域(探索範囲)を大きくする(例えば、N−gramのNを大きくする)ことにより、表現として存在しているかどうかを判断し、文脈に依存する換言ルール(置き換えルール)の採択及び棄却を決定していた。 Conventional methods for distinguishing between adopted sentences that can be adopted as similar sentences and rejected sentences that cannot be adopted are similarities in distributed expression models using word vectors and sentence vectors, and language models (for example, N-gram language model). Judgment was made based on the frequency of appearance of. Specifically, by increasing the identification target area (search range) of the language model (for example, increasing N of N-gram), it is determined whether or not it exists as an expression, and a paraphrase rule that depends on the context. It was decided to adopt and reject the (replacement rule).

また、言語モデルを用いて、文の流暢さをモデル化することによる評価も行われていた。例えば、言語モデルをN−gram言語モデルとし、N−gram言語モデルのデータベース内により多く含まれている表現を用いた訳文やフレーズのスコアを高くし、あまり含まれていないもののスコアを低くする、と言った手法などがある。この手法を応用することにより、類似候補文のスコアを算出し、閾値処理によって、「良い文」(類似文として採用できる採択文)又は「悪い文」(類似文として採用できない棄却文)を識別していた。 Evaluation was also performed by modeling the fluency of sentences using a language model. For example, let the language model be the N-gram language model, increase the score of translations and phrases that use expressions that are more contained in the database of the N-gram language model, and lower the score of those that are not included much. There is a method called. By applying this method, the score of similar candidate sentences is calculated, and "good sentences" (adopted sentences that can be adopted as similar sentences) or "bad sentences" (rejected sentences that cannot be adopted as similar sentences) are identified by threshold processing. Was.

しかしながら、識別対象領域を大きくすると、データ量及び計算量が増加するとともに、データ分布が疎になるため、全ての置き換え候補を大きな識別対象領域から検索するためには、データ量及び計算量が増大する。例えば、2−gramでは約8,000万エントリであるが、5−gramでは約8億エントリとなり、N−gramのNを大きくすると、データ量及び計算量が飛躍的に増大するという課題がある。 However, when the identification target area is increased, the data amount and the calculation amount increase and the data distribution becomes sparse. Therefore, in order to search all the replacement candidates from the large identification target area, the data amount and the calculation amount increase. To do. For example, 2-gram has about 80 million entries, but 5-gram has about 800 million entries, and if N of N-gram is increased, there is a problem that the amount of data and the amount of calculation increase dramatically. ..

上記の課題を解決するため、本開示では、例えば、置き換え候補文字列と、当該置き換え候補文字列が文脈に依存する程度を表す文脈依存値とを対応付けて複数記憶する文脈依存値記憶部を設け、文脈に依存して置き換え良否が変動する類似文において、文脈に依存して置き換えの良否が変動するか否かに応じて、置き換え候補文字列の前後の単語を含む言語モデルを参照するか否かを決定する。 In order to solve the above problem, in the present disclosure, for example, a context-dependent value storage unit that stores a plurality of replacement candidate character strings in association with a context-dependent value indicating the degree to which the replacement candidate character string depends on the context is provided. Whether to refer to a language model that includes words before and after the replacement candidate character string in a similar sentence whose replacement quality changes depending on the context, depending on whether the replacement quality changes depending on the context. Decide whether or not.

すなわち、文脈依存値に応じて言語モデルのデータベースに対する探索範囲(識別対象領域)を決定し、決定した探索範囲を用いて言語モデルのデータベースを探索することにより、文脈依存値が高いとみなされる置き換え候補文字列のみ、より大きな探索領域で識別を行い、文脈依存値が低い置き換え候補文字列は、小さな探索領域で識別を行い、探索コストと識別精度とのバランスを図っている。 That is, the search range (identification target area) for the language model database is determined according to the context-dependent value, and the language model database is searched using the determined search range, so that the context-dependent value is considered to be high. Only the candidate character string is identified in a larger search area, and the replacement candidate character string having a low context-dependent value is identified in a small search area in order to balance the search cost and the identification accuracy.

また、従来の類似文の生成方法では、分散表現や言語モデル内に含まれていない表現は、そもそも識別することができず、棄却されることとなる。例えば、訓練データ内に、「それは秘密です」というフレーズを含む文が無いと、「それは秘密です」を含む類似候補文の識別ができず、棄却されるという課題がある。 In addition, in the conventional method of generating similar sentences, distributed expressions and expressions that are not included in the language model cannot be identified in the first place and are rejected. For example, if there is no sentence containing the phrase "it is a secret" in the training data, there is a problem that similar candidate sentences including "it is a secret" cannot be identified and are rejected.

上記の課題を解決するため、本開示では、例えば、外部からの入力(例えば、ユーザ又は所定の装置等のフィードバック)により、文脈依存性の有る置き換え候補文字列が入力された場合に、言語モデルのデータベース及び文脈依存値記憶部等を更新する。また、新しい文表現が入力された場合に、その表現に応じて、文脈依存値記憶部内の当該単語の文脈依存値を変化させ、また、新しい文表現を含むN−gram等を部分構築し、新しい文表現を言語モデルに反映する。このように、正しいデータを追加することにより、置き換え文字列の前後の単語を含む言語モデルの出現頻度等を加減するとともに、文脈依存値記憶部そのものも外部入力に応じて更新する。 In order to solve the above problems, in the present disclosure, for example, when a context-sensitive replacement candidate character string is input by an external input (for example, feedback from a user or a predetermined device), a language model is used. Update the database and context-sensitive value storage section of. In addition, when a new sentence expression is input, the context-dependent value of the word in the context-dependent value storage unit is changed according to the expression, and an N-gram or the like including the new sentence expression is partially constructed. Reflect the new sentence expression in the language model. By adding the correct data in this way, the frequency of appearance of the language model including the words before and after the replacement character string is adjusted, and the context-dependent value storage unit itself is updated according to the external input.

上記のように、外部知識や新知識をフィードバックして、言語モデルのデータベース等を更新することにより、識別精度を向上させることができる。この結果、低コストで精度の良い類似候補文の識別を行い、更に、N−gramモデルのデータベース内に存在しない表現にも、更新して対応できる高効率で自律的な類似候補文の識別を行うことができる。 As described above, the identification accuracy can be improved by feeding back external knowledge and new knowledge and updating the database of the language model. As a result, similar candidate sentences can be identified at low cost and with high accuracy, and highly efficient and autonomous similar candidate sentences can be identified by updating and responding to expressions that do not exist in the N-gram model database. It can be carried out.

上記の知見に基づき、本願発明者らは、原文から類似文を如何にして生成すべきかについて鋭意検討を行った結果、本開示を完成したものである。 Based on the above findings, the inventors of the present application have completed the present disclosure as a result of diligent studies on how to generate a similar sentence from the original text.

本開示の一態様に係る方法は、原文から類似文を生成する方法であって、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する。 The method according to one aspect of the present disclosure is a method of generating a similar sentence from the original sentence, in which the first sentence is input and has the same meaning as the first word / phrase among the plurality of words / phrases constituting the first sentence. The above second words and phrases are extracted from the first database, the first database associates the words and phrases with synonyms of the words and phrases contained in the first database, and the one or more first words obtained based on the second database. The N-gram value is calculated based on the context-dependent value corresponding to the two words, and the second database associates the word with the context-dependent value corresponding to the phrase contained in the second database, and the context-dependent The value indicates the degree to which the meaning of the phrase contained in the second database depends on the context, and the first phrase is replaced with the one or more second phrase in the first sentence. In the sentence, one or more consecutive third words including the second word corresponding to the N-gram value are extracted, and the appearance frequency of the one or more third words in the third database is calculated. , The third database associates words and phrases with the frequency of appearance of words and phrases contained in the third database in the third database, determines whether the calculated frequency of appearance is equal to or greater than the threshold value, and determines the frequency of appearance calculated. When is determined to be equal to or greater than the threshold value, the second sentence of one or more is adopted as a similar sentence of the first sentence and output to an external device.

このような構成により、第1文を入力し、第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、第1データベースは語句と第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、第2データベースは語句と第2データベースに含まれた語句に対応する文脈依存値とを対応づけ、文脈依存値は、第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、第1文において第1語句が一以上の第2語句に置き換えられた一以上の第2文において、N−gram値に相当する数の第2語句を含んだ連続する一以上の第3語句を抽出し、一以上の第3語句について、第3データベースにおける出現頻度を算出し、第3データベースは語句と第3データベースに含まれる語句の第3データベースにおける出現頻度とを対応づけ、算出した出現頻度が閾値以上であるか判定し、算出した出現頻度が閾値以上であると判定された場合は、一以上の第2文を第1文の類似文として採用し、外部の機器に出力しているので、文脈依存値が高い第2語句のみ、大きな探索領域で識別を行い、文脈依存値が低い第2語句は、小さな探索領域で識別を行うことができ、言語モデルのデータベースである第3データベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。 With such a configuration, the first sentence is input, and one or more second words having the same meaning as the first word among the plurality of words constituting the first sentence are extracted from the first database, and the first database is used. The N-gram value is calculated based on the context-dependent values corresponding to one or more second words obtained based on the second database by associating the words with the synonyms of the words contained in the first database. The 2nd database associates words with the context-dependent values corresponding to the words contained in the 2nd database, and the context-dependent values indicate the degree to which the meanings of the words contained in the 2nd database depend on the context. In one or more second sentences in which the first word is replaced with one or more second words in one sentence, one or more consecutive third words including the number of second words corresponding to the N-gram value are extracted. Then, for one or more third words, the frequency of appearance in the third database is calculated, and the third database associates the words with the frequency of appearance of the words included in the third database in the third database, and the calculated frequency of appearance is calculated. If it is determined whether the sentence is equal to or higher than the threshold and the calculated frequency of appearance is higher than the threshold, one or more second sentences are adopted as similar sentences to the first sentence and output to an external device. , Only the second phrase with a high context-dependent value can be identified in a large search area, and the second phrase with a low context-dependent value can be identified in a small search area, with respect to the third database, which is a database of language models. The search cost can be reduced, and similar sentences can be identified with high accuracy.

前記第1文は第1言語で記述され、前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加するようにしてもよい。 The first sentence is written in a first language, the first sentence is included in a bilingual corpus, and the bilingual corpus has a plurality of pairs of a sentence written in the first language and a bilingual sentence written in a second language. If it is determined that the calculated frequency of appearance is equal to or higher than the threshold value, the one or more second sentences may be added to the bilingual corpus as similar sentences to the first sentence.

このような構成により、対訳コーパスに類似文を追加することができる。 With such a configuration, similar sentences can be added to the bilingual corpus.

前記第3データベースは、N−gram言語モデルのデータベースを含み、前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定するようにしてもよい。 The third database includes a database of the N-gram language model, determines N of the N-gram language model to i (a positive integer) according to the context-dependent value, and collates the third database. Thereby, the appearance frequency of the i-gram including the second phrase is obtained, and based on the appearance frequency of the i-gram including the second phrase, the one or more second sentences are regarded as similar sentences to the first sentence. It may be decided whether or not to adopt it.

このような構成により、文脈依存値に応じてN−gram言語モデルのNをi(正の整数)に決定し、N−gram言語モデルのデータベースを照合することにより、第2語句を含むi−gramの出現頻度を求め、求めた出現頻度に基づいて、一以上の第2文を第1文の類似文として採用するか否かを判定しているので、文脈依存値が大きいほどiを大きく、文脈依存値が小さいほどiを小さく設定することにより、文脈依存性が高い第2語句に対して、広い識別対象領域を用いて、文脈依存値が大きい第2語句を含むi−gramの出現頻度を高精度に求めることができるとともに、文脈依存性が低い第2語句に対して、狭い識別対象領域を用いて、文脈依存値が小さい第2語句を含むi−gramの出現頻度を低コストで且つ高精度に求めることができ、類似文の識別を効率よく且つ高精度に行うことができる。 With such a configuration, N of the N-gram language model is determined to be i (a positive integer) according to the context-sensitive value, and by collating the database of the N-gram language model, i- including the second phrase is included. Since the frequency of appearance of the gram is obtained and it is determined whether or not one or more second sentences are adopted as similar sentences to the first sentence based on the obtained frequency of appearance, the larger the context-sensitive value, the larger i. By setting i smaller as the context-sensitive value is smaller, the appearance of an i-gram containing the second phrase having a large context-sensitive value by using a wide identification target area for the second phrase having a high context-sensitive value. The frequency can be calculated with high accuracy, and the frequency of occurrence of i-gram including the second phrase with a small context-sensitive value can be reduced at low cost by using a narrow identification target area for the second phrase with low context-sensitiveness. It can be obtained with high accuracy, and similar sentences can be identified efficiently and with high accuracy.

前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、前記翻訳結果文を評価し、前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成するようにしてもよい。 Generated based on the one or more second sentences determined to be adopted as similar sentences to the first sentence and the translated sentence obtained by translating the first sentence that generated the one or more second sentences in a second language. Using the translated translation model, a predetermined translation target sentence is translated to create a translation result sentence, the translation result sentence is evaluated, and based on the evaluation result of the translation result sentence, the language of the translation target sentence and / Or, feedback information including linguistic information regarding the language of the translation result sentence and evaluation information for the linguistic information may be generated.

このような構成により、採用すると判定された一以上の第2文と、一以上の第2文を生成した第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、作成した翻訳結果文を評価し、この翻訳結果文の評価結果に基づいて、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を学習及び反映するためのフィードバック情報を自律的に生成することができる。 With such a configuration, a translation model generated based on one or more second sentences determined to be adopted and a translated sentence obtained by translating the first sentence that generated one or more second sentences in a second language. Use to translate a predetermined translation target sentence to create a translation result sentence, evaluate the created translation result sentence, and based on the evaluation result of this translation result sentence, the language of the translation target sentence and / or the translation result sentence. Since the feedback information including the linguistic information about the language and the evaluation information for this linguistic information is generated, it is possible to autonomously generate the feedback information for learning and reflecting the case considering the context dependence. ..

前記第1データベース、前記第2データベース及び前記第3データベースのうち少なくとも一つを、前記フィードバック情報を用いて更新するようにしてもよい。 At least one of the first database, the second database, and the third database may be updated using the feedback information.

このような構成により、言語情報と評価情報とを含むフィードバック情報を用いて、第1データベース、第2データベース及び第3データベースのうち少なくとも一つを更新しているので、文脈依存性を考慮した事例を第1データベース、第2データベース及び第3データベースのうち少なくとも一つに反映することができ、更新前の第1データベース、第2データベース及び第3データベースに存在しない表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, at least one of the first database, the second database, and the third database is updated by using the feedback information including the linguistic information and the evaluation information. Therefore, a case in which context dependence is considered. Can be reflected in at least one of the first database, the second database, and the third database, and is highly efficient and can handle expressions that do not exist in the first database, the second database, and the third database before the update. It is possible to autonomously identify similar sentences.

前記フィードバック情報が文脈依存性を有する前記第2語句を含む場合、前記第2データベース及び前記第3データベースを更新するようにしてもよい。 If the feedback information contains the second phrase that is context sensitive, the second database and the third database may be updated.

このような構成により、フィードバック情報が文脈依存性を有する第2語句を含む場合、第2データベース及び第3データベースを更新しているので、文脈依存性を考慮した事例を第2データベース及び第3データベースに反映することができ、文脈依存性を考慮した高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, when the feedback information contains a second word having a context dependency, the second database and the third database are updated. Therefore, the second database and the third database are examples in which the context dependency is taken into consideration. It is possible to identify similar sentences with high efficiency and autonomously in consideration of context dependence.

前記フィードバック情報が新しい文表現を含む場合、前記文表現に応じて前記第2データベースの文脈依存値を変化させるようにしてもよい。 When the feedback information includes a new sentence expression, the context-dependent value of the second database may be changed according to the sentence expression.

このような構成により、フィードバック情報が新しい文表現を含む場合、新しい文表現に応じて第2データベースの文脈依存値を変化させているので、新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, when the feedback information includes a new sentence expression, the context-dependent value of the second database is changed according to the new sentence expression, so that it is highly efficient and autonomous enough to support the new sentence expression. It is possible to identify similar sentences.

前記フィードバック情報が新しい文表現を含む場合、前記文表現を含むように前記第3データベースを更新するようにしてもよい。 If the feedback information includes a new sentence expression, the third database may be updated to include the sentence expression.

このような構成により、フィードバック情報が新しい文表現を含む場合、新しい文表現を含むように第3データベースを更新しているので、更新前の第3データベースに存在しない新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 With such a configuration, when the feedback information includes a new sentence expression, the third database is updated to include the new sentence expression, so that it is possible to cope with a new sentence expression that does not exist in the third database before the update. Efficient and autonomous identification of similar sentences can be performed.

また、本開示は、以上のような特徴的な処理を実行する類似文生成方法として実現することができるだけでなく、このような類似文生成方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。また、類似文生成方法により実行される特徴的な処理に対応する特徴的な構成を備える類似文生成装置などとして実現することもできる。したがって、以下の他の態様でも、上記の類似文生成方法と同様の効果を奏することができる。 Further, the present disclosure can be realized not only as a similar sentence generation method for executing the above-mentioned characteristic processing, but also a computer for causing a computer to execute the characteristic processing included in such a similar sentence generation method. It can also be realized as a program. It can also be realized as a similar sentence generation device having a characteristic configuration corresponding to a characteristic process executed by the similar sentence generation method. Therefore, the same effect as the above-mentioned similar sentence generation method can be obtained in the following other aspects as well.

本開示の他の態様に係るプログラムは、原文から類似文を生成する装置として、コンピュータを機能させるためのプログラムであって、前記コンピュータに、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、処理を実行させる。 The program according to another aspect of the present disclosure is a program for operating a database as a device for generating a similar sentence from the original sentence, and the first sentence is input to the computer to form the first sentence. One or more second words having the same meaning as the first word among a plurality of words are extracted from the first database, and the first database associates the words with synonyms of the words included in the first database. The N-gram value is calculated based on the context-dependent value corresponding to the one or more second words and phrases obtained based on the second database, and the second database is divided into words and phrases and words and phrases included in the second database. Corresponding to the corresponding context-dependent value, the context-dependent value indicates the degree to which the meaning of the phrase contained in the second database depends on the context, and in the first sentence, the first phrase is the one. In one or more second sentences replaced with the above second words, one or more consecutive third words including the number of the second words corresponding to the N-gram value are extracted, and the one or more words are extracted. For the third word, the frequency of appearance in the third database is calculated, the third database associates the word with the frequency of appearance of the phrase included in the third database in the third database, and the calculated frequency of appearance is calculated. It is determined whether the sentence is equal to or higher than the threshold value, and if it is determined that the calculated frequency of appearance is equal to or higher than the threshold value, the second sentence of one or more is adopted as a similar sentence of the first sentence, and the external device is used. Output, execute the process.

本開示の他の態様に係る装置は、原文から類似文を生成する装置であって、第1文を入力される入力部と、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定する判定部と、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える。 The device according to another aspect of the present disclosure is a device that generates a similar sentence from the original sentence, and includes an input unit for inputting the first sentence and the first word / phrase among a plurality of words / phrases constituting the first sentence. The second word / phrase extraction unit that extracts one or more second words / phrases having the same meaning from the first database, the first database associates the words with the synonyms of the words / phrases contained in the first database, and the second database The calculation unit that calculates the N-gram value based on the context-dependent value corresponding to the one or more second words and phrases obtained based on the above, and the second database includes words and phrases and words and phrases included in the second database. Corresponding to the corresponding context-dependent value, the context-dependent value indicates the degree to which the meaning of the phrase contained in the second database depends on the context, and in the first sentence, the first phrase is the one. In one or more second sentences replaced by the above second words, a third word extraction unit that extracts one or more consecutive third words including the second words in a number corresponding to the N-gram value. And the calculation unit that calculates the appearance frequency of the one or more third words and phrases in the third database, and the third database corresponds to the words and phrases and the appearance frequency of the words and phrases included in the third database in the third database. In addition, a determination unit for determining whether the calculated appearance frequency is equal to or higher than the threshold, and when it is determined that the calculated appearance frequency is equal to or higher than the threshold, the first or more second sentences are referred to as the first sentence. It is adopted as a sentence similar to the sentence and has an output unit that outputs it to an external device.

本開示の他の態様に係るシステムは、原文から類似文を生成するシステムであって、上記の装置と、前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、前記翻訳部により作成された前記翻訳結果文を評価する評価部と、前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する生成部とを備える。 The system according to another aspect of the present disclosure is a system that generates a similar sentence from the original sentence, and is the above-mentioned device and the one or more second sentence determined to be adopted as the similar sentence of the first sentence by the above-mentioned device. Using a translation model generated based on the sentence and the translated sentence obtained by translating the first sentence that generated one or more second sentences in the second language, a predetermined translation target sentence is translated and the translation result is obtained. Based on the translation unit that creates the sentence, the evaluation unit that evaluates the translation result sentence created by the translation unit, and the evaluation result of the evaluation unit, the language and / or the translation result sentence of the translation target sentence It includes a generation unit that generates feedback information including linguistic information about the language and evaluation information for the linguistic information.

このような構成により、上記の類似文生成方法と同様の効果を奏することができるとともに、第1文の類似文として採用すると判定された一以上の第2文と、当該一以上の第2文を生成した第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、作成された翻訳結果文を評価し、この評価結果に基づいて、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を学習及び反映するためのフィードバック情報を自律的に生成し、文脈依存性を考慮した事例を自律的に学習及び反映することができる類似文生成システムを実現することができる。 With such a configuration, the same effect as the above-mentioned similar sentence generation method can be obtained, and one or more second sentences determined to be adopted as similar sentences of the first sentence and the one or more second sentences. Using the translation model generated based on the translated sentence obtained by translating the first sentence generated in the second language, the predetermined translation target sentence is translated to create a translation result sentence, and the created translation result sentence is created. Is evaluated, and based on this evaluation result, feedback information including the language of the translation target sentence and / or the language of the translation result sentence and the evaluation information for the linguistic information is generated. It is possible to realize a similar sentence generation system that can autonomously generate feedback information for learning and reflecting the considered cases, and autonomously learn and reflect the cases considering the context dependence.

そして、上記のようなコンピュータプログラムを、CD−ROM等のコンピュータ読み取り可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。 Needless to say, the above-mentioned computer program can be distributed via a computer-readable non-temporary recording medium such as a CD-ROM or a communication network such as the Internet.

また、本開示の一実施の形態に係る類似文生成装置又は類似文生成システムの構成要素の一部とそれ以外の構成要素とを複数のコンピュータに分散させたシステムとして構成してもよい。 Further, a system in which some of the components of the similar sentence generator or the similar sentence generation system according to the embodiment of the present disclosure and other components are distributed to a plurality of computers may be configured.

なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すためのものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。 It should be noted that all of the embodiments described below are for showing a specific example of the present disclosure. The numerical values, shapes, components, steps, order of steps, etc. shown in the following embodiments are examples, and are not intended to limit the present disclosure. Further, among the components in the following embodiments, the components not described in the independent claims indicating the highest level concept are described as arbitrary components. In addition, each content can be combined in all the embodiments.

以下、本開示の各実施の形態について、図面を参照しながら説明する。 Hereinafter, each embodiment of the present disclosure will be described with reference to the drawings.

(実施の形態1)
図1は、本開示の実施の形態1における類似文生成装置の構成の一例を示すブロック図である。図1に示す類似文生成装置1は、置き換え対象文(原文)から類似文を生成する。類似文生成装置1は、置き換え対象文入力部10、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。
(Embodiment 1)
FIG. 1 is a block diagram showing an example of the configuration of the similar sentence generator according to the first embodiment of the present disclosure. The similar sentence generation device 1 shown in FIG. 1 generates a similar sentence from the replacement target sentence (original sentence). The similar sentence generation device 1 includes a replacement target sentence input unit 10, a replacement candidate extraction unit 11, a context dependency rate matching unit 12, a context dependency determination unit 13, a language model matching unit 14, a replacement determination unit 15, and a replacement result output unit 16. , A replacement candidate dictionary 21, a context-sensitive dictionary 22, and a language model database 23.

置き換え対象文入力部10は、ユーザによる所定の操作入力を受け付け、ユーザが入力した置き換え対象文(第1文)を置き換え候補抽出部11に出力する。例えば、「僕は英語が話せないので日本語でお願いします」との置き換え対象文が置き換え対象文入力部10に入力される。なお、類似文生成装置1が生成する類似文の言語は、日本語に特に限定されず、英語、中国語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語等の他の言語であってもよい。 The replacement target sentence input unit 10 receives a predetermined operation input by the user, and outputs the replacement target sentence (first sentence) input by the user to the replacement candidate extraction unit 11. For example, the replacement target sentence "I can't speak English, so please use Japanese" is input to the replacement target sentence input unit 10. The language of the similar sentence generated by the similar sentence generator 1 is not particularly limited to Japanese, and is another language such as English, Chinese, Korean, French, German, Italian, and Portuguese. May be good.

置き換え候補辞書21は、文節/単語/形態素等での置き換え事例を辞書として格納する置き換え候補記憶部であり、置き換え対象文から置き換えられる置き換え対象部分の置き換え候補となる一又は複数の置き換え候補文字列を予め記憶している。置き換え候補辞書21は、語句と置き換え候補辞書21に含まれた語句の類義語とを対応づけた第1データベースの一例である。 The replacement candidate dictionary 21 is a replacement candidate storage unit that stores replacement cases in clauses / words / morphemes as a dictionary, and is one or a plurality of replacement candidate character strings that are replacement candidates for the replacement target portion to be replaced from the replacement target sentence. Is memorized in advance. The replacement candidate dictionary 21 is an example of a first database in which words and phrases are associated with synonyms of words and phrases included in the replacement candidate dictionary 21.

図2は、図1に示す置き換え候補辞書21のデータ構成の一例を示す図である。図2に示すように、置き換え候補辞書21には、置き換え対象部分(語句)と置き換え候補文字列(語句の類義語)とが対応付けて記憶されている。例えば、置き換え対象部分の「これだ」に対応付けて「これです」、「これでございます」等の置き換え候補文字列が記憶され、置き換え対象部分の「話せない」に対応付けて、「話せません」、「しゃべれない」、「秘密です」等の置き換え候補文字列が記憶されている。 FIG. 2 is a diagram showing an example of the data structure of the replacement candidate dictionary 21 shown in FIG. As shown in FIG. 2, the replacement candidate dictionary 21 stores the replacement target portion (word and phrase) and the replacement candidate character string (synonyms of the word and phrase) in association with each other. For example, replacement candidate character strings such as "this is" and "this is" are stored in association with "this is" of the replacement target part, and "speak" is associated with "cannot speak" of the replacement target part. Replacement candidate character strings such as "No", "I can't speak", and "It's a secret" are stored.

置き換え候補抽出部11は、置き換え対象文(第1文)を構成する複数の語句のうち置き換え対象部分(第1語句)と同じ意味を持つ置き換え候補文字列(一以上の第2語句)を置き換え候補辞書21から抽出する。具体的には、置き換え候補抽出部11は、置き換え対象文入力部10から入力された置き換え対象文を文節/単語/形態素等の単位で分割し、分割された文節/単語/形態素等から置き換え対象部分を決定し、置き換え候補辞書21から置き換え対象部分に対応付けて記憶されている置き換え可能な文字列対(置き換え候補文字列)を検索し、一又は複数の置き換え候補文字列を抽出して置き換え対象文とともに文脈依存率照合部12に出力する。例えば、置き換え対象部分が「話せない」である場合、置き換え候補抽出部11は、「話せません」、「しゃべれない」、及び「秘密です」等の置き換え候補文字列を置き換え候補辞書21から抽出する。なお、置き換え対象文の分割方法は、上記の例に特に限定されず、種々の公知の手法を用いることができる。 The replacement candidate extraction unit 11 replaces a replacement candidate character string (one or more second words) having the same meaning as the replacement target part (first word) among a plurality of words and phrases constituting the replacement target sentence (first sentence). Extract from the candidate dictionary 21. Specifically, the replacement candidate extraction unit 11 divides the replacement target sentence input from the replacement target sentence input unit 10 into units such as clauses / words / morphemes, and replaces the divided clauses / words / morphemes. A part is determined, a replaceable character string pair (replacement candidate character string) stored in association with the replacement target part is searched from the replacement candidate dictionary 21, and one or more replacement candidate character strings are extracted and replaced. It is output to the context dependency rate collation unit 12 together with the target sentence. For example, when the replacement target part is "cannot speak", the replacement candidate extraction unit 11 extracts replacement candidate character strings such as "cannot speak", "cannot speak", and "secret" from the replacement candidate dictionary 21. To do. The method of dividing the sentence to be replaced is not particularly limited to the above example, and various known methods can be used.

文脈依存率辞書22は、文節/単語/形態素等で置き換えた場合の適用可能性(文脈依存性)を示す文脈依存値を、文節/単語/形態素等と数値との対で辞書として格納する文脈依存値記憶部である。具体的には、文脈依存率辞書22は、置き換え候補文字列と、当該置き換え候補文字列が文脈に依存する程度を表す文脈依存率pcとを対応付けた複数のデータ対を予め記憶している。文脈依存率辞書22は、語句と文脈依存率辞書22に含まれた語句に対応する文脈依存値とを対応づけた第2データベースの一例であり、文脈依存値は、文脈依存率辞書22に含まれた語句が示す意味が文脈に依存する程度を示す。 The context-sensitive dictionary 22 stores context-sensitive values indicating applicability (context-dependency) when replaced with a phrase / word / morpheme, etc. as a dictionary of a pair of a phrase / word / morpheme, etc. and a numerical value. Dependent value storage unit. Specifically, the context dependency rate dictionary 22 stores in advance a plurality of data pairs in which the replacement candidate character string and the context dependency rate pc indicating the degree to which the replacement candidate character string depends on the context are associated with each other. .. The context-dependent rate dictionary 22 is an example of a second database in which a phrase is associated with a context-dependent value corresponding to a phrase included in the context-dependent rate dictionary 22, and the context-dependent value is included in the context-dependent rate dictionary 22. Indicates the degree to which the meaning of a phrase depends on the context.

図3は、図1に示す文脈依存率辞書22のデータ構成の一例を示す図である。図3に示すように、文脈依存率辞書22には、例えば、置き換え候補文字列「です」に対してpc=0.35、「ですが」に対してpc=0.05、「話せません」に対してpc=0.25、「しゃべれない」に対してpc=0.01、「秘密です」に対してpc=0.75等が文脈依存率辞書22に予め記憶されている。 FIG. 3 is a diagram showing an example of the data structure of the context-sensitive dictionary 22 shown in FIG. As shown in FIG. 3, in the context-sensitive grammar dictionary 22, for example, pc = 0.35 for the replacement candidate character string "desu", pc = 0.05 for "da ga", and "I can't speak". PC = 0.25 for "", pc = 0.01 for "cannot speak", pc = 0.75 for "secret", etc. are stored in advance in the context-sensitive grammar dictionary 22.

ここで、文脈依存率pcは、例えば、置き換え候補文字列が文脈に依存することにより、置き換え候補文字列を用いた類似候補文が棄却される確率を0〜1の範囲で表した値である。なお、文脈依存値は、上記の文脈依存率pcに特に限定されず、種々の変更が可能であり、置き換え候補文字列が文脈に依存する程度を表す他の数値を用いたり、置き換え候補文字列が文脈に依存する程度をクラス分け(例えば、文脈依存度を大、中、小等のクラスに分類)して、どのクラスに属するかを記憶したりしてもよい。 Here, the context dependency rate pc is, for example, a value expressing the probability that a similar candidate sentence using the replacement candidate character string is rejected in the range of 0 to 1 because the replacement candidate character string depends on the context. .. The context-dependent value is not particularly limited to the above-mentioned context-dependent rate pc, and various changes can be made. Other numerical values indicating the degree to which the replacement candidate character string depends on the context can be used, or the replacement candidate character string can be used. You may classify the degree of context dependence (for example, classify the context dependence into large, medium, small, etc. classes) and remember which class it belongs to.

文脈依存率照合部12は、置き換え候補文字列の文脈依存率pcを文脈依存率辞書22から検索して、置き換え候補文字列に対応付けて記憶されている文脈依存率pcを抽出し、抽出した文脈依存率pcを置き換え対象文とともに文脈依存性判定部13に出力する。例えば、文脈依存率pcとして、置き換え候補文字列が「話せません」の場合に0.25、「しゃべれない」の場合に0.01、「秘密です」の場合に0.75が抽出される。 The context dependency rate matching unit 12 searches the context dependency rate pc of the replacement candidate character string from the context dependency rate dictionary 22, extracts the context dependency rate pc stored in association with the replacement candidate character string, and extracts it. The context dependency rate pc is output to the context dependency determination unit 13 together with the replacement target sentence. For example, as the context dependency rate pc, 0.25 is extracted when the replacement candidate character string is "cannot speak", 0.01 is extracted when "cannot speak", and 0.75 is extracted when "it is secret". ..

文脈依存性判定部13は、文脈依存率辞書22に基づいて得られた置き換え候補文字列(一以上の第2語句)に対応する文脈依存値に基づいてN−gram値を算出する。具体的には、文脈依存性判定部13は、文脈依存率pcの値から、置き換え候補文字列を含む類似候補文の判定を行うために参照する言語モデルデータベース23の識別対象領域を判定し、判定結果を置き換え対象文とともに言語モデル照合部14に出力する。 The context dependency determination unit 13 calculates the N-gram value based on the context dependency value corresponding to the replacement candidate character string (one or more second words) obtained based on the context dependency rate dictionary 22. Specifically, the context dependency determination unit 13 determines the identification target area of the language model database 23 to be referred to for determining the similar candidate sentence including the replacement candidate character string from the value of the context dependency rate pc. The determination result is output to the language model collation unit 14 together with the replacement target sentence.

ここで、本実施の形態では、言語モデルデータベース23として、N−gram言語モデルのデータベースを用いており、言語モデルデータベース23には、言語情報とその出現頻度とが対応付けられたテーブル形式でデータが記憶されている。言語モデルデータベース23は、語句と言語モデルデータベース23に含まれる語句の言語モデルデータベース23における出現頻度とを対応づけた第3データベースの一例である。 Here, in the present embodiment, the N-gram language model database is used as the language model database 23, and the language model database 23 contains data in a table format in which language information and its appearance frequency are associated with each other. Is remembered. The language model database 23 is an example of a third database in which words and phrases appearing in the language model database 23 included in the language model database 23 are associated with each other.

図4は、図1に示す言語モデルデータベース23のデータ構成の一例を示す図である。図4に示すように、言語モデルデータベース23には、例えば、言語情報及びその出現頻度として、「英語」に対して「234,567,890」が、「英語 は」に対して「12,345,670」が、「英語 が」に対して「22,222,220」が、「英語 が 好き」に対して「999,001」がそれぞれ対応付けてテーブル形式で言語モデルデータベース23に予め記憶されている。また、この出現頻度を基にして、例えば、出現確率を求めることができる。 FIG. 4 is a diagram showing an example of the data structure of the language model database 23 shown in FIG. As shown in FIG. 4, in the language model database 23, for example, "234,567,890" is used for "English" and "12,345" is used for "English" as the language information and its appearance frequency. , 670 ”,“ 22,222,220 ”for“ English ”, and“ 999,001 ”for“ I like English ”are stored in advance in the language model database 23 in a table format. ing. Further, based on this appearance frequency, for example, the appearance probability can be obtained.

なお、言語モデルデータベース23に記憶される情報は、上記の例に特に限定されず、言語情報とその出現頻度等に応じた値とが対応付けられたテーブルであれば、任意の内容であってもよい。また、言語モデルデータベース23の言語モデルも、上記のN−gram言語モデルに特に限定されず、他の言語モデルを用いてもよい。 The information stored in the language model database 23 is not particularly limited to the above example, and can be any content as long as it is a table in which language information and values corresponding to its appearance frequency and the like are associated with each other. May be good. Further, the language model of the language model database 23 is not particularly limited to the above N-gram language model, and other language models may be used.

言語モデルデータベース23がN−gram言語モデルのデータベースである場合、文脈依存性判定部13は、文脈依存率pcに応じて、言語モデルデータベース23のN−gram言語モデルのN(N−gram値)をi(正の整数)に決定する。具体的には、例えば、文脈依存性判定部13は、文脈依存率pcを4つのクラスに分類し、0≦pc≦0.25をクラス1、0.25<pc≦0.5をクラス2、0.5<pc≦0.75をクラス3、0.75<pc≦1をクラス4とし、N−gramのN(正の整数)として、クラス1ではN=4、クラス2ではN=5、クラス3ではN=6、クラス4ではN=7をそれぞれ決定する。 When the language model database 23 is a database of the N-gram language model, the context dependency determination unit 13 determines N (N-gram value) of the N-gram language model of the language model database 23 according to the context dependency rate pc. Is determined to i (a positive integer). Specifically, for example, the context dependency determination unit 13 classifies the context dependency rate pc into four classes, 0 ≦ pc ≦ 0.25 for class 1, and 0.25 <pc ≦ 0.5 for class 2. , 0.5 <pc ≦ 0.75 is class 3, 0.75 <pc ≦ 1 is class 4, and N (positive integer) of N-gram is set as N = 4 in class 1 and N = in class 2. 5. In class 3, N = 6 is determined, and in class 4, N = 7 is determined.

例えば、置き換え候補文字列の「話せません」の場合、文脈依存率pcが0.25となり、クラス1に属し、文脈依存性判定部13は、言語モデルデータベース23の識別対象領域として、クラス1相当のN−gramすなわちN=4を決定する。なお、識別対象領域の判定基準は、上記の例に特に限定されず、種々の変更が可能であり、文脈依存率pcを用いて識別対象領域を直接数式化したりしてもよい。例えば、N=floor(k−log2(pc))(ここで、kは定数)とし、置き換え候補文字列の「話せません」の場合、文脈依存率pcが0.25となり、定数k=6とする場合、N=4となる。 For example, in the case of the replacement candidate character string "I can't speak", the context dependency rate pc is 0.25, which belongs to class 1, and the context dependency determination unit 13 uses class 1 as the identification target area of the language model database 23. Determine the equivalent N-gram or N = 4. The criterion for determining the identification target area is not particularly limited to the above example, and various changes can be made, and the identification target area may be directly mathematically expressed using the context dependency rate pc. For example, when N = floor (k-log2 (pc)) (where k is a constant) and the replacement candidate character string is "cannot speak", the context dependency rate pc is 0.25 and the constant k = 6 In the case of, N = 4.

また、言語モデルデータベース23はN−gram言語モデルに限らず、その他の言語資源に基づくデータベースであってもよい。例えば、実数値やベクトル等の分散表現で記述された言語モデルであってもよく、任意の既存手法や既存データを組合せて構築することができる。いずれの場合も、識別対象領域としてデータベースを検索する範囲を任意の変数で定義し、その任意の変数を文脈依存率pcに応じて決定することができる。 Further, the language model database 23 is not limited to the N-gram language model, and may be a database based on other language resources. For example, it may be a language model described in a distributed representation such as a real value or a vector, and can be constructed by combining any existing method or existing data. In either case, the range to be searched for the database as the identification target area can be defined by an arbitrary variable, and the arbitrary variable can be determined according to the context dependency rate pc.

言語モデル照合部14は、置き換え対象文(第1文)において置き換え対象部分(第1語句)が置き換え候補文字列(一以上の第2語句)に置き換えられた置き換え文(一以上の第2文)において、N−gram値に相当する数の置き換え候補文字列(第2語句)を含んだ連続するN−gram(一以上の第3語句)を抽出し、N−gram(一以上の第3語句)について、言語モデルデータベース23を算出する。 In the language model collation unit 14, the replacement sentence (one or more second sentences) in which the replacement target part (first word) is replaced with the replacement candidate character string (one or more second words) in the replacement target sentence (first sentence). ), A continuous N-gram (one or more third words) including a number of replacement candidate character strings (second words) corresponding to the N-gram value is extracted, and an N-gram (one or more third words) is extracted. The language model database 23 is calculated for words).

すなわち、言語モデル照合部14は、文脈依存性判定部13で判定された識別対象領域に対応した識別対象データを言語モデルデータベース23から検索して抽出することにより、置き換え候補文字列との照合を行い、置き換え候補文字列に関連した、文節/単語/形態素等からなる言語情報と、その言語情報の出現頻度又は出現確率に応じた値とのペアデータを生成し、置き換え対象文とともに置き換え判定部15に出力する。 That is, the language model collation unit 14 searches and extracts the identification target data corresponding to the identification target area determined by the context dependency determination unit 13 from the language model database 23, thereby collating with the replacement candidate character string. Then, pair data of linguistic information consisting of phrases / words / morphological elements related to the replacement candidate character string and a value corresponding to the appearance frequency or appearance probability of the linguistic information is generated, and the replacement judgment unit is generated together with the replacement target sentence. Output to 15.

具体的には、言語モデル照合部14は、文脈依存性判定部13から参照する識別対象領域の大きさとして与えられたNの値を用い、言語モデルデータベース23からN−gram(例えば、置き換え候補文字列がクラス1に属する場合、4−gram)の出現頻度又は出現確率を取得し、照合した置き換え候補文字列と、取得した出現頻度又は出現確率とを置き換え判定部15に出力する。 Specifically, the language model collation unit 14 uses the value of N given as the size of the identification target area referred from the context dependency determination unit 13, and N-gram (for example, replacement candidate) from the language model database 23. When the character string belongs to class 1, the appearance frequency or appearance probability of 4-gram) is acquired, and the collated replacement candidate character string and the acquired appearance frequency or appearance probability are output to the replacement determination unit 15.

置き換え判定部15は、言語モデル照合部14から得た、文節/単語/形態素等からなる言語情報と、その言語情報の出現頻度又は出現確率に応じた値とのペアデータを用いて、該当する置き換え候補文字列を置き換え対象文に適用するか又は棄却するかを決定し、この置き換え結果を置き換え対象文とともに置き換え結果出力部16に出力する。 The replacement determination unit 15 corresponds to the linguistic information composed of phrases / words / morphemes, etc. obtained from the language model collation unit 14 by using pair data of the appearance frequency or the appearance probability of the linguistic information. It is determined whether to apply the replacement candidate character string to the replacement target sentence or to reject it, and the replacement result is output to the replacement result output unit 16 together with the replacement target sentence.

上記の決定方法の一例として、置き換え判定部15は、算出された出現頻度が閾値以上であるか判定する。具体的には、j番目(jは任意の整数)の言語情報の出現頻度の値をnjとし、所定の閾値をThとしたときに、置き換え判定部15は、すべてのjに対して、nj>Thで有れば、置き換え候補文字列を置き換え対象文に適用すると決定し、それ以外の場合には棄却すると決定する。 As an example of the above determination method, the replacement determination unit 15 determines whether the calculated appearance frequency is equal to or greater than the threshold value. Specifically, when the value of the frequency of appearance of the j-th language information (j is an arbitrary integer) is nj and the predetermined threshold value is Th, the replacement determination unit 15 sets nj for all js. If it is> Th, it is determined that the replacement candidate character string is applied to the replacement target sentence, and in other cases, it is determined to be rejected.

例えば、N−gramとして4−gramを用い、置き換え候補文字列の「話せません」に対して、言語情報と、その言語情報の出現頻度として、「は 英語 が 話せません」に対して「51,550」が、「英語 が 話せません ので」に対して「1,720」が、「が 話せません ので 日本」に対して「530」が、「話せません ので 日本 語」に対して「3,220」がそれぞれ取得され、Th=500の場合、j=1〜4のすべてに対して、出現頻度は閾値Th以上となり、置き換え候補文字列の「話せません」は適用と判定される。 For example, 4-gram is used as the N-gram, and for the replacement candidate character string "I can't speak", the language information and the frequency of appearance of that language information are "I can't speak English". "51,550" is "1,720" for "I can't speak English", "530" for "I can't speak Japan", and "I can't speak Japanese" When "3,220" is acquired and Th = 500, the appearance frequency is equal to or higher than the threshold value Th for all of j = 1 to 4, and the replacement candidate character string "I can't speak" is judged to be applicable. Will be done.

なお、置き換え候補文字列の置き換え対象文への適用又は棄却の決定方法としては、上記の例に特に限定されず、種々の変更が可能であり、njの分布に応じて適用又は棄却を決定したり(例えば、4−gramの出現頻度の下位3%を棄却したり)、nj=0となるjが存在するか否かに応じて適用又は棄却を決定したり、又は、njを用いた任意の式から算出される値に応じて適用又は棄却を決定したりしてもよい。 The method of determining the application or rejection of the replacement candidate character string to the replacement target sentence is not particularly limited to the above example, and various changes can be made, and the application or rejection is determined according to the distribution of nj. Or (for example, reject the bottom 3% of the appearance frequency of 4-gram), decide application or rejection depending on whether j with nj = 0 exists, or arbitrarily using nj. The application or rejection may be decided according to the value calculated from the formula of.

置き換え結果出力部16は、算出された出現頻度が閾値以上であると判定された場合は、適用と判定された置き換え候補文字列によって生成された置き換え文(一以上の第2文)を置き換え対象文(第1文)の類似文として採用し、外部の機器に出力する。具体的には、置き換え結果出力部16は、置き換え結果に基づき、置き換え対象文の置き換え対象部分を置き換え判定部15で適用と判定された置き換え候補文字列に置き換え、適用と判定された置き換え候補文字列によって生成された置き換え文(置き換え後の文)を類似文として採用し、生成した類似文を外部の機器(図示省略)等に出力する。 When it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the replacement result output unit 16 replaces the replacement sentence (one or more second sentences) generated by the replacement candidate character string determined to be applicable. Adopted as a similar sentence to the sentence (first sentence) and output to an external device. Specifically, the replacement result output unit 16 replaces the replacement target part of the replacement target sentence with the replacement candidate character string determined to be applied by the replacement determination unit 15, based on the replacement result, and the replacement candidate character determined to be applicable. The replacement sentence (sentence after replacement) generated by the column is adopted as a similar sentence, and the generated similar sentence is output to an external device (not shown) or the like.

また、置き換え対象文(第1文)は第1言語(例えば、日本語)で記述され、置き換え対象文(第1文)は、対訳コーパスに含まれ、対訳コーパスは第1言語で記述された文と第2言語(例えば、英語)で記述された対訳文との対を複数含み、置き換え結果出力部16は、算出された出現頻度が閾値以上であると判定された場合は、適用と判定された置き換え候補文字列によって生成された置き換え文(一以上の第2文)を置き換え対象文(第1文)の類似文として対訳コーパスに追加するようにしてもよい。 Further, the replacement target sentence (first sentence) is described in the first language (for example, Japanese), the replacement target sentence (first sentence) is included in the bilingual corpus, and the bilingual corpus is described in the first language. The replacement result output unit 16 includes a plurality of pairs of a sentence and a bilingual sentence written in a second language (for example, English), and determines that the sentence is applicable when it is determined that the calculated frequency of appearance is equal to or higher than the threshold value. The replacement sentence (one or more second sentences) generated by the replacement candidate character string may be added to the bilingual corpus as a similar sentence to the replacement target sentence (first sentence).

なお、類似文生成装置1の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及び補助記憶装置等を備える1台又は複数台のコンピュータ又はサーバ(情報処理装置)が、上記の処理を実行するための類似文生成プログラムをインストールし、類似文生成装置として機能するように構成してもよい。また、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23は、類似文生成装置1の内部に設ける例に特に限定されず、外部のサーバ等に置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23を設け、所定のネットワークを介して類似文生成装置1が必要な情報を取得するようにしてもよい。この点については、他の実施の形態も同様である。 As described above, the configuration of the similar sentence generation device 1 is not particularly limited to an example in which dedicated hardware is used for each function, and the CPU (Central Processing Unit), ROM (Read Only Memory), and RAM (Random) are used. One or more computers or servers (information processing devices) equipped with an Access Memory) and an auxiliary storage device install a similar sentence generation program for executing the above processing so as to function as a similar sentence generation device. It may be configured as. Further, the replacement candidate dictionary 21, the context dependency rate dictionary 22, and the language model database 23 are not particularly limited to the example provided inside the similar sentence generation device 1, and the replacement candidate dictionary 21, the context dependency rate dictionary 22 is provided on an external server or the like. And the language model database 23 may be provided so that the similar sentence generator 1 acquires necessary information via a predetermined network. The same applies to other embodiments in this regard.

次に、上記のように構成された類似文生成装置1による類似文生成処理について、詳細に説明する。図5は、図1に示す類似文生成装置1による類似文生成処理の一例を示すフローチャートである。なお、以下の処理では、出現頻度を用いて置き換え候補文字列の適用/棄却の判定を行っているが、この例に特に限定されず、例えば、出現確率等を用いてもよい。この点については、他の実施の形態も同様である。 Next, the similar sentence generation process by the similar sentence generation device 1 configured as described above will be described in detail. FIG. 5 is a flowchart showing an example of the similar sentence generation process by the similar sentence generation device 1 shown in FIG. In the following processing, the application / rejection of the replacement candidate character string is determined using the appearance frequency, but the present invention is not particularly limited to this example, and for example, the appearance probability or the like may be used. The same applies to other embodiments in this regard.

まず、ステップS11において、置き換え対象文入力部10は、ユーザによる置き換え対象文(原文)の入力を受け付け、入力された置き換え対象文を置き換え候補抽出部11に出力する。 First, in step S11, the replacement target sentence input unit 10 accepts the input of the replacement target sentence (original sentence) by the user, and outputs the input replacement target sentence to the replacement candidate extraction unit 11.

次に、ステップS12において、置き換え候補抽出部11は、置き換え対象文を文節/単語/形態素等の単位で分割し、分割された文節/単語/形態素等から置き換え対象部分を決定し、置き換え候補辞書21から置き換え対象部分に対応付けて記憶されている置き換え候補文字列を抽出して置き換え対象文とともに文脈依存率照合部12に出力する。 Next, in step S12, the replacement candidate extraction unit 11 divides the replacement target sentence into units such as clauses / words / morphemes, determines the replacement target portion from the divided clauses / words / morphemes, and the replacement candidate dictionary. The replacement candidate character string stored in association with the replacement target portion is extracted from 21 and output to the context dependency rate collation unit 12 together with the replacement target sentence.

次に、ステップS13において、文脈依存率照合部12は、文脈依存率辞書22を照合して、置き換え候補文字列の文脈依存率pcを抽出して置き換え対象文とともに文脈依存性判定部13に出力する。 Next, in step S13, the context dependency rate collation unit 12 collates the context dependency rate dictionary 22, extracts the context dependency rate pc of the replacement candidate character string, and outputs the context dependency rate pc together with the replacement target sentence to the context dependency determination unit 13. To do.

次に、ステップS14において、文脈依存性判定部13は、置き換え候補文字列の文脈依存率pcの値から、言語モデルデータベース23のN−gramのNを決定することにより、文脈依存性から参照する言語モデル長を決定し、決定したNの値を置き換え対象文とともに言語モデル照合部14に出力する。 Next, in step S14, the context dependency determination unit 13 refers from the context dependency by determining N of the N-gram of the language model database 23 from the value of the context dependency rate pc of the replacement candidate character string. The language model length is determined, and the determined value of N is output to the language model collation unit 14 together with the replacement target sentence.

例えば、置き換え対象文が「僕は英語が話せないので日本語でお願いします」であり、置き換え候補文字列が「話せません」であり、置き換え候補文が「僕は英語が話せませんので日本語でお願いします」である場合、文脈依存性判定部13は、言語モデルデータベース23のN−gramのNとして、N=4を決定する。 For example, the replacement target sentence is "I can't speak English, so please use Japanese", the replacement candidate string is "I can't speak", and the replacement candidate sentence is "I can't speak English." In the case of "Please use Japanese", the context dependency determination unit 13 determines N = 4 as N of the N-gram of the language model database 23.

次に、ステップS15において、言語モデル照合部14は、文脈依存性判定部13から参照する識別対象領域の大きさとして与えられたNの値を用い、言語モデルデータベース23からN−gramの出現頻度を取得し、照合した置き換え候補文字列と、取得した出現頻度とを置き換え対象文とともに置き換え判定部15に出力する。 Next, in step S15, the language model collation unit 14 uses the value of N given as the size of the identification target area referred to by the context dependency determination unit 13, and the appearance frequency of N-gram from the language model database 23. Is acquired, and the collated replacement candidate character string and the acquired appearance frequency are output to the replacement determination unit 15 together with the replacement target sentence.

例えば、上記の置き換え対象文の「話せない」を「話せません」に置き換える場合、言語モデル照合部14は、置き換えを行った文節「話せません」を含む周囲4−gram(例えば、「は 英語 が 話せません」、「英語 が 話せません ので」、「が 話せません ので 日本」、「話せません ので 日本 語」)を生成し、言語モデルデータベース23と照合し、各4−gramの出現頻度(例えば、「は 英語 が 話せません」の51,550、「英語 が 話せません ので」の1,720、「が 話せません ので 日本」の530、「話せません ので 日本 語」の3,220)を得る。 For example, when replacing "I can't speak" in the above replacement target sentence with "I can't speak", the language model collation unit 14 has a surrounding 4-gram (for example, "ha") including the replaced phrase "I can't speak". "I can't speak English", "I can't speak English", "I can't speak Japanese", "I can't speak Japanese"), collate with the language model database 23, and check each 4-gram. Frequency of appearance (for example, 51,550 for "I can't speak English", 1,720 for "I can't speak English", 530 for "I can't speak Japan", "I can't speak Japanese" 3,220).

次に、ステップS16において、置き換え判定部15は、言語モデル照合部14から置き換え候補文字列を含むN−gramと、その出現頻度とを取得し、置き換え候補文字列のスコアを算出する。 Next, in step S16, the replacement determination unit 15 acquires the N-gram including the replacement candidate character string from the language model collation unit 14 and its appearance frequency, and calculates the score of the replacement candidate character string.

次に、ステップS17において、置き換え判定部15は、置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であるか否かを判定することにより、置き換え候補文字列を置き換え対象文に適用するか又は棄却するかを判定し、この判定結果を置き換え対象文とともに置き換え結果出力部16に出力する。 Next, in step S17, the replacement determination unit 15 applies the replacement candidate character string to the replacement target sentence by determining whether or not the score (appearance frequency) of the replacement candidate character string is equal to or higher than a predetermined threshold value Th. It is determined whether to reject or reject, and this determination result is output to the replacement result output unit 16 together with the replacement target sentence.

ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th未満であると判定された場合、ステップS20において、置き換え結果出力部16は、置き換え候補文字列を棄却して処理を終了する。 If it is determined in step S17 that the score (appearance frequency) of the replacement candidate character string is less than the predetermined threshold Th, the replacement result output unit 16 rejects the replacement candidate character string and ends the process in step S20. ..

一方、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であると判定された場合、ステップS18において、置き換え結果出力部16は、置き換え候補文字列を置き換え対象文の置き換え対象部分に適用し、置き換え対象文の置き換え対象部分を置き換え候補文字列に置き換えた置き換え文を作成する。 On the other hand, when it is determined in step S17 that the score (appearance frequency) of the replacement candidate character string is equal to or higher than the predetermined threshold value Th, the replacement result output unit 16 replaces the replacement candidate character string with the replacement target sentence in step S18. Create a replacement statement that applies to the target part and replaces the replacement target part of the replacement target sentence with the replacement candidate character string.

次に、ステップS19において、置き換え結果出力部16は、適用と判定された置き換え候補文字列によって生成された置き換え文を類似文として出力して処理を終了する。 Next, in step S19, the replacement result output unit 16 outputs the replacement sentence generated by the replacement candidate character string determined to be applied as a similar sentence, and ends the process.

上記の処理により、本実施の形態では、文脈依存率pcに応じてN−gram言語モデルのNを決定し、文脈依存率pcが大きいほどNを大きく、文脈依存率pcが小さいほどNを小さく設定している。また、決定されたNを用いて、言語モデルデータベース23を照合することにより、置き換え候補文字列を含むN−gramの出現頻度を求め、求めた出現頻度に基づいて、置き換え候補文字列によって生成された置き換え文を類似文として採用するか否かを判定しているので、広い識別対象領域を用いて、文脈依存率pcが大きい置き換え候補文字列を含むi−gramの出現頻度を高精度に求めることができるとともに、狭い識別対象領域を用いて、文脈依存率pcが小さい置き換え候補文字列を含むN−gramの出現頻度を低コストで且つ高精度に求めることができる。この結果、言語モデルデータベース23に対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。 By the above processing, in the present embodiment, N of the N-gram language model is determined according to the context-sensitive rate pc, N is larger as the context-sensitive rate pc is larger, and N is smaller as the context-sensitive rate pc is smaller. It is set. Further, by collating the language model database 23 with the determined N, the appearance frequency of the N-gram including the replacement candidate character string is obtained, and the replacement candidate character string is generated based on the obtained appearance frequency. Since it is determined whether or not to adopt the replacement sentence as a similar sentence, the frequency of occurrence of the i-gram including the replacement candidate character string having a large context dependency rate pc is obtained with high accuracy by using a wide identification target area. In addition, the frequency of appearance of the N-gram including the replacement candidate character string having a small context dependence rate pc can be obtained at low cost and with high accuracy by using the narrow identification target area. As a result, the search cost for the language model database 23 can be reduced, and similar sentences can be identified with high accuracy.

(実施の形態2)
図6は、本開示の実施の形態2における類似文生成システムの構成の一例を示すブロック図である。図6に示す類似文生成システムは、類似文生成装置1aと、翻訳装置2とを備える。
(Embodiment 2)
FIG. 6 is a block diagram showing an example of the configuration of the similar sentence generation system according to the second embodiment of the present disclosure. The similar sentence generation system shown in FIG. 6 includes a similar sentence generation device 1a and a translation device 2.

類似文生成装置1aは、置き換え対象文入力部10a、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、データ更新部17、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。翻訳装置2は、対訳コーパス生成部31、翻訳モデル生成部32、被翻訳文入力部33、機械翻訳部34、翻訳結果文出力部35、翻訳結果評価部36、及びフィードバックデータ生成部37を備える。 The similar sentence generation device 1a includes a replacement target sentence input unit 10a, a replacement candidate extraction unit 11, a context dependency rate matching unit 12, a context dependency determination unit 13, a language model matching unit 14, a replacement determination unit 15, and a replacement result output unit 16. , A data update unit 17, a replacement candidate dictionary 21, a context-sensitive dictionary 22, and a language model database 23. The translation device 2 includes a translation corpus generation unit 31, a translation model generation unit 32, a translated sentence input unit 33, a machine translation unit 34, a translation result sentence output unit 35, a translation result evaluation unit 36, and a feedback data generation unit 37. ..

類似文生成装置1aは、置き換え対象文(原文)から類似文を生成し、採用すると判定した類似文等を翻訳装置2に出力する。翻訳装置2は、類似文生成装置1aにより採用すると判定された類似文と、当該類似文を生成した原文を所定の言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、任意の翻訳対象文を翻訳して翻訳結果文を作成し、作成した翻訳結果文の評価結果に基づき、翻訳対象文の言語及び翻訳結果文の言語のうち少なくとも一方に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成して類似文生成装置1aにフィードバックする。類似文生成装置1aは、フィードバック情報に基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータを更新する。 The similar sentence generation device 1a generates a similar sentence from the replacement target sentence (original sentence), and outputs the similar sentence or the like determined to be adopted to the translation device 2. The translation device 2 arbitrarily uses a translation model generated based on a similar sentence determined to be adopted by the similar sentence generator 1a and a translated sentence obtained by translating the original sentence that generated the similar sentence in a predetermined language. Translate the translation target sentence of the above to create a translation result sentence, and based on the evaluation result of the created translation result sentence, linguistic information regarding at least one of the language of the translation target sentence and the language of the translation result sentence, and this language information Feedback information including the evaluation information is generated and fed back to the similar sentence generator 1a. The similar sentence generator 1a updates at least one data of the replacement candidate dictionary 21, the context-sensitive dictionary 22, and the language model database 23 based on the feedback information.

ここで、図6に示す類似文生成装置1aが図1に示す類似文生成装置1と異なる点は、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のデータを更新するデータ更新部17が追加され、置き換え対象文入力部10aが置き換え対象文の入力に加えて、入力された置き換え対象文(原文)の翻訳文を翻訳装置2に出力する点であり、その他の点は同様であるので、同一部分には同一符号を付して、詳細な説明は省略する。 Here, the difference between the similar sentence generating device 1a shown in FIG. 6 and the similar sentence generating device 1 shown in FIG. 1 is that the data update unit that updates the data of the replacement candidate dictionary 21, the context dependency rate dictionary 22, and the language model database 23. 17 is added, and the replacement target sentence input unit 10a outputs the translated sentence of the input replacement target sentence (original sentence) to the translation device 2 in addition to the input of the replacement target sentence, and the other points are the same. Therefore, the same parts are designated by the same reference numerals, and detailed description thereof will be omitted.

置き換え対象文入力部10aは、ユーザによる所定の操作入力を受け付け、ユーザが入力した置き換え対象文を置き換え候補抽出部11に出力し、その後の置き換え対象文に対する置き換え候補抽出部11から置き換え結果出力部16までの処理は、図1に示す置き換え候補抽出部11から置き換え結果出力部16までの処理と同様であり、置き換え結果出力部16は、置き換え判定部15で適用と判定された置き換え候補文字列によって生成された置き換え文(類似文)を対訳コーパス生成部31に出力する。 The replacement target sentence input unit 10a receives a predetermined operation input by the user, outputs the replacement target sentence input by the user to the replacement candidate extraction unit 11, and then outputs the replacement result output unit from the replacement candidate extraction unit 11 for the replacement target sentence. The processing up to 16 is the same as the processing from the replacement candidate extraction unit 11 to the replacement result output unit 16 shown in FIG. 1, and the replacement result output unit 16 is a replacement candidate character string determined to be applied by the replacement determination unit 15. The replacement sentence (similar sentence) generated by is output to the bilingual corpus generation unit 31.

また、置き換え対象文入力部10aは、ユーザによる所定の操作入力を受け付け、ユーザが入力した、置き換え文を生成した原文を所定の言語で翻訳した翻訳文、すなわち、置き換え対象文の翻訳文(原文に対応する対訳文)を対訳コーパス生成部31に出力する。例えば、上記の置き換え文が日本語(原言語文)で作成され、翻訳装置2が日英翻訳を行う場合、上記の翻訳文は英語(目的言語文)で作成されている。なお、原言語文及び目的言語文は、上記の例に特に限定されず、類似文生成装置1aが英語の類似文を生成する場合、英語を原言語文、日本語を目的言語文としてもよく、また、中国語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語等の他の言語であってもよい。 Further, the replacement target sentence input unit 10a receives a predetermined operation input by the user, and translates the original sentence generated by the replacement sentence into a predetermined language, that is, a translation sentence (original sentence) of the replacement target sentence. The bilingual text corresponding to) is output to the bilingual corpus generation unit 31. For example, when the above replacement sentence is created in Japanese (original language sentence) and the translation device 2 performs Japanese-English translation, the above translation sentence is created in English (target language sentence). The original language sentence and the target language sentence are not particularly limited to the above example, and when the similar sentence generator 1a generates a similar sentence in English, English may be the original language sentence and Japanese may be the target language sentence. , Also may be other languages such as Chinese, Korean, French, German, Italian, Portuguese.

対訳コーパス生成部31は、置き換え結果出力部16から出力された置き換え文と、置き換え対象文入力部10aから出力された置き換え対象文の翻訳文とを関連付け、新たな対訳コーパスを生成して翻訳モデル生成部32に出力する。なお、対訳コーパスの生成方法としては、上記の例に特に限定されず、既に作成している対訳コーパスに新たな対訳コーパスを追加してもよく、公知の種々の方法を用いることができる。 The translation corpus generation unit 31 associates the replacement sentence output from the replacement result output unit 16 with the translation sentence of the replacement target sentence output from the replacement target sentence input unit 10a, generates a new translation corpus, and generates a translation model. Output to the generation unit 32. The method for generating the bilingual corpus is not particularly limited to the above example, and a new bilingual corpus may be added to the already created bilingual corpus, and various known methods can be used.

翻訳モデル生成部32は、対訳コーパス生成部31で生成された新たな対訳コーパスを用いて、所定の学習により翻訳モデルを生成して機械翻訳部34に出力する。なお、翻訳モデルの生成方法としては、公知の種々の方法を用いることができるので、詳細な説明は省略する。 The translation model generation unit 32 generates a translation model by predetermined learning using the new translation corpus generated by the translation corpus generation unit 31, and outputs the translation model to the machine translation unit 34. Since various known methods can be used as the method for generating the translation model, detailed description thereof will be omitted.

被翻訳文入力部33は、ユーザによる所定の操作入力を受け付け、ユーザが入力した翻訳対象文(原言語文)を機械翻訳部34に出力する。機械翻訳部34は、翻訳モデル生成部32により生成された翻訳モデルを用いて、翻訳対象文を翻訳し、翻訳結果文(目的言語文)を翻訳対象文とともに翻訳結果文出力部35に出力する。翻訳結果文出力部35は、翻訳結果として、翻訳結果文を翻訳対象文とともに翻訳結果評価部36に出力する。 The translated sentence input unit 33 receives a predetermined operation input by the user, and outputs the translation target sentence (original language sentence) input by the user to the machine translation unit 34. The machine translation unit 34 translates the translation target sentence using the translation model generated by the translation model generation unit 32, and outputs the translation result sentence (target language sentence) to the translation result sentence output unit 35 together with the translation target sentence. .. The translation result sentence output unit 35 outputs the translation result sentence together with the translation target sentence to the translation result evaluation unit 36 as the translation result.

翻訳結果評価部36は、翻訳結果文出力部35から出力された翻訳結果文(目的言語文)の翻訳精度及び品質に対して評価を行う。ここで、翻訳結果評価部36の評価方法としては、機械的な数値指標によって評価を行ってもよく、また、人手による評価結果を翻訳結果評価部36に入力するようにしてもよい。翻訳結果評価部36は、評価結果として、評価値又は評価カテゴリなどの評価情報を翻訳結果文(目的言語文)及び/又は翻訳対象文(原言語文)と関連付けてフィードバックデータ生成部37に出力する。 The translation result evaluation unit 36 evaluates the translation accuracy and quality of the translation result sentence (target language sentence) output from the translation result sentence output unit 35. Here, as the evaluation method of the translation result evaluation unit 36, the evaluation may be performed by a mechanical numerical index, or the manual evaluation result may be input to the translation result evaluation unit 36. The translation result evaluation unit 36 outputs the evaluation information such as the evaluation value or the evaluation category to the feedback data generation unit 37 as the evaluation result in association with the translation result sentence (target language sentence) and / or the translation target sentence (original language sentence). To do.

フィードバックデータ生成部37は、翻訳結果評価部36より出力された評価結果を基に、フィードバック情報として、類似文生成装置1aにフィードバックするフィードバックデータを生成してデータ更新部17に出力する。ここで、フィードバックデータは、原言語及び/又は目的言語側の任意の言語情報と、当該言語情報に関する値又は状態の評価情報とのペアデータである。このフィードバックデータとしては、種々のデータを用いることができ、以下のデータを用いることができる。 The feedback data generation unit 37 generates feedback data to be fed back to the similar sentence generation device 1a as feedback information based on the evaluation result output from the translation result evaluation unit 36, and outputs the feedback data to the data update unit 17. Here, the feedback data is pair data of arbitrary language information on the original language and / or target language side and evaluation information of a value or a state related to the language information. As this feedback data, various data can be used, and the following data can be used.

例えば、翻訳結果が悪かった場合に、ユーザ又は所定の翻訳結果文修正装置により翻訳結果文(目的言語文)を修正し、より良い翻訳文を入力することにより、入力された翻訳文と元の翻訳対象文(原言語文)とのペアの言語情報と、翻訳結果の状態(悪い)の評価情報とのペアデータをフィードバックデータとしてもよい。 For example, when the translation result is bad, the translation result sentence (target language sentence) is corrected by the user or a predetermined translation result sentence correction device, and a better translation sentence is input, so that the input translation sentence and the original translation sentence are used. The pair data of the language information of the pair with the translation target sentence (original language sentence) and the evaluation information of the state (bad) of the translation result may be used as feedback data.

また、ユーザ又は所定の翻訳対象文修正装置により翻訳対象文(原言語文)を修正し、同趣旨で異なる表現の翻訳対象文を入力することにより、より良い翻訳結果文を取得できた場合に、元の翻訳対象文(原言語文)と翻訳結果の良かった翻訳対象文(原言語文)とのペアの言語情報と、翻訳結果の状態(良い/悪いの2値)の評価情報とのペアデータをフィードバックデータとしてもよい。 In addition, when a better translation result sentence can be obtained by correcting the translation target sentence (original language sentence) by the user or a predetermined translation target sentence correction device and inputting a translation target sentence having a different expression to the same effect. , The language information of the pair of the original translation target sentence (original language sentence) and the translation target sentence (original language sentence) with good translation result, and the evaluation information of the state of the translation result (good / bad binary value). The pair data may be used as feedback data.

また、対訳コーパスの中から翻訳対象文(原言語文)に近い文を一又は複数抽出し、ユーザ又は所定の翻訳文評価装置により原言語として破綻していないかどうかの評価値(例えば、良い/悪いの2値)を求め、抽出された原言語文に近い文に対して評価値を付与し、この評価値と、原言語文に近い文を示す言語情報とのペアデータをフィードバックデータとしてもよい。 In addition, one or more sentences close to the translation target sentence (original language sentence) are extracted from the bilingual corpus, and an evaluation value (for example, good) of whether or not the sentence is broken as the original language by the user or a predetermined translation sentence evaluation device is good. (2 values of / bad) is obtained, an evaluation value is given to the extracted sentence close to the original language sentence, and the pair data of this evaluation value and the language information indicating the sentence close to the original language sentence is used as feedback data. May be good.

また、機械翻訳部34により複数の翻訳結果文を作成し、その中からより適切な翻訳結果文をユーザ又は所定の翻訳文評価装置により選択し、選択された翻訳結果文と、選択されなかった翻訳結果文とのペアの言語情報と、これらの翻訳結果文の選択結果を示す評価情報とのペアデータをフィードバックデータとしてもよい。 Further, the machine translation unit 34 creates a plurality of translation result sentences, selects a more appropriate translation result sentence from the translation result sentences by the user or a predetermined translation sentence evaluation device, and selects the selected translation result sentence and the translation result sentence is not selected. The pair data of the language information paired with the translation result sentence and the evaluation information indicating the selection result of these translation result sentences may be used as feedback data.

データ更新部17は、フィードバックデータ生成部37が生成したフィードバックデータ(言語情報と当該言語情報に関する値又は状態の評価情報とのペアデータ)に基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータベース内容を更新する。 The data update unit 17 is based on the feedback data (pair data of the language information and the evaluation information of the value or the state related to the language information) generated by the feedback data generation unit 37, the replacement candidate dictionary 21, the context dependency rate dictionary 22, and the language. Update the contents of at least one of the model databases 23.

また、データ更新部17は、フィードバックデータが文脈依存性を有する置き換え候補文字列を含む場合、文脈依存率辞書22及び言語モデルデータベース23を更新する。また、データ更新部17は、フィードバックデータが新しい文表現を含む場合、この文表現に応じて文脈依存率辞書22の文脈依存率の値を変化させ、また、新しい文表現を含むように言語モデルデータベース23のN−gramを部分構築し、言語モデルデータベース23を更新する。 Further, when the feedback data includes a replacement candidate character string having a context dependency, the data update unit 17 updates the context dependency rate dictionary 22 and the language model database 23. Further, when the feedback data includes a new sentence expression, the data update unit 17 changes the value of the context dependency rate of the context dependency rate dictionary 22 according to the sentence expression, and the language model so as to include the new sentence expression. The N-gram of the database 23 is partially constructed, and the language model database 23 is updated.

また、データ更新部17は、言語情報に原言語側の情報が含まれており、当該の言語情報内に、置き換え候補辞書21、文脈依存率辞書22又は言語モデルデータベース23に登録されている情報が含まれている場合、対応するフィードバックデータの値又は状態の評価情報に応じて、置き換え候補辞書21、文脈依存率辞書22又は言語モデルデータベース23の対応する情報を更新したり、追加したり、削除したりする。 Further, the data update unit 17 includes information on the original language side in the language information, and the information registered in the replacement candidate dictionary 21, the context dependency rate dictionary 22, or the language model database 23 in the language information. Is included, the corresponding information in the replacement candidate dictionary 21, the context dependency dictionary 22 or the language model database 23 may be updated or added, depending on the value or state evaluation information of the corresponding feedback data. Delete it.

例えば、positiveな(肯定的な)値又は状態の評価情報を持つ原言語側の言語情報がフィードバックされた場合、データ更新部17は、出現頻度に所定の重みを加えて出現頻度の値を増加させる等により、言語モデルデータベース23の当該言語情報を含む値をpositive方向に変化させる。一方、negativeな(否定的な)値又は状態の評価情報を持つ原言語側の言語情報がフィードバックされた場合、データ更新部17は、文脈に依存する割合が高くなる方向に文脈依存率を更新する等により、文脈依存率辞書22の当該言語情報を含む値をnegative方向に変化させる。 For example, when the language information of the original language side having the positive (positive) value or the evaluation information of the state is fed back, the data update unit 17 adds a predetermined weight to the appearance frequency to increase the value of the appearance frequency. The value including the language information in the language model database 23 is changed in the positive direction. On the other hand, when the language information on the original language side having the evaluation information of the negative value or the state is fed back, the data update unit 17 updates the context dependency rate in the direction of increasing the context dependence rate. By doing so, the value including the language information of the context-sensitive rate dictionary 22 is changed in the negative direction.

また、翻訳結果の悪かった元の翻訳対象文(原言語文)及び翻訳結果の良かった翻訳対象文(原言語文)の言語情報と、それぞれの翻訳結果状態(悪い/良い)の評価情報とのペアデータをフィードバックされ、悪い状態の元の翻訳対象文に対する良い状態に対応する翻訳対象文の差分が置き換え候補辞書21に登録されていない場合、データ更新部17は、良い状態に対応する差分を置き換え候補辞書21に登録する。 In addition, the language information of the original translation target sentence (original language sentence) with poor translation result and the translation target sentence (original language sentence) with good translation result, and the evaluation information of each translation result status (bad / good). When the pair data of the above is fed back and the difference of the translation target sentence corresponding to the good state with respect to the original translation target sentence in the bad state is not registered in the replacement candidate dictionary 21, the data update unit 17 performs the difference corresponding to the good state. Is registered in the replacement candidate dictionary 21.

また、翻訳結果の悪かった翻訳対象文(原言語文)の言語情報と、翻訳結果状態(悪い)の評価情報とのペアデータをフィードバックされた場合、データ更新部17は、翻訳結果の悪かった翻訳対象文の置き換え候補文字列を置き換え候補辞書21から削除する。 In addition, when the pair data of the language information of the translation target sentence (original language sentence) whose translation result was bad and the evaluation information of the translation result state (bad) was fed back, the data update unit 17 had a bad translation result. The replacement candidate character string of the translation target sentence is deleted from the replacement candidate dictionary 21.

なお、類似文生成装置1a及び翻訳装置2の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、CPU、ROM、RAM及び補助記憶装置等を備える1台又は複数台のコンピュータ又はサーバ(情報処理装置)が、上記の処理を実行するためのプログラムをインストールし、類似文生成装置又は翻訳装置として機能するように構成してもよい。 The configuration of the similar sentence generation device 1a and the translation device 2 is not particularly limited to the example of configuring each function with dedicated hardware as described above, and includes a CPU, ROM, RAM, auxiliary storage device, and the like1. A unit or a plurality of computers or servers (information processing devices) may be configured to install a program for executing the above processing and function as a similar sentence generator or a translation device.

次に、上記のように構成された類似文生成システムによるフィードバックデータ更新処理を含む類似文生成処理について、詳細に説明する。図7は、図6に示す類似文生成システムのフィードバックデータ更新処理を含む類似文生成処理の一例を示すフローチャートである。なお、図7に示す処理のうち、図5に示す処理と同一の処理には同一符号を付して、詳細な説明は省略する。 Next, the similar sentence generation process including the feedback data update process by the similar sentence generation system configured as described above will be described in detail. FIG. 7 is a flowchart showing an example of the similar sentence generation process including the feedback data update process of the similar sentence generation system shown in FIG. Of the processes shown in FIG. 7, the same processes as those shown in FIG. 5 are designated by the same reference numerals, and detailed description thereof will be omitted.

まず、類似文生成装置1aによる類似文生成処理として、ステップS11aにおいて、置き換え対象文入力部10aは、ユーザによる原文に対応する対訳文及び置き換え対象文の入力を受け付け、対訳文を対訳コーパス生成部31に出力し、置き換え対象文を置き換え候補抽出部11に出力する。なお、対訳文を対訳コーパス生成部31に出力するタイミングは、上記の例に特に限定されず、ステップS17の処理時に、置き換え対象文入力部10aが対訳文を対訳コーパス生成部31に出力するようにしてもよい。 First, as a similar sentence generation process by the similar sentence generation device 1a, in step S11a, the replacement target sentence input unit 10a accepts the input of the bilingual sentence and the replacement target sentence corresponding to the original sentence by the user, and converts the bilingual sentence into the bilingual corpus generation unit. It is output to 31 and the replacement target sentence is output to the replacement candidate extraction unit 11. The timing of outputting the bilingual sentence to the bilingual corpus generation unit 31 is not particularly limited to the above example, and the replacement target sentence input unit 10a outputs the bilingual sentence to the bilingual corpus generation unit 31 at the time of processing in step S17. It may be.

次に、ステップS12〜S17において、図5に示すステップS12〜S17と同様の処理が実行され、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th未満であると判定された場合、ステップS20において、置き換え結果出力部16は、置き換え候補文字列を棄却して処理を終了する。 Next, in steps S12 to S17, the same processing as in steps S12 to S17 shown in FIG. 5 is executed, and in step S17, it is determined that the score (appearance frequency) of the replacement candidate character string is less than the predetermined threshold value Th. In the case, in step S20, the replacement result output unit 16 rejects the replacement candidate character string and ends the process.

一方、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であると判定された場合、ステップS18において、図5に示すステップS18と同様の処理が実行された後、ステップS19において、置き換え結果出力部16は、置き換え判定部15で適用と判定された置き換え候補文字列によって生成された置き換え文(置き換わり文)を対訳コーパス生成部31に出力し、類似文生成装置1aによる類似文生成処理が終了する。 On the other hand, when it is determined in step S17 that the score (appearance frequency) of the replacement candidate character string is equal to or higher than a predetermined threshold value Th, in step S18, the same process as in step S18 shown in FIG. 5 is executed, and then the step In S19, the replacement result output unit 16 outputs the replacement sentence (replacement sentence) generated by the replacement candidate character string determined to be applied by the replacement determination unit 15 to the parallel translation corpus generation unit 31, and is used by the similar sentence generation device 1a. The similar sentence generation process ends.

次に、翻訳装置2及び類似文生成装置1aによるフィードバックデータ更新処理として、ステップS21において、対訳コーパス生成部31は、置き換え結果出力部16から出力された置き換え文と、置き換え対象文入力部10aから出力された対訳文とを関連付け、新たな対訳コーパスを生成して翻訳モデル生成部32に出力する。 Next, as a feedback data update process by the translation device 2 and the similar sentence generation device 1a, in step S21, the translation corpus generation unit 31 receives the replacement sentence output from the replacement result output unit 16 and the replacement target sentence input unit 10a. It associates with the output bilingual sentence, generates a new bilingual corpus, and outputs it to the translation model generation unit 32.

次に、ステップS22において、翻訳モデル生成部32は、対訳コーパス生成部31で生成された新たな対訳コーパスを用いて、翻訳モデルを学習により生成して機械翻訳部34に出力する。 Next, in step S22, the translation model generation unit 32 uses the new translation corpus generated by the translation corpus generation unit 31 to generate a translation model by learning and outputs it to the machine translation unit 34.

次に、ステップS23において、被翻訳文入力部33は、ユーザによる翻訳対象文の入力を受け付け、ユーザが翻訳を希望する任意の翻訳対象文を機械翻訳部34に出力する。 Next, in step S23, the translated sentence input unit 33 accepts the input of the translation target sentence by the user, and outputs any translation target sentence that the user desires to translate to the machine translation unit 34.

次に、ステップS24において、機械翻訳部34は、翻訳モデル生成部32が生成した翻訳モデルにより、翻訳対象文を翻訳結果文に翻訳し、翻訳結果文を翻訳対象文とともに翻訳結果文出力部35に出力する。 Next, in step S24, the machine translation unit 34 translates the translation target sentence into the translation result sentence by the translation model generated by the translation model generation unit 32, and translates the translation result sentence together with the translation target sentence in the translation result sentence output unit 35. Output to.

次に、ステップS25において、翻訳結果文出力部35は、翻訳結果文を翻訳対象文とともに翻訳結果評価部36に出力する。 Next, in step S25, the translation result sentence output unit 35 outputs the translation result sentence together with the translation target sentence to the translation result evaluation unit 36.

次に、ステップS26において、翻訳結果評価部36は、翻訳結果文出力部35から出力された翻訳結果文の翻訳精度及び品質に対して評価を行い、評価結果として、評価値又は評価カテゴリなどの情報を翻訳結果文と関連付けてフィードバックデータ生成部37に出力する。 Next, in step S26, the translation result evaluation unit 36 evaluates the translation accuracy and quality of the translation result sentence output from the translation result sentence output unit 35, and the evaluation result includes an evaluation value or an evaluation category. The information is associated with the translation result sentence and output to the feedback data generation unit 37.

次に、ステップS27において、フィードバックデータ生成部37は、翻訳結果評価部36より出力された評価結果からフィードバックデータを生成してデータ更新部17に出力する。 Next, in step S27, the feedback data generation unit 37 generates feedback data from the evaluation result output from the translation result evaluation unit 36 and outputs it to the data update unit 17.

最後に、ステップS28において、データ更新部17は、フィードバックデータ生成部37が生成したフィードバックデータに基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータベース内容を更新し、フィードバックデータ更新処理を終了する。 Finally, in step S28, the data update unit 17 updates the database contents of at least one of the replacement candidate dictionary 21, the context dependency rate dictionary 22, and the language model database 23 based on the feedback data generated by the feedback data generation unit 37. Then, the feedback data update process is terminated.

上記の処理により、本実施の形態では、採用すると判定された置き換え文と、原文に対する対訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳した翻訳結果文を評価し、この評価結果に基づき、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を類似文生成装置1aに学習及び反映するためのフィードバックデータを自律的に生成することができる。 By the above processing, in the present embodiment, the translation result sentence obtained by translating the predetermined translation target sentence is evaluated by using the translation model generated based on the replacement sentence determined to be adopted and the bilingual sentence to the original sentence. However, based on this evaluation result, feedback information including the language of the translation target sentence and / or the language of the translation result sentence and the evaluation information for this language information is generated, so context dependence is taken into consideration. Feedback data for learning and reflecting the case in the similar sentence generator 1a can be autonomously generated.

また、本実施の形態では、言語情報と評価情報とを含むフィードバックデータを用いて、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23を更新しているので、文脈依存性を考慮した事例を置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23に反映することができ、更新前の置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23に存在しない新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。 Further, in the present embodiment, the replacement candidate dictionary 21, the context dependency rate dictionary 22, and the language model database 23 are updated by using the feedback data including the language information and the evaluation information, so that the context dependency is taken into consideration. Cases can be reflected in the replacement candidate dictionary 21, the context dependency dictionary 22 and the language model database 23, and even in new sentence expressions that do not exist in the replacement candidate dictionary 21 before update, the context dependency dictionary 22 and the language model database 23. It is possible to identify similar sentences with high efficiency and autonomously.

本開示は、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができるので、原文から類似文を生成する類似文生成方法、類似文生成プログラム、類似文生成装置、及び該類似文生成装置を備える類似文生成システムに有用である。 The present disclosure can reduce the search cost for the database of the language model and can identify similar sentences with high accuracy. Therefore, a similar sentence generation method, a similar sentence generation program, and a similar sentence generation to generate a similar sentence from the original sentence. It is useful for an apparatus and a similar sentence generation system including the similar sentence generation apparatus.

1、1a 類似文生成装置
2 翻訳装置
10、10a 置き換え対象文入力部
11 置き換え候補抽出部
12 文脈依存率照合部
13 文脈依存性判定部
14 言語モデル照合部
15 置き換え判定部
16 置き換え結果出力部
17 データ更新部
21 置き換え候補辞書
22 文脈依存率辞書
23 言語モデルデータベース
31 対訳コーパス生成部
32 翻訳モデル生成部
33 被翻訳文入力部
34 機械翻訳部
35 翻訳結果文出力部
36 翻訳結果評価部
37 フィードバックデータ生成部
1, 1a Similar sentence generator 2 Translation device 10, 10a Replacement target sentence input section 11 Replacement candidate extraction section 12 Context dependency rate matching section 13 Context dependency judgment section 14 Language model matching section 15 Replacement judgment section 16 Replacement result output section 17 Data update section 21 Replacement candidate dictionary 22 Context dependency rate dictionary 23 Language model database 31 Bilingual corpus generation section 32 Translation model generation section 33 Translated sentence input section 34 Machine translation section 35 Translation result sentence output section 36 Translation result evaluation section 37 Feedback data Generator

Claims (7)

原文から類似文を生成する装置における方法であって、
第1文を入力し、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と、前記第3データベースにおける前記語句の出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定し、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
方法。
A method in a device that generates similar sentences from the original text.
Enter the first sentence,
Of the plurality of words and phrases constituting the first sentence, one or more second words and phrases having the same meaning as the first word and phrase are extracted from the first database, and the first database is the words and phrases and words and phrases included in the first database. Correspond with synonyms of
The N-gram value is calculated based on the context-sensitive value corresponding to the one or more second words and phrases obtained based on the second database, and the second database is divided into words and phrases and words and phrases contained in the second database. Corresponding to the corresponding context-dependent value, the context-dependent value indicates the degree to which the meaning of the phrase contained in the second database depends on the context.
In one or more second sentences in which the first word is replaced with the one or more second words in the first sentence, one or more consecutive words including the second word corresponding to the N-gram value. Extract the third phrase of
Wherein for one or more of the third word, calculates the appearance frequency in the third database, the third database, and phrases, the frequency of occurrence of the word before Symbol third database association,
It is determined whether the calculated frequency of appearance is equal to or higher than the threshold value.
When it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the one or more second sentences are adopted as similar sentences to the first sentence and output to an external device.
Method.
前記第1文は第1言語で記述され、
前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加する、
請求項1記載の方法。
The first sentence is written in the first language and
The first sentence is included in a bilingual corpus, and the bilingual corpus includes a plurality of pairs of a sentence written in a first language and a bilingual sentence written in a second language.
When it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the one or more second sentences are added to the bilingual corpus as similar sentences to the first sentence.
The method according to claim 1.
前記第3データベースは、N−gram言語モデルのデータベースを含み、
前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、
前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、
前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定する、
請求項1又は2記載の方法。
The third database includes a database of N-gram language models.
The N of the N-gram language model is determined to be i (a positive integer) according to the context-sensitive value.
By collating the third database, the frequency of occurrence of i-gram including the second phrase was determined.
Based on the frequency of appearance of the i-gram including the second phrase, it is determined whether or not the one or more second sentences are adopted as similar sentences to the first sentence.
The method according to claim 1 or 2.
前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、
前記翻訳結果文を評価し、
前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語の文節、単語及び形態素の少なくとも1つを含む言語情報と、前記言語情報に対して前記翻訳対象文の言語として破綻していないかどうかを示す評価情報とを含むフィードバック情報を生成する、
請求項1〜3のいずれかに記載の方法。
Generated based on the one or more second sentences determined to be adopted as similar sentences to the first sentence, and the translated sentence obtained by translating the first sentence that generated the one or more second sentences in a second language. Using the translated model, the specified translation target sentence is translated to create a translation result sentence.
Evaluate the translation result sentence and
Based on the evaluation result of the translation result sentence, the language and / or language clauses of the translation result sentence translated sentence, and language information including at least one of words and morphemes, said against the language information Generate feedback information, including evaluation information that indicates whether the text to be translated is broken as the language .
The method according to any one of claims 1 to 3.
原文から類似文を生成する装置として、コンピュータを機能させるためのプログラムであって、
前記コンピュータに、
第1文を入力し、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と、前記第3データベースにおける前記語句の出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定し、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
処理を実行させるプログラム。
A program for operating a computer as a device for generating similar sentences from the original text.
On the computer
Enter the first sentence,
Of the plurality of words and phrases constituting the first sentence, one or more second words and phrases having the same meaning as the first word and phrase are extracted from the first database, and the first database is the words and phrases and words and phrases included in the first database. Correspond with synonyms of
The N-gram value is calculated based on the context-sensitive value corresponding to the one or more second words and phrases obtained based on the second database, and the second database is divided into words and phrases and words and phrases contained in the second database. Corresponding to the corresponding context-dependent value, the context-dependent value indicates the degree to which the meaning of the phrase contained in the second database depends on the context.
In one or more second sentences in which the first word is replaced with the one or more second words in the first sentence, one or more consecutive words including the second word corresponding to the N-gram value. Extract the third phrase of
Wherein for one or more of the third word, calculates the appearance frequency in the third database, the third database, and phrases, the frequency of occurrence of the word before Symbol third database association,
It is determined whether the calculated frequency of appearance is equal to or higher than the threshold value.
When it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the one or more second sentences are adopted as similar sentences to the first sentence and output to an external device.
A program that executes processing.
原文から類似文を生成する装置であって、
第1文を入力される入力部と、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と、前記第3データベースにおける前記語句の出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定する判定部と、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える、
装置。
A device that generates similar sentences from the original text
The input part where the first sentence is input and
A second phrase extraction unit that extracts one or more second phrases having the same meaning as the first phrase from the plurality of phrases constituting the first sentence from the first database, and the first database are the phrases and the first phrase. Corresponds to synonyms of words and phrases contained in the database
A calculation unit that calculates an N-gram value based on a context-sensitive value corresponding to the one or more second words and phrases obtained based on the second database, and the second database are included in the words and phrases and the second database. Corresponding to the context-dependent value corresponding to the phrase, the context-dependent value indicates the degree to which the meaning of the phrase contained in the second database depends on the context.
In one or more second sentences in which the first word is replaced with the one or more second words in the first sentence, one or more consecutive words including the second word corresponding to the N-gram value. The third word extraction part that extracts the third word of
Wherein for one or more of the third word, a calculation unit for calculating an appearance frequency in the third database, the third database, and phrases, the frequency of occurrence of the word before Symbol third database association,
A determination unit for determining whether the calculated appearance frequency is equal to or higher than the threshold value,
When it is determined that the calculated appearance frequency is equal to or higher than the threshold value, the one or more second sentences are adopted as similar sentences to the first sentence, and an output unit for outputting to an external device is provided.
apparatus.
原文から類似文を生成するシステムであって、
請求項記載の装置と、
前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、
前記翻訳部により作成された前記翻訳結果文を評価する評価部と、
前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語の文節、単語及び形態素の少なくとも1つを含む言語情報と、前記言語情報に対して前記翻訳対象文の言語として破綻していないかどうかを示す評価情報とを含むフィードバック情報を生成する生成部とを備える、
システム。
A system that generates similar sentences from the original text
The device according to claim 6 and
The one or more second sentences determined to be adopted as similar sentences to the first sentence by the apparatus, and the translated sentence obtained by translating the first sentence that generated the one or more second sentences into a second language. A translation department that translates a predetermined translation target sentence and creates a translation result sentence using the translation model generated based on it,
An evaluation unit that evaluates the translation result sentence created by the translation unit,
Based on the evaluation result of the evaluation unit, the language of the sentence to be translated and / or language clauses of the translation result sentence, and language information including at least one of words and morphemes, the translation against the language information It is provided with a generation unit that generates feedback information including evaluation information indicating whether or not the language of the target sentence is broken .
system.
JP2017096570A 2016-09-27 2017-05-15 Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system Active JP6817556B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710674166.5A CN107870901B (en) 2016-09-27 2017-08-09 Method, recording medium, device and system for generating similar text from translation source original text
US15/697,489 US10303761B2 (en) 2016-09-27 2017-09-07 Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016187711 2016-09-27
JP2016187711 2016-09-27

Publications (2)

Publication Number Publication Date
JP2018055670A JP2018055670A (en) 2018-04-05
JP6817556B2 true JP6817556B2 (en) 2021-01-20

Family

ID=61836781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017096570A Active JP6817556B2 (en) 2016-09-27 2017-05-15 Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system

Country Status (1)

Country Link
JP (1) JP6817556B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12288030B2 (en) 2021-02-18 2025-04-29 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472251B (en) 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 Translation model training method, sentence translation method, equipment and storage medium
CN108984493B (en) * 2018-07-19 2022-04-29 中国联合网络通信集团有限公司 Chinese article duplicate checking method and system
JP7155758B2 (en) * 2018-08-27 2022-10-19 大日本印刷株式会社 Information processing device, information processing method and program
JP7329929B2 (en) * 2019-02-01 2023-08-21 日本放送協会 LEARNING DATA EXPANSION DEVICE, LEARNING DEVICE, TRANSLATION DEVICE, AND PROGRAM
WO2021176698A1 (en) * 2020-03-06 2021-09-10 富士通株式会社 Machine learning data generation program, machine learning program, machine learning data generation method, and extraction device
CN117407242B (en) * 2023-10-10 2024-04-05 浙江大学 Low-cost, zero-shot online log parsing method based on large language model

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (en) * 1989-05-17 1990-12-13 Hitachi Ltd Method for maintaining and supporting natural language processing system
JP6251562B2 (en) * 2013-12-18 2017-12-20 Kddi株式会社 Program, apparatus and method for creating similar sentence with same intention
JP2017016384A (en) * 2015-07-01 2017-01-19 日本放送協会 Mixed coefficient parameter learning device, mixed occurrence probability calculation device, and programs thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12288030B2 (en) 2021-02-18 2025-04-29 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof

Also Published As

Publication number Publication date
JP2018055670A (en) 2018-04-05

Similar Documents

Publication Publication Date Title
CN107870901B (en) Method, recording medium, device and system for generating similar text from translation source original text
JP6817556B2 (en) Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system
CN107038158B (en) Method and apparatus for creating translation corpus, recording medium, and machine translation system
US5895446A (en) Pattern-based translation method and system
CN110543644A (en) Machine translation method and device containing term translation and electronic equipment
US20110184723A1 (en) Phonetic suggestion engine
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
US12175193B2 (en) System and method for lookup source segmentation scoring in a natural language understanding (NLU) framework
US10394961B2 (en) Foreign language sentence creation support apparatus, method, and program
KR20230061001A (en) Apparatus and method for correcting text
WO2020079749A1 (en) Case search method
CN107066452B (en) Translation assistance method, translation assistance device, translation device, and recording medium
US20240176962A1 (en) CROSS-LINGUAL NATURAL LANGUAGE UNDERSTANDING MODEL FOR MULTI-LANGUAGE NATURAL LANGUAGE UNDERSTANDING (mNLU)
CN110334362B (en) Method for solving and generating untranslated words based on medical neural machine translation
Zhang et al. Cross-lingual sentiment classification: Similarity discovery plus training data adjustment
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
CN111090720B (en) Hot word adding method and device
Singh et al. Urdu to Punjabi machine translation: an incremental training approach
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
JP5106431B2 (en) Machine translation apparatus, program and method
JP2006004366A (en) Machine translation system and computer program therefor
Zeng et al. Lexicon expansion for latent variable grammars
JP5528376B2 (en) Document simplifying apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201209

R151 Written notification of patent or utility model registration

Ref document number: 6817556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151