[go: up one dir, main page]

JP6276516B2 - Dictionary creation apparatus and dictionary creation program - Google Patents

Dictionary creation apparatus and dictionary creation program Download PDF

Info

Publication number
JP6276516B2
JP6276516B2 JP2013098856A JP2013098856A JP6276516B2 JP 6276516 B2 JP6276516 B2 JP 6276516B2 JP 2013098856 A JP2013098856 A JP 2013098856A JP 2013098856 A JP2013098856 A JP 2013098856A JP 6276516 B2 JP6276516 B2 JP 6276516B2
Authority
JP
Japan
Prior art keywords
word
compound word
correct
speech
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013098856A
Other languages
Japanese (ja)
Other versions
JP2014219569A (en
Inventor
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013098856A priority Critical patent/JP6276516B2/en
Publication of JP2014219569A publication Critical patent/JP2014219569A/en
Application granted granted Critical
Publication of JP6276516B2 publication Critical patent/JP6276516B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)

Description

本発明は、音声認識で用いる辞書(語彙)を作成する辞書作成装置、及び辞書作成プログラムに関する。   The present invention relates to a dictionary creation device and a dictionary creation program for creating a dictionary (vocabulary) used in speech recognition.

従来、音声認識では、n−gramに代表される統計的言語モデルを用いて入力された音声から正解候補の単語列(正解候補単語列)を生成している。そして、統計的言語モデルでは、正解候補単語列の言語的な尤もらしさを計算している。また、統計的言語モデルの一つであるn−gramモデルでは、前接する単語列(文脈)に基づいて後続単語を予測することにより言語的な尤もらしさを計算している。   Conventionally, in speech recognition, correct candidate word strings (correct candidate word strings) are generated from speech input using a statistical language model typified by n-gram. In the statistical language model, the linguistic likelihood of the correct candidate word string is calculated. In the n-gram model, which is one of the statistical language models, linguistic likelihood is calculated by predicting subsequent words based on a word string (context) that lies ahead.

例えば、単語列w=w,w,w,wが与えられたとき、n−gramモデルの一つであるバイグラムを用いた場合の単語列の尤もらしさは、以下の(式1)のように計算される。ここで、P(w|w),P(w|w),P(w|w)がそれぞれバイグラムである。バイグラムの値は確率であり、大量のテキストデータから最尤法により推定される。 For example, given a word string w = w 1 , w 2 , w 3 , w 4 , the likelihood of the word string when using a bigram that is one of the n-gram models is as follows (Equation 1 ). Here, P (w 2 | w 1 ), P (w 3 | w 2 ), and P (w 4 | w 3 ) are bigrams, respectively. The bigram value is a probability and is estimated from a large amount of text data by the maximum likelihood method.

Figure 0006276516
Figure 0006276516

ここで、音声認識では、n−gramに代表される統計的言語モデルにおける単語の予測しやすさを向上させるために、単語列中において連続する単語組を1つの複合語として連結し、連結した複合語を音声認識用の辞書(語彙)に登録することが行われている。前記の例でいえば、w,wをそれぞれ独立した1語として扱うのではなく、w=w,wのようにまとめて1語として扱うことに相当する。複合語wを用いた単語列w´=w,w,wの尤もらしさは以下の(式2)のように計算できる。 Here, in speech recognition, consecutive word pairs in a word string are connected as one compound word and connected in order to improve the predictability of words in a statistical language model typified by n-gram. A compound word is registered in a dictionary (vocabulary) for speech recognition. In the above example, w 2 and w 3 are not treated as one independent word, but correspond to treating them as one word together like w c = w 2 and w 3 . The likelihood of the word string w ′ = w 1 , w c , w 4 using the compound word w c can be calculated as (Equation 2) below.

Figure 0006276516
Figure 0006276516

P´(w´)−P(w)が正値(>0)であれば、与えられた単語列が言語的により尤もらしいということになり、バイグラムによる単語予測精度が向上したとみなせる。ただし、P´(w´)−P(w)は常に正値であるとは限らず、複数の複合語の候補の中から、言語的な尤もらしさを向上させるように、複合語となる単語組を選択する必要がある。   If P ′ (w ′) − P (w) is a positive value (> 0), the given word string is more likely to be linguistically, and it can be regarded that the word prediction accuracy by bigram has improved. However, P ′ (w ′) − P (w) is not always a positive value, and a word that becomes a compound word so as to improve linguistic likelihood from among a plurality of compound word candidates. It is necessary to select a pair.

従来、辞書に登録される複合語は、テキストデータから言語的な基準を用いて作成されている。複合語を作成する際の言語的な基準は、大きく分けて以下の2つが存在する。
[1]複合語を構成する単語組の頻度(出現頻度)による基準
[2]複合語を構成する前後でのエントロピーの差による基準
ここで、エントロピーとは、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標である。エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。
Conventionally, compound words registered in a dictionary are created from text data using linguistic criteria. There are the following two linguistic criteria for creating a compound word.
[1] Criteria based on frequency (occurrence frequency) of word pairs constituting a compound word [2] Criteria based on difference in entropy before and after composing a compound word Here, entropy is calculated from a given language model An index indicating the complexity of the word string or an index indicating the difficulty of speech recognition. The higher the entropy, the more complex the word string and the more difficult the speech recognition by the language model.

これらは、いずれも旧来より複合語を構成するための基準として用いられているので、ここでは簡単に説明する。第1の基準(複合語を構成する単語組の頻度(出現頻度)による基準)によれば、テキストデータに数多く出現する単語列が、追加登録すべき複合語の候補として優先的に抽出される。また、第2の基準(複合語を構成する前後でのエントロピーの差による基準)によれば、複雑さの低い単語列(音声認識の容易な単語列)が、追加登録すべき複合語の候補として優先的に抽出される。   Since these are all used as a standard for composing compound words from the past, they will be briefly described here. According to the first criterion (a criterion based on the frequency (occurrence frequency) of word pairs constituting a compound word), a word string that appears in large numbers in text data is preferentially extracted as a candidate compound word to be additionally registered. . Further, according to the second criterion (a criterion based on a difference in entropy before and after composing a compound word), a low complexity word string (a word string that can be easily recognized by speech) is a candidate compound word to be additionally registered. As preferentially extracted.

また、前記2つの基準を組み合わせて、高精度かつn−gramの予測性能が最も高くなるような単語の組を順次求める技術が提案されている(例えば、特許文献1及び非特許文献1参照)。その手順は、次に示す通りである。   In addition, a technique has been proposed in which the two criteria are combined to sequentially obtain a set of words with the highest accuracy and the highest n-gram prediction performance (see, for example, Patent Document 1 and Non-Patent Document 1). . The procedure is as follows.

〔1〕テキストデータにおける隣接する単語2つからなる組み(単語2つ組)の頻度を計算する。
〔2〕高頻度上位M個の単語2つ組を複合語候補として選択する。
〔3〕単語2つ組(複合語候補)を複合語とみなしたときのエントロピーと、複合語とみなさなかったときのエントロピーとを計算する。
手順〔3〕では、例えば、単語2つ組w,wとその前後の単語w,wとを考慮した、学習データ中に存在する単語4つ組(w,w,w,w)を考える。この単語4つ組に対するエントロピーHは、以下の(式3)により求められる。
[1] The frequency of a set of two adjacent words (a set of two words) in the text data is calculated.
[2] A pair of the most frequently used M words is selected as a compound word candidate.
[3] Calculate entropy when a pair of words (compound word candidate) is regarded as a compound word and entropy when it is not regarded as a compound word.
In the procedure [3], for example, a set of four words (w 1 , w a , w) existing in the learning data in consideration of the word set w a , w b and the preceding and following words w 1 , w 2. b , w 2 ). The entropy H 1 for the word quadruple is obtained by the following (Equation 3).

Figure 0006276516
Figure 0006276516

ここで、すべての単語w,w,w,wが同時に生起する同時分布P(w,w,w,w)は、以下の(式4)により近似することができる。 Here, the simultaneous distribution P (w 1 , w a , w b , w 2 ) in which all the words w 1 , w a , w b , w 2 occur simultaneously can be approximated by the following (formula 4). it can.

Figure 0006276516
Figure 0006276516

一方、単語2つ組w,wを複合語wとみなした場合のエントロピーHは、以下の(式5)により求められる。 On the other hand, entropy H 2 when the pair of words w a and w b is regarded as a compound word w c is obtained by the following (Equation 5).

Figure 0006276516
Figure 0006276516

また、同時分布P(w,w,w)は、(式4)と同様に、以下の(式6)により近似することができる。 Further, the simultaneous distribution P (w 1 , w c , w 2 ) can be approximated by the following (Expression 6), similarly to (Expression 4).

Figure 0006276516
Figure 0006276516

単語4つ組に対するエントロピーHと単語2つ組w,wを複合語wとみなした場合のエントロピーHとの差ΔH(w)≡H−Hは、以下の(式7)として計算できる。 Entropy H 1 and word 2 for words quadruplet set w a, the difference ΔH (w c) ≡H 2 -H 1 and entropy of H 2 when regarded w b and compound words w c, the following ( It can be calculated as Equation 7).

Figure 0006276516
Figure 0006276516

M個の単語2つ組の中から、以下の(式8)を満たすものを複合語とする。ここで、(式8)における「argmax f(t)」は、変数tに関する関数f(t)に対して、f(t)が最大になる変数tを求めることを示す。以下、この手続きを所望の数の複合語が得られるまで繰り返す。   A word satisfying the following (Equation 8) from a set of M words is defined as a compound word. Here, “argmax f (t)” in (Expression 8) indicates that a variable t that maximizes f (t) is obtained for the function f (t) related to the variable t. Thereafter, this procedure is repeated until a desired number of compound words are obtained.

Figure 0006276516
Figure 0006276516

特開2007−171724号公報(段落0032〜0054、図2)JP 2007-171724 A (paragraphs 0032 to 0054, FIG. 2)

小林彰夫ほか、「対談音声のための複合語とクラスを利用した言語モデル」、日本音響学会講演論文集、2006年3月、2-1-1、p.71-p.72Akio Kobayashi et al., “Language model using compound words and classes for conversational speech”, Proceedings of the Acoustical Society of Japan, March 2006, 2-1-1, p.71-p.72

しかしながら、従来から用いられていた言語的な2つの基準や、特許文献1及び非特許文献1に記載されていたこの2つの基準の組み合わせは、n−gram等の言語モデルを推定するためのテキストデータから得られた統計量に基づいている。その為、従来技術は、音声認識のように入力音声から単語列を推定するようなアプリケーションに適しているとは限らない。   However, two linguistic criteria that have been used in the past and a combination of these two criteria described in Patent Literature 1 and Non-Patent Literature 1 are texts for estimating a language model such as n-gram. Based on statistics obtained from the data. Therefore, the prior art is not always suitable for an application that estimates a word string from input speech, such as speech recognition.

つまり、音声認識では、入力音声が与えられたとき、言語的な尤もらしさだけではなく、音響的な尤もらしさも考慮して音声認識結果を出力する。したがって、言語的な尤もらしさのみを考慮した従来技術では、音声認識性能を改善しうる複合語を作成できるとは限らない。これは、従来技術では、音声認識した際の予測単語の誤りやすさが考慮されていないことを意味する。   That is, in speech recognition, when input speech is given, a speech recognition result is output in consideration of not only linguistic likelihood but also acoustic likelihood. Therefore, the conventional technology that considers only linguistic likelihood does not always create a compound word that can improve speech recognition performance. This means that the prior art does not consider the error probability of the predicted word when speech recognition is performed.

本発明はかかる点に鑑みてなされたものであって、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される辞書作成装置、及び辞書作成プログラムを提供することを課題とする。   The present invention has been made in view of the above points, and is a dictionary creation device in which the prediction accuracy of words in a statistical language model of speech recognition is improved, and recognition errors are reduced as compared with a conventional statistical language model, and It is an object to provide a dictionary creation program.

前記課題を解決するために本発明の一態様による辞書作成装置は、音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、音声言語資源記憶部と、記憶部と、音声認識部と、整列部と、複合語頻度計数部と、エントロピー計算部と、複合語選択部と、辞書登録部とを備える構成とした。   In order to solve the above problems, a dictionary creating apparatus according to an aspect of the present invention is a dictionary creating apparatus that registers a compound word used for speech recognition in a dictionary as a new vocabulary, and includes a spoken language resource storage unit, a storage unit, The speech recognition unit, the alignment unit, the compound word frequency counting unit, the entropy calculation unit, the compound word selection unit, and the dictionary registration unit are used.

この辞書作成装置は、音声言語資源記憶部に音声とその音声を誤りなく文字化した正解単語列とが蓄積される。また、辞書作成装置は、記憶部に前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶される。   In this dictionary creation device, a speech and a correct word string obtained by characterizing the speech without error are stored in the spoken language resource storage unit. In the dictionary creation device, the storage unit stores the dictionary, a statistical language model indicating the degree of connection between words in the speech, and a statistical acoustic model indicating the relationship between the words in the speech and waveform patterns. The

また辞書作成装置は、音声認識部が、前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する。次に、辞書作成装置は、整列部が前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列させる。そして、辞書作成装置は、複合語頻度計数部が前記整列部で整列された前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する。 In the dictionary creation device, the speech recognition unit recognizes the speech using the statistical language model and the statistical acoustic model, and generates a correct candidate word sequence indicating a correct speech candidate word sequence. Next, in the dictionary creation device, the alignment unit aligns the correct word string and the correct candidate word string in accordance with the utterance time. In the dictionary creation device, the compound word frequency counting unit counts the frequency of each pair of words included in the correct word sequence and the correct candidate word sequence aligned in the alignment unit, and the high frequency Accordingly, the two-word pair is extracted as a plurality of compound word candidates of compound words to be registered in the dictionary.

さらに、辞書作成装置は、エントロピー計算部が前記複合語頻度計数部によって抽出した複数の前記複合語候補並びに前記整列部で整列された前記正解単語列および前記正解候補単語列を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算する。また、辞書作成装置は、複合語選択部が各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する。そして、辞書作成装置は、辞書登録部が前記複合語選択部によって選択した複合語候補を前記辞書の新たな語彙として登録する。 Further, the dictionary creation device uses each of the plurality of compound word candidates extracted by the compound word frequency counting unit by the entropy calculation unit, the correct word string and the correct candidate word string arranged in the alignment unit, and This is an index indicating the difficulty of speech recognition of the speech when a compound word candidate is the compound word, and an entropy indicating that speech recognition is difficult as the value is higher is calculated. Further, the dictionary creation device selects a compound word candidate that minimizes the entropy when the compound word selection unit sets each compound word candidate as the compound word. Then, the dictionary creation device registers the compound word candidate selected by the dictionary registration unit by the compound word selection unit as a new vocabulary of the dictionary.

このような構成を備える辞書作成装置は、音声の正解単語列と音声認識部によって音声を音声認識した結果である正解候補単語列とから複合語候補を抽出する。また、辞書作成装置は、抽出した複合語候補を用いて複合語候補を複合語とした場合のエントロピーを計算し、計算したエントロピーを用いて辞書に登録する複合語を選択する。   The dictionary creation device having such a configuration extracts compound word candidates from the correct word sequence of speech and the correct candidate word sequence that is the result of speech recognition by the speech recognition unit. Further, the dictionary creation device calculates entropy when the compound word candidate is a compound word using the extracted compound word candidate, and selects a compound word to be registered in the dictionary using the calculated entropy.

また、本発明の一態様による辞書作成装置は、前記エントロピー計算部が、前記統計的言語モデルにより得られる言語スコアと統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する構成とした。   Further, the dictionary creation device according to one aspect of the present invention is configured such that the entropy calculation unit calculates the entropy using a language score obtained from the statistical language model and an acoustic score obtained from the statistical acoustic model. did.

このような構成を備える辞書作成装置は、統計的言語モデルにより得られる言語スコアと統計的音響モデルにより得られる音響スコアとを用いて辞書に登録する複合語を選択する基準であるエントロピーを計算する。   The dictionary creation device having such a configuration calculates entropy, which is a reference for selecting a compound word to be registered in the dictionary, using a language score obtained by a statistical language model and an acoustic score obtained by a statistical acoustic model. .

また、本発明の一態様による辞書作成装置は、前記音声言語資源記憶部に、放送された音声、及びその音声の正解単語列が逐次蓄積される構成とした。これは例えば、人手による音声認識結果の誤り修正機能(正解単語列の作成機能)を備えた字幕作成装置(音声および正解単語列を出力とする)を前記音声言語資源記憶部の前段に接続することで実現される。   Further, the dictionary creation device according to one aspect of the present invention is configured such that the spoken language resource storage unit sequentially stores the broadcasted speech and the correct word string of the speech. For example, a subtitle creation device (speech and correct word string is output) provided with a manual speech recognition result error correction function (correct word word creation function) is connected to the preceding stage of the spoken language resource storage unit. This is realized.

このような構成を備える辞書作成装置は、複合語を辞書に登録するための基準であるエントロピーの計算に放送された音声及びその正解単語列をリアルタイム(実時間)で反映させる。   The dictionary creation device having such a configuration reflects the broadcasted voice and the correct word string in real time (real time) in entropy calculation, which is a reference for registering compound words in the dictionary.

また、本発明の一態様による辞書作成プログラムは、音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、前記コンピュータが音声言語資源記憶部と、記憶部とを有し、前記コンピュータを、音声認識手段と、整列手段と、複合語頻度計数手段と、エントロピー計算手段と、複合語選択手段と、辞書登録手段として機能させる。   The dictionary creation program according to an aspect of the present invention is a dictionary creation program that causes a computer to function as a dictionary creation device that registers a compound word used for speech recognition in the dictionary as a new vocabulary, wherein the computer stores a spoken language resource storage. And a storage unit, and causes the computer to function as speech recognition means, alignment means, compound word frequency counting means, entropy calculation means, compound word selection means, and dictionary registration means.

この辞書作成プログラムを実行するコンピュータは、音声言語資源記憶部に音声とその音声を誤りなく文字化した正解単語列とが蓄積される。また、コンピュータは、記憶部に前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶される。   In the computer that executes the dictionary creating program, the speech and the correct word string obtained by characterizing the speech without error are stored in the speech language resource storage unit. The computer stores the dictionary, a statistical language model indicating the degree of connection between words in the speech, and a statistical acoustic model indicating a relationship between the words in the speech and waveform patterns.

また、辞書作成プログラムを実行するコンピュータは、音声認識手段が前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する。次に、コンピュータは、整列手段が前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列させる。そして、コンピュータは、複合語頻度計数手段が整列された前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する。 Further, the computer that executes the dictionary creating program, the speech recognition means recognizes the speech using the statistical language model and the statistical acoustic model, and correct candidate word strings indicating the correct speech candidate word strings Is generated. Next, the computer arranges the correct word string and the correct candidate word string in accordance with the utterance time. Then, the computer counts the frequency of each pair of words included in the correct word sequence and the correct candidate word sequence in which the compound word frequency counting means are arranged, and the word is determined according to the high frequency. Two pairs are extracted as a plurality of compound word candidates of compound words to be registered in the dictionary.

さらに、辞書作成プログラムを実行するコンピュータは、エントロピー計算手段が抽出した複数の前記複合語候補並びに整列された前記正解単語列および前記正解候補単語列を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算する。また、コンピュータは、複合語選択手段が各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する。そして、コンピュータは、辞書登録手段が前記選択した複合語候補を前記辞書の新たな語彙として登録する。 Further, the computer that executes the dictionary creation program uses the plurality of compound word candidates extracted by the entropy calculation means and the aligned correct word strings and the correct candidate word strings to convert each compound word candidate into the compound word. In this case, the entropy indicating that the speech recognition is difficult as the value is higher is calculated. Further, the computer selects a compound word candidate that minimizes the entropy when the compound word selection unit sets each compound word candidate as the compound word. Then, the computer registers the selected compound word candidate as a new vocabulary of the dictionary by the dictionary registration means.

このような機能を実現する辞書作成プログラムは、音声の正解単語列と音声認識手段によって音声を音声認識した結果である正解候補単語列とから複合語候補を抽出する。また、辞書作成プログラムは、抽出した複合語候補を用いて複合語候補を複合語とした場合のエントロピーを計算し、計算したエントロピーを用いて辞書に登録する複合語を選択する。   A dictionary creation program that realizes such a function extracts compound word candidates from a correct word sequence of speech and a correct candidate word sequence that is a result of speech recognition by speech recognition means. The dictionary creation program calculates entropy when the compound word candidate is a compound word using the extracted compound word candidate, and selects a compound word to be registered in the dictionary using the calculated entropy.

本発明の一態様によれば、音声の正解単語列と音声を音声認識した結果である正解候補単語列とから複合語を辞書に登録するための基準であるエントロピーを計算するので、音響的な要素を考慮して辞書に登録する複合語を決定することができる。その為、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される。   According to one aspect of the present invention, entropy that is a reference for registering a compound word in a dictionary is calculated from a correct word sequence of speech and a correct candidate word sequence that is a result of speech recognition. Compound words to be registered in the dictionary can be determined in consideration of elements. Therefore, the accuracy of word prediction in the statistical language model for speech recognition is improved, and recognition errors are reduced as compared with the conventional statistical language model.

また、本発明の一態様によれば、複合語を辞書に登録するエントロピー計算に、音声認識で使用する統計的言語モデルと統計的音響モデルとを利用することができる。   Further, according to one aspect of the present invention, a statistical language model and a statistical acoustic model used in speech recognition can be used for entropy calculation for registering a compound word in a dictionary.

また、本発明の一態様によれば、音声と正解単語列が逐次的に取得され得る場合、複合語を漸次認識辞書に追加することで、音声内容に追随した辞書を構成することが可能である。   Further, according to one aspect of the present invention, when a speech and a correct word string can be acquired sequentially, it is possible to configure a dictionary that follows the speech content by gradually adding compound words to the recognition dictionary. is there.

実施形態に係る辞書作成装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the dictionary creation apparatus which concerns on embodiment. 実施形態に係るエントロピー計算部の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the entropy calculation part which concerns on embodiment. 実施形態に係るエントロピー計算部における言語スコア計算の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the language score calculation in the entropy calculation part which concerns on embodiment. 実施形態に係る言語モデル更新部の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the language model update part which concerns on embodiment.

[本発明の概要]
最初に本発明の概要を説明する。従来法では、テキストデータを用い、複合語を作成する前後におけるテキストコーパスの変化を求め、この変化に基づいて(この変化を基準として)辞書に登録する複合語を決定していた。
[Outline of the present invention]
First, the outline of the present invention will be described. In the conventional method, text data is used to determine a change in the text corpus before and after creating a compound word, and a compound word to be registered in the dictionary is determined based on this change (based on this change).

本発明では、テキストデータを使う代わりに音声データとその正解単語列(音声の書き起こし)を用い、音声認識結果である正解の重畳された複数の正解候補単語列を対象として複合語の作成前後のエントロピーの変化を求め、この変化に基づいて(この変化を基準として)辞書に登録する複合語を決定する。   In the present invention, instead of using text data, speech data and a correct word sequence (speech of speech) are used, and before and after the creation of a compound word for a plurality of correct candidate word strings on which correct answers as speech recognition results are superimposed. The entropy change is determined, and based on this change (based on this change), a compound word to be registered in the dictionary is determined.

音声認識結果には、統計的音響モデルにより単語列の音響的な尤もらしさが確率(対数音響スコア)として付与されている。その為、従来法がテキストデータの情報しか利用しないことにより音響的な要素を考慮しないで辞書に登録する複合語を決定するのに対して、本発明は音響的な要素を考慮して辞書に登録する複合語を決定する。   In the speech recognition result, the acoustic likelihood of the word string is given as a probability (logarithmic acoustic score) by a statistical acoustic model. For this reason, the conventional method uses only text data information to determine compound words to be registered in the dictionary without considering acoustic elements, whereas the present invention considers acoustic elements in the dictionary. Determine the compound word to register.

≪本発明における複合語を辞書に登録するための基準≫
まず、以下で用いる用語の記載方針について説明する。一般的に行列や集合等は太字で示すことになっており、数式中では行列や集合等を太字で表している。しかしながら、明細書において太字で表わすことができない部分については太字ではない通常の文字を用いて代用する。また、明細書において表すことのできない特定の記号については、括弧書きで記号の名称を記載している。
<< Criteria for registering compound words in dictionary according to the present invention >>
First, the description policy of the terms used below will be described. In general, matrices and sets are shown in bold, and in formulas, matrices and sets are shown in bold. However, a portion that cannot be represented in bold in the specification is replaced with a normal character that is not bold. For specific symbols that cannot be represented in the specification, the names of the symbols are written in parentheses.

次に、本発明における複合語を辞書に登録するための基準について説明する。
ベイズの定理によれば、音声入力xが与えられたとき、音響的かつ言語的に尤もらしい単語列w(ハット)は、以下の(式9)により求めることができる。
Next, the criteria for registering a compound word in the dictionary according to the present invention will be described.
According to Bayes' theorem, when a speech input x is given, an acoustically and linguistically likely word string w (hat) can be obtained by the following (formula 9).

Figure 0006276516
Figure 0006276516

ここで、P(x|w)は、単語列(文仮説)に対する音響的な尤もらしさであり、対数音響スコア(以下、省略して「音響スコア」と呼ぶ場合がある)はHMM(Hidden Markov Model)および混合Gauss分布(GMM:Gaussian Mixture Model)に代表される統計的音響モデル(以下、省略して「音響モデル」と呼ぶ場合がある)に基づいて計算される。   Here, P (x | w) is an acoustic likelihood for a word string (sentence hypothesis), and a logarithmic acoustic score (hereinafter sometimes referred to as “acoustic score”) is an HMM (Hidden Markov). Model) and a statistical acoustic model represented by a mixed Gaussian distribution (GMM: Gaussian Mixture Model) (hereinafter, sometimes referred to as “acoustic model”).

一方、P(w)は、単語列wに対する言語的な尤もらしさであり、対数言語スコア(以下、省略して「言語スコア」と呼ぶ場合がある)は、単語n−gramモデル等の統計的言語モデル(以下、省略して「言語モデル」と呼ぶ場合がある)により計算される。以下の説明では、言語モデルとしてn−gramを用いる場合を想定する。   On the other hand, P (w) is a linguistic likelihood for the word string w, and a logarithmic language score (hereinafter sometimes referred to as “language score”) is a statistical value such as a word n-gram model. It is calculated by a language model (hereinafter, sometimes abbreviated as “language model”). In the following description, it is assumed that n-gram is used as the language model.

音声認識では、前記したベイズの定理に基づいて、以下の(式10)を文仮説の評価関数と定め、以下の(式11)により正解候補となる単語列の集合から最良の単語列w(ハット)を選択する。   In speech recognition, the following (Equation 10) is defined as an evaluation function of a sentence hypothesis based on the Bayes' theorem described above, and the best word sequence w ( Hat).

Figure 0006276516
Figure 0006276516

Figure 0006276516
Figure 0006276516

ここで、fam(x|w)は、音響モデルによる仮説wの音響スコア、flm(w)は、言語モデルによる仮説の言語スコア、λlmは、音響スコアに対する言語スコアの重みであり、f(w|x)が、仮説wに対するスコアとなる。
ベイズの定理における仮説wの事後確率は、以下の(式12)により計算される。
Here, f am (x | w) is the acoustic score of the hypothesis w by the acoustic model, f lm (w) is the language score of the hypothesis by the language model, and λ lm is the weight of the language score with respect to the acoustic score, f (w | x) is a score for hypothesis w.
The posterior probability of hypothesis w in Bayes' theorem is calculated by the following (formula 12).

Figure 0006276516
Figure 0006276516

いま、N個の音声が与えられたとする。n番目の音声x(n=1,・・・,N)に対して、正解単語列wn,0∈Wおよび音声認識結果である複数の正解候補単語列wn,k∈W(k=1,・・・)が得られたとする。xが与えられたときの仮説集合に対する条件付きエントロピーHは、以下の(式13)となる。また、N個の音声全体のエントロピーを以下の(式14)とする。ここで、(式13)及び(式14)の単語列の条件付き確率P(wn,k|x)は、(式12)により、音響スコアと言語スコアから計算される。 Assume that N voices are given. n-th sound x n (n = 1, ··· , N) with respect to, correct word sequence w n, 0 ∈W n and a plurality of correct candidate word sequence is a speech recognition result w n, k ∈W n It is assumed that (k = 1,...) Is obtained. The conditional entropy H for the hypothesis set when x n is given is given by (Equation 13) below. In addition, the entropy of all N voices is represented by the following (formula 14). Here, the conditional probability P (w n, k | x n ) of the word strings in (Equation 13) and (Equation 14) is calculated from the acoustic score and the language score by (Equation 12).

Figure 0006276516
Figure 0006276516

Figure 0006276516
Figure 0006276516

音響モデル及び言語モデルによる正解単語列の予測精度が高ければ、正解単語列のスコアは大きくなり、他の誤りを含む仮説のスコアは小さくなる。これは、仮説の識別に関連する不確実性が小さいということを意味し、結果として条件付きエントロピーの値も小さくなる。したがって、条件付きエントロピーがなるべく小さくなるように複合語を作成すれば、音響モデルと言語モデルを組み合わせたときの単語予測精度が改善する。   If the prediction accuracy of the correct word string by the acoustic model and the language model is high, the score of the correct word string increases and the score of the hypothesis including other errors decreases. This means that the uncertainty associated with hypothesis identification is small, resulting in a small conditional entropy value. Therefore, if a compound word is created so that conditional entropy is as small as possible, word prediction accuracy when an acoustic model and a language model are combined is improved.

いま、単語列の集合W(n=1,・・・,N)に含まれる単語列の特定の単語2つ組を複合語wとしたときのN個の音声全体のエントロピーをH(w)、複合語を作成する前のエントロピーをH(w(バー))とすれば、以下の(式15)よりエントロピーの差分が得られる。 Now, the entropy of the entire N speeches when H is a compound word w c when a specific pair of words in the word string included in the word string set W n (n = 1,..., N) is H ( If w c ) and the entropy before creating a compound word is H (w c (bar)), the entropy difference is obtained from (Equation 15) below.

Figure 0006276516
Figure 0006276516

そして、複合語の候補が複数与えられた場合、以下の(式16)となる複合語w(ハット)を選べば、w(ハット)は複合語の候補の中で、単語の予測精度が最も高くなる組である。すなわち、(式15)のエントロピーの差分を複合語の選択基準として、(式16)に該当する複合語を辞書に登録する。 When a plurality of compound word candidates are given, if a compound word w c (hat) as shown in (Equation 16) below is selected, w c (hat) is the word prediction accuracy among the compound word candidates. Is the highest pair. That is, the compound word corresponding to (Expression 16) is registered in the dictionary using the difference in entropy of (Expression 15) as a compound word selection criterion.

Figure 0006276516
Figure 0006276516

従来法では、テキストコーパスから求めたエントロピーの変化を用いているが、これは、音声認識において言語モデルの言語スコア(から導出されるエントロピー)のみを使っていることに等しい。一方、本発明では、対数音響スコアを考慮したエントロピーを用いるため、より音声認識にふさわしい複合語の選択基準となる。
以上で、本発明の概要についての説明を終了する。
The conventional method uses a change in entropy obtained from a text corpus, which is equivalent to using only the language score (entropy derived from) of the language model in speech recognition. On the other hand, in the present invention, since entropy considering logarithmic acoustic scores is used, it becomes a selection criterion for compound words suitable for speech recognition.
This is the end of the description of the outline of the present invention.

[実施形態]
以下、本発明の実施するための形態を、適宜図面を参照しながら詳細に説明する。
各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。
[Embodiment]
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings as appropriate.
Each figure is only schematically shown so that the invention can be fully understood. Therefore, the present invention is not limited to the illustrated example. In addition, in each figure, about the same component or the same component, the same code | symbol is attached | subjected and those overlapping description is abbreviate | omitted.

≪実施形態に係る辞書作成装置の構成≫
図1は、本発明の実施形態に係る辞書作成装置100の構成を示す機能ブロック図である。辞書作成装置100は、言語モデル学習データ記憶部11と、語彙・言語モデル記憶部12と、音響モデル記憶部13と、音声言語資源記憶部14と、音声認識部21と、正解単語列整列部22と、整列部23と、複合語頻度計数部24と、エントロピー計算部25と、複合語選択部26と、言語モデル更新部27とを備える。
<< Configuration of Dictionary Creation Device According to Embodiment >>
FIG. 1 is a functional block diagram showing a configuration of a dictionary creation device 100 according to an embodiment of the present invention. The dictionary creation device 100 includes a language model learning data storage unit 11, a vocabulary / language model storage unit 12, an acoustic model storage unit 13, a spoken language resource storage unit 14, a speech recognition unit 21, and a correct word string alignment unit. 22, an alignment unit 23, a compound word frequency counting unit 24, an entropy calculation unit 25, a compound word selection unit 26, and a language model update unit 27.

ここで、言語モデル学習データ記憶部11、語彙・言語モデル記憶部12、音響モデル記憶部13、及び音声言語資源記憶部14は、HDD(Hard Disk Drive)等の一般的な記録媒体である。   Here, the language model learning data storage unit 11, the vocabulary / language model storage unit 12, the acoustic model storage unit 13, and the spoken language resource storage unit 14 are general recording media such as an HDD (Hard Disk Drive).

また、音声認識部21、正解単語列整列部22、整列部23、複合語頻度計数部24、エントロピー計算部25、複合語選択部26、及び言語モデル更新部27は、CPU(Central Processing Unit)がHDD等に格納されたプログラムをRAM(Random Access Memory)に展開することにより実現するプログラム実行処理や、専用回路等により実現される。これらの機能がプログラム実行処理により実現される場合、「○○部」を「○○手段」と呼ぶ場合がある。   The speech recognition unit 21, the correct word string alignment unit 22, the alignment unit 23, the compound word frequency counting unit 24, the entropy calculation unit 25, the compound word selection unit 26, and the language model update unit 27 are a CPU (Central Processing Unit). Is realized by a program execution process realized by developing a program stored in the HDD or the like in a RAM (Random Access Memory), a dedicated circuit, or the like. When these functions are realized by a program execution process, the “XX section” may be called “XX means”.

(言語モデル学習データ記憶部)
言語モデル学習データ記憶部11は、音声認識に用いられる言語モデルを作成するための学習データが記憶される。学習データは、ニュース原稿あるいはニュース書き起こしなどのテキストデータを事前に形態素解析により形態素(自立語や付属語などの単語)単位に分割し、また、係り受け解析により文節区切りを付与したものである。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、係り受け解析とは、文章を文節に区切ると共に、ある文節に含まれる着目している単語が、他の文節に含まれる単語にどのように係るかを、品詞毎に予め定められた可能性に基づいて解析することである。例えば、日本語の「今日の天気は晴れです」という文章に対して単語区切りと文節区切りとが付与されたテキストデータでは、「(今日/の/)(天気/は/)(晴れ/です)」等のように区切られている。なお、記号( )は文節区切りを示し、記号/は、単語区切りを示している。
(Language model learning data storage)
The language model learning data storage unit 11 stores learning data for creating a language model used for speech recognition. The learning data is the text data such as news manuscripts or news transcripts divided into morphemes (words such as independent words and adjunct words) in advance by morphological analysis, and sentence breaks are given by dependency analysis. . Here, the morpheme refers to the minimum character string that has no meaning if it is made finer than this, and the morpheme analysis is to analyze the sentence by breaking it down to the morpheme level. In addition, dependency analysis is a method that divides a sentence into clauses and can determine in advance for each part of speech how a focused word contained in one clause relates to a word contained in another clause. The analysis is based on gender. For example, in text data in which word breaks and phrase breaks are added to the sentence “The weather is sunny today” in Japanese, “(today / of /) (weather / ha /) (clear / is) And so on. The symbol () indicates a paragraph break, and the symbol / indicates a word break.

(語彙・言語モデル記憶部)
語彙・言語モデル記憶部12は、言語モデル(統計的言語モデル)を作成するための辞書(語彙)、及び統計的言語モデルが記憶される。
辞書(語彙)は、単語(日本語ならば、自立語、付属語)を基礎としているが、音声認識における単語認識率を向上させるために2つ以上の連続した単語列(複合語)を含んで構成される。統計的言語モデルは、大量の音声データを利用して統計的計算手法によって求められた、音声中の単語間のつながり度合いを示す確率モデルの一種(接続確率)である。
なお、詳細は後記する選択された複合語の更新前の状態の語彙・言語モデル記憶部を符号12aで表し、複合語の更新後の語彙・言語モデル記憶部を符号12bで表す場合がある。
(Vocabulary / Language Model Storage)
The vocabulary / language model storage unit 12 stores a dictionary (vocabulary) for creating a language model (statistical language model) and a statistical language model.
The dictionary (vocabulary) is based on words (in Japanese, independent words and adjunct words), but contains two or more consecutive word strings (compound words) to improve the word recognition rate in speech recognition. Consists of. The statistical language model is a kind of probability model (connection probability) indicating the degree of connection between words in speech, which is obtained by a statistical calculation method using a large amount of speech data.
For details, a vocabulary / language model storage unit before update of a selected compound word to be described later may be represented by reference numeral 12a, and a vocabulary / language model storage unit after update of the compound word may be represented by reference numeral 12b.

(音響モデル記憶部)
音響モデル記憶部13は、音響モデル(統計的音響モデル)が記憶される。
統計的音響モデルは、大量の音声の波形パターンに基づいて求められた、音声中の波形パターンと単語との関係を示す確率モデルの一種である。
(Acoustic model storage unit)
The acoustic model storage unit 13 stores an acoustic model (statistical acoustic model).
The statistical acoustic model is a kind of probability model that is obtained based on waveform patterns of a large amount of speech and indicates the relationship between waveform patterns in speech and words.

(音声言語資源記憶部)
音声言語資源記憶部14には、放送などの音声(音声信号や音声信号を符号化した音声データを含む)とこの音声に付随する正解単語列とが蓄積されている。音声は、所定期間を一つの単位(例えば、番組単位やコーナー単位)としており、複数(例えば、1万個)の発話で構成されている。正解単語列は、音声を文字化したものであり、例えば、音声を書き起こしたものや、事前に音声認識したものに単語の挿入、置換、脱落等の誤り修正を行ったものであってよい。その為、正解単語列は、音声に対して誤りを含まないものである。なお、音声言語資源記憶部14には、音声及びこの音声に付随する正解単語列が、例えばN個蓄積されている。また、人手による誤り修正機能を備えた音声認識に基づく字幕作成装置から得られる音声および正解単語列を逐次記憶部に蓄積することも可能である。
(Spoken language resource storage)
The speech language resource storage unit 14 stores speech such as broadcast (including speech signals and speech data obtained by encoding speech signals) and correct word strings associated with the speech. The voice has a predetermined period as one unit (for example, a program unit or a corner unit), and is composed of a plurality of (for example, 10,000) utterances. The correct word string is a voice converted into a character, for example, a voice transcribed or a voice that has been voice-recognized in advance and has been corrected for errors such as insertion, replacement, and omission of words. . For this reason, the correct word string does not include an error with respect to the speech. Note that the spoken language resource storage unit 14 stores, for example, N pieces of speech and correct word strings accompanying the speech. Further, it is also possible to sequentially store the voice and the correct word string obtained from the caption generation device based on voice recognition having a manual error correction function in the storage unit.

(音声認識部)
音声認識部21には、音声言語資源記憶部14に蓄積される音声が入力される。音声認識部21は、語彙・言語モデル記憶部12に記憶される語彙、言語モデル及び音響モデル記憶部13に記憶される音響モデルを用いて、音声言語資源記憶部14に蓄積される音声を音声認識し、音声認識結果である複数の正解候補単語列を生成する。
正解候補単語列とは、入力された音声に対して尤もらしい単語列であり、音声に対して音声認識の誤りを含む可能性のある単語列である。具体的には、音声認識部21は、一つの発話に対しておおむね100〜500個程度の正解候補の単語を生成する。これにより、例えば、音声が1万個の発話で構成されていた場合に、1万個×100〜500個=100万〜500万個程度の音声認識結果である正解候補単語列が生成される。
また、音声認識部21は、正解候補単語列を構成する単語の発話時刻に合わせて正解候補単語列を整列する。この際、音声認識部21は、この正解候補単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。なお、生成された正解候補単語列の中に正解単語列が含まれていてもよい。音声認識部21は、生成した正解候補単語列を整列部23に出力する。
(Voice recognition unit)
The voice that is accumulated in the spoken language resource storage unit 14 is input to the voice recognition unit 21. The voice recognition unit 21 uses the vocabulary stored in the vocabulary / language model storage unit 12, the language model, and the acoustic model stored in the acoustic model storage unit 13 to utter the voice accumulated in the spoken language resource storage unit 14. Recognize and generate a plurality of correct candidate word strings as speech recognition results.
The correct answer candidate word string is a word string that is likely to be input speech, and is a word sequence that may include speech recognition errors in the speech. Specifically, the speech recognition unit 21 generates approximately 100 to 500 correct candidate words for one utterance. Thereby, for example, when the speech is composed of 10,000 utterances, correct candidate word strings that are about 10,000 × 100 to 500 = 1,000,000 to 5 million speech recognition results are generated. .
Further, the speech recognition unit 21 aligns the correct candidate word strings in accordance with the utterance times of the words constituting the correct candidate word strings. At this time, the speech recognition unit 21 adds a language score based on the language model and an acoustic score based on the acoustic model to the correct candidate word string. Note that the correct word string may be included in the generated correct word candidate word string. The speech recognition unit 21 outputs the generated correct candidate word string to the alignment unit 23.

(正解単語列整列部)
正解単語列整列部22には、音声言語資源記憶部14に蓄積される音声とこの音声の正解単語列とが入力される。正解単語列整列部22は、音声及び正解単語列と語彙・言語モデル記憶部12に記憶される言語モデル及び音響モデル記憶部13に記憶される音響モデルとを用いて、正解単語列を構成する単語の発話時刻に合わせて正解単語列を整列する。この際、正解単語列整列部22は、整列後の正解単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。これにより、整列後の正解単語列には、何分何秒に何という単語が話されたかという情報と、音声認識部21が言語モデル及び音響モデルを用いて正解の単語列を音声認識した場合の言語スコア及び音響スコアとが付加される。正解単語列整列部22は、整列した正解単語列を整列部23に出力する。
(Correct word string alignment part)
The correct word string alignment unit 22 receives the voice accumulated in the spoken language resource storage unit 14 and the correct word string of this voice. The correct word string alignment unit 22 forms a correct word string using the speech and correct word strings, the language model stored in the vocabulary / language model storage unit 12 and the acoustic model stored in the acoustic model storage unit 13. The correct word string is aligned according to the utterance time of the word. At this time, the correct word string alignment unit 22 adds a language score based on the language model and an acoustic score based on the acoustic model to the aligned correct word string. As a result, in the aligned correct word string, information indicating what word is spoken in minutes and seconds, and when the speech recognition unit 21 recognizes the correct word string using the language model and the acoustic model. Language score and acoustic score are added. The correct word string alignment unit 22 outputs the aligned correct word strings to the alignment unit 23.

(整列部)
整列部23には、音声認識部21で生成された正解候補単語列と正解単語列整列部22で発話時刻に合わせて整列された正解単語列とが統合されて単語列集合として入力される。以降では、単語列集合は、辞書(語彙)に登録する複合語を作成するための基準の計算(エントロピー計算)に用いられる。
整列部23は、語彙・言語モデル記憶部12bに記憶される複合語を含む新たな辞書(語彙)で学習された言語モデルと音響モデル記憶部13に記憶される音響モデルとで単語列集合の各単語列を単語の発話時刻に合わせて整列する。この際、整列部23は、整列された単語列の各単語に対して、音響モデルによる音響スコア、及び言語モデルによる言語スコアをそれぞれ付加する。なお、初期状態では、複合語が得られていないため、語彙・言語モデル記憶部12aに記憶される言語モデルと語彙・言語モデル記憶部12bに記憶される言語モデルとは同一である。したがって、初期状態では、前段の音声認識部21および正解単語列整列部22において、すでに整列済みであるため、整列部23では整列を行わない。整列部23は、整列を行った単語列集合を複合語頻度計数部24に出力する。
(Alignment section)
The correct candidate word string generated by the speech recognizer 21 and the correct word string aligned in accordance with the utterance time by the correct word string aligner 22 are integrated into the aligner 23 and input as a word string set. Hereinafter, the word string set is used for calculation of a reference (entropy calculation) for creating a compound word to be registered in a dictionary (vocabulary).
The alignment unit 23 forms a word string set of a language model learned by a new dictionary (vocabulary) including a compound word stored in the vocabulary / language model storage unit 12 b and an acoustic model stored in the acoustic model storage unit 13. Each word string is aligned according to the utterance time of the word. At this time, the alignment unit 23 adds an acoustic score based on the acoustic model and a language score based on the language model to each word in the aligned word string. In the initial state, since no compound word is obtained, the language model stored in the vocabulary / language model storage unit 12a is the same as the language model stored in the vocabulary / language model storage unit 12b. Therefore, in the initial state, since the speech recognition unit 21 and the correct word string alignment unit 22 in the previous stage have already been aligned, the alignment unit 23 does not perform alignment. The alignment unit 23 outputs the aligned word string set to the compound word frequency counting unit 24.

(複合語頻度計数部)
複合語頻度計数部24には、整列部23で整列された単語列集合が入力される。複合語頻度計数部24は、単語列集合に含まれる特定の単語2つ組の頻度を計数する。また、複合語頻度計数部24は、計数後、特定の単語2つ組を頻度の降順に並べ、上位となる高頻度M個の単語2つ組を複合語候補として算出する。複合語頻度計数部24は、単語列集合及び算出した上位となる高頻度M個の複合語候補をエントロピー計算部25に出力する。
(Compound word frequency counter)
The compound word frequency counting unit 24 receives the word string set sorted by the sorting unit 23. The compound word frequency counting unit 24 counts the frequency of a pair of specific words included in the word string set. In addition, after counting, the compound word frequency counting unit 24 arranges a pair of specific words in descending order of frequency, and calculates a pair of high-frequency M words having higher ranks as compound word candidates. The compound word frequency counting unit 24 outputs the word string set and the calculated high frequency M compound word candidates to the entropy calculating unit 25.

(エントロピー計算部)
エントロピー計算部25には、単語列集合及び複合語頻度計数部24で算出された高頻度M個の複合語候補が入力される。エントロピー計算部25は、単語列集合及び高頻度M個の複合語候補を用いて、複合語を作成する前後のエントロピーをそれぞれ計算し、エントロピーの変化を求める。ここで、エントロピーとは、前記した通り、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。エントロピー計算部25の処理の詳細は後記する処理手順で説明する。エントロピー計算部25は、計算したエントロピーの変化を複合語選択部26に出力する。
(Entropy calculation part)
The entropy calculation unit 25 receives the high-frequency M compound word candidates calculated by the word string set and the compound word frequency counting unit 24. The entropy calculation unit 25 calculates the entropy change by calculating the entropy before and after creating the compound word using the word string set and the high frequency M compound word candidates. Here, as described above, the entropy is an index indicating the complexity of a word string calculated from a given language model or an index indicating the difficulty of speech recognition. Complexity increases and speech recognition by the language model becomes difficult. Details of the processing of the entropy calculation unit 25 will be described in a processing procedure described later. The entropy calculation unit 25 outputs the calculated change in entropy to the compound word selection unit 26.

(複合語選択部)
複合語選択部26には、エントロピー計算部25が計算したエントロピーの変化が入力される。複合語選択部26は、前段のエントロピー計算部25の結果を受けて、M個の複合語候補の中から、エントロピーの変化が最も大きくなる候補(複合語を作成した後のエントロピーが複合語を作成する前のエントロピーに比べて最も減少する複合語候補)を複合語として選択する。複合語選択部26は、選択した複合語を言語モデル更新部27に出力する。
(Compound word selection part)
The compound word selection unit 26 receives a change in entropy calculated by the entropy calculation unit 25. The compound word selection unit 26 receives the result of the entropy calculation unit 25 in the previous stage, and selects the candidate having the largest entropy change from the M compound word candidates (the entropy after the compound word is generated is the compound word). A compound word candidate that is the smallest decrease compared to the entropy before creation is selected as a compound word. The compound word selection unit 26 outputs the selected compound word to the language model update unit 27.

(言語モデル更新部)
言語モデル更新部27(辞書登録部)には、複合語選択部26から選択した複合語が入力される。言語モデル更新部27は、前段で得られた複合語を新たに語彙・言語モデル記憶部12の辞書(語彙)に追加し、言語モデルの学習に用いた言語モデル学習データを用いて言語モデルを再学習し、語彙・言語モデル記憶部12の言語モデルを更新する。言語モデル更新部27の処理の詳細は後記する処理手順で説明する。言語モデル更新部27は、言語モデルを再学習したことを整列部23に出力する。
(Language Model Update Department)
The compound word selected from the compound word selection unit 26 is input to the language model update unit 27 (dictionary registration unit). The language model update unit 27 newly adds the compound word obtained in the previous stage to the dictionary (vocabulary) of the vocabulary / language model storage unit 12, and uses the language model learning data used for learning the language model to change the language model. Re-learning is performed, and the language model in the vocabulary / language model storage unit 12 is updated. Details of the processing of the language model update unit 27 will be described in the processing procedure described later. The language model update unit 27 outputs to the alignment unit 23 that the language model has been relearned.

そして、整列部23は、複合語が更新された複合語更新後の語彙・言語モデル記憶部12bに記憶された言語モデルを用いて新たに整列を行う。以下、所望の数の複合語が得られるまで、整列部23、複合語頻度計数部24、エントロピー計算部25、複合語選択部26、及び言語モデル更新部27の処理を繰り返す。上記の処理終了後、語彙・言語モデル記憶部12bに記憶された言語モデルを音声認識に用いる。
以上で、実施形態に係る辞書作成装置100の構成についての説明を終了する。
Then, the alignment unit 23 performs a new alignment using the language model stored in the updated vocabulary / language model storage unit 12b in which the compound word is updated. Thereafter, the processes of the aligning unit 23, the compound word frequency counting unit 24, the entropy calculating unit 25, the compound word selecting unit 26, and the language model updating unit 27 are repeated until a desired number of compound words are obtained. After the above processing is completed, the language model stored in the vocabulary / language model storage unit 12b is used for speech recognition.
Above, description about the structure of the dictionary creation apparatus 100 which concerns on embodiment is complete | finished.

≪実施形態に係る辞書作成装置の処理手順≫
以下では、実施形態に係る辞書作成装置100の主要部(エントロピー計算部25、及び言語モデル更新部27)の処理手順について説明する。
<< Processing Procedure of Dictionary Creation Device According to Embodiment >>
Below, the process sequence of the principal part (entropy calculation part 25 and the language model update part 27) of the dictionary creation apparatus 100 which concerns on embodiment is demonstrated.

(エントロピー計算部の処理手順)
図2を参照して、エントロピー計算部25の処理手順について説明する。
いま、N個の音声が与えられたとする。n番目の音声x(n=1,・・・,N)に対して、単語列集合(正解単語列wn,0∈Wおよび音声認識結果である複数の正解候補単語列wn,l∈W(l=1,・・・))が得られたとする。なお、正解単語列wn,0及び正解候補単語列wn,lについての(1)言語モデルによる言語スコアflm(wn,l)、ならびに(2)音響モデルによる音響スコアfam(wn,l|x)は、すでに前段(音声認識部21や正解単語列整列部22)で計算済みであり、各々の単語列の各単語に付加されている。また、複合語頻度計数部24で算出された高頻度M個の複合語候補が得られたとする。
(Processing procedure of entropy calculation unit)
A processing procedure of the entropy calculation unit 25 will be described with reference to FIG.
Assume that N voices are given. For the n-th speech x n (n = 1,..., N), a word string set (correct word string w n, 0 ∈W n and a plurality of correct candidate word strings w n, which are speech recognition results) It is assumed that l ∈ W n (l = 1,...)) is obtained. Incidentally, correct word sequence w n, 0 and correct candidate word sequence w n, language by (1) language model for l score f lm (w n, l), and (2) acoustic Acoustic Model score f am (w n, l | x n ) has already been calculated in the previous stage (the speech recognition unit 21 and the correct word string alignment unit 22), and is added to each word in each word string. Further, it is assumed that high frequency M compound word candidates calculated by the compound word frequency counting unit 24 are obtained.

ステップS10のループ処理は、複合語頻度計数部24が算出した上位となる高頻度M個の複合語候補について順次処理(例えば、頻度の降順)を行うことを意味する。
エントロピー計算部25は、第m番目(最初は高頻度1番目)の複合語候補に対して、複合語を作成する前後での言語スコアの変更分をあらかじめ計算しておく(ステップS20)。スコアの変更分は、複合語を構成する語w,wおよび複合語候補wに関わる部分のみにおける計算である。ステップS20の言語スコア計算を詳細化したフローチャートを図3に示す。
The loop processing in step S10 means that the high-frequency M compound word candidates that are higher ranks calculated by the compound word frequency counting unit 24 are sequentially processed (for example, in descending order of frequency).
The entropy calculation unit 25 calculates in advance the amount of change in the language score before and after creating a compound word for the m-th (initially high-frequency first) compound word candidate (step S20). The change in the score is a calculation only in the part related to the words w a and w b and the compound word candidate w c constituting the compound word. A detailed flowchart of the language score calculation in step S20 is shown in FIG.

図3を参照し、エントロピー計算部25における言語スコア計算の処理手順について説明する。
エントロピー計算部25は、第m番目の複合語候補を複合語として構成することにより変更となる単語列の頻度を、言語モデル学習データ記憶部11に記憶された学習データから算出する(ステップS21)。具体的には、以下に示す(1)〜(6)の頻度を求める。
(1)複合語となる単語2つ組(w,w)の頻度C(w,w
(2)wの左側(前方)に接続する単語w∈{V}との2つ組(w,w)の頻度C(w,w
(3)wの右側(後方)に接続する単語w∈{V}との2つ組(w,w)の頻度C(w,w
(4)(w,w)の左側(前方)に接続する単語wとの3つ組(w,w,w)の頻度C(w,w,w
(5)wの右側(後方)に接続する単語w∈{V}との2つ組(w,w)の頻度C(w,w
(6)(w,w)の右側(後方)に接続する単語wとの3つ組(w,w,w)の頻度C(w,w,w
With reference to FIG. 3, the processing procedure of the language score calculation in the entropy calculation part 25 is demonstrated.
The entropy calculation unit 25 calculates the frequency of the word string that is changed by configuring the mth compound word candidate as a compound word from the learning data stored in the language model learning data storage unit 11 (step S21). . Specifically, the following frequencies (1) to (6) are obtained.
(1) compound words become the words duplicate (w a, w b) Frequency of C (w a, w b)
(2) the frequency of the two pairs of the word w 1 is connected to the left side of w a (forward) ∈ {V} (w 1 , w a) C (w 1, w a)
(3) w a of the right two and word w 2 ∈ {V} to connect to (behind) the set (w a, w 2) The frequency of C (w a, w 2)
(4) (w a, w b) 3 -tuple of the word w 1 to be connected to the left side (front) of (w 1, w a, w b) frequency C of (w 1, w a, w b)
(5) w b of the right two and word w 2 ∈ {V} to connect to (rear) pair (w b, w 2) The frequency of C (w b, w 2)
(6) (w a, w b) 3 -tuple of the word w 2 to be connected to the right side (rear) of the (w a, w b, w 2) The frequency of C (w a, w b, w 2)

続いて、エントロピー計算部25は、ステップS21で求めた頻度から、複合語に関わる言語スコア(バイグラム)の値を計算する(ステップS22)。以下に具体的な処理を記述する。   Subsequently, the entropy calculation unit 25 calculates a language score (bigram) value related to the compound word from the frequency obtained in step S21 (step S22). Specific processing is described below.

まず、複合語wを得た後のバイグラムP´(w|w)は、以下の(式17)となる。 First, the bigram P ′ (w c | w 1 ) after obtaining the compound word w c is expressed by the following (Equation 17).

Figure 0006276516
Figure 0006276516

を履歴としたときのバイグラムP´(w|w)は、以下の(式18)となる。 The bigram P ′ (w 2 | w c ) when w c is a history is expressed by the following (formula 18).

Figure 0006276516
Figure 0006276516

一方、複合語wを得た後のwのバイグラムP´(w|w)は、以下の(式19)となる。 On the other hand, the bigram P ′ (w a | w 1 ) of w a after obtaining the compound word w c is expressed by the following (formula 19).

Figure 0006276516
Figure 0006276516

を履歴としたときのバイグラムP´(w|w)は、以下の(式20)となる。 The bigram P ′ (w 2 | w a ) when w a is a history is represented by the following (formula 20).

Figure 0006276516
Figure 0006276516

を履歴としたときのバイグラムP´(w|w)は、以下の(式21)となる。 The bigram P ′ (w 2 | w b ) when w b is a history is expressed by the following (formula 21).

Figure 0006276516
Figure 0006276516

続いて、エントロピー計算部25は、前記した複合語を作成したときの言語スコア(バイグラム)の変更分を言語スコアテーブルが記憶される言語スコアテーブル記憶部15に格納し(言語スコアテーブル作成)、後段の処理(図4の言語モデル更新S130)で参照できるようにする(ステップS23)。そして、処理は図2のステップS30に進む。   Subsequently, the entropy calculation unit 25 stores the change of the language score (bigram) when the compound word is created in the language score table storage unit 15 in which the language score table is stored (language score table creation), Reference can be made in the subsequent process (language model update S130 in FIG. 4) (step S23). Then, the process proceeds to step S30 in FIG.

ステップS30のループ処理は、与えられたN個の音声(音声データ)について順次処理を行い、結果として全ての音声についてループ内の処理を行うことを意味する。
エントロピー計算部25は、第n番目(最初は第1番目)の音声に対して、単語2つ組を複合語にする前と複合語にした後との言語スコアの差分を計算する(ステップS40)。本実施形態では、言語モデルとしてバイグラムを使っており、単語2つ組(w,w),複合語候補wとする。
複合語wを作成する前後における言語モデルの言語スコアの差分は、以下の(式22)となる。
The loop processing in step S30 means that processing is sequentially performed on the given N voices (voice data), and as a result, processing in the loop is performed on all voices.
The entropy calculation unit 25 calculates the difference in language score between the nth (initially first) speech before and after the word duplication is made a compound word (step S40). ). In the present embodiment, using the bigram as a language model, a word duplicate (w a, w b), and compound word candidate w c.
The difference in the language score of the language model before and after creating the compound word w c is expressed by the following (formula 22).

Figure 0006276516
Figure 0006276516

(式22)においては、flm(w|・)を以下の(式23)とする。ここで、δu,wは単語列wに含まれる単語2つ組(u,w)の個数を返す関数である。 In (Expression 22), let f lm (w | ·) be the following (Expression 23). Here, δ u, w is a function that returns the number of word pairs (u, w) included in the word string w.

Figure 0006276516
Figure 0006276516

複合化した単語列wの言語スコアは、以下の(式24)により計算できる。   The language score of the combined word string w can be calculated by the following (Equation 24).

Figure 0006276516
Figure 0006276516

続いて、エントロピー計算部25は、複合語を構成する前後における音響モデルの音響スコアの差分を計算する(ステップS50)。音響スコアの差分は、以下の(式25)となる。   Subsequently, the entropy calculation unit 25 calculates the difference between the acoustic scores of the acoustic model before and after composing the compound word (step S50). The difference between the acoustic scores is expressed by the following (Equation 25).

Figure 0006276516
Figure 0006276516

ここで、x[s,e]は、入力音声の内、始端時刻s,終端時刻eとなる部分(音声の一部分)とする。σ(v)は、単語v(式25ではw,w等と表記)の発話始端時刻とする。τ(v)は、発話終端時刻とする。fam(x[s,e]|v)は、単語vが与えられたときの音響スコアとする。その場合、複合語化した単語列の音響スコアは、以下の(式26)となる。 Here, x [s, e] is a part (a part of the voice) of the input voice that has the start time s and the end time e. σ (v) is the utterance start time of the word v (denoted as w a , w b etc. in Equation 25). Let τ (v) be the utterance end time. Let f am (x [s, e] | v) be the acoustic score when the word v is given. In this case, the acoustic score of the compound word string is expressed by the following (Equation 26).

Figure 0006276516
Figure 0006276516

続いて、エントロピー計算部25は、以下の(式27)及び(式28)を用いて、n番目の音声xに対する単語列集合中のすべての単語列から、第m番目の複合語を作成する前のエントロピー及び作成後のエントロピーを計算する(ステップS60)。   Subsequently, the entropy calculation unit 25 creates the m-th compound word from all the word strings in the word string set for the n-th speech x using the following (Expression 27) and (Expression 28). The previous entropy and the entropy after creation are calculated (step S60).

Figure 0006276516
Figure 0006276516

Figure 0006276516
Figure 0006276516

続いて、エントロピー計算部25は、計算したn番目の音声xに対する第m番目の複合語を作成する前のエントロピーH (w|x)と作成した後のエントロピーH(バー) (w|x)との差分を以下の(式29)により求める(ステップS70)。 Subsequently, the entropy calculation unit 25 generates entropy H n m (w | x) before creating the m-th compound word for the calculated n-th speech x and entropy H (bar) n m ( The difference from w | x) is obtained by the following (formula 29) (step S70).

Figure 0006276516
Figure 0006276516

第n番目の音声nに対してステップS70までの処理が終了すると、nに「1」を加算して、次の音声xn+1についてもステップS40〜ステップS70までの処理を行う。このステップS30におけるループ処理は、与えられたN個の音声(全ての音声)について行う。つまり、m番目の複合語候補に対するエントロピーH(w|x)は、N個の音声(全ての音声)で積算することにより以下の(式30)で求められる。 When the processing up to step S70 is completed for the nth speech n, “1” is added to n, and the processing from step S40 to step S70 is performed for the next speech xn + 1 . The loop process in step S30 is performed for the given N sounds (all sounds). That is, the entropy H m (w | x) for the m-th compound word candidate is obtained by the following (Equation 30) by accumulating with N voices (all voices).

Figure 0006276516
Figure 0006276516

そして、このステップS30におけるループ処理により、m番目の複合語候補に対するエントロピーの差分ΔHは、N個の音声(全ての音声)で積算することで以下の(式31)となる。 Then, by the loop processing in step S30, the entropy difference ΔH m with respect to the m-th compound word candidate is integrated by N voices (all voices) to be (Equation 31) below.

Figure 0006276516
Figure 0006276516

与えられたN個の音声に対してステップS30のループ処理が終了すると、mに「1」を加算して、次の第m+1番目の複合語候補m+1についてもステップS20〜ステップS70までの処理を行う。このステップS10におけるループ処理は、与えられた高頻度M個の複合語候補について行う。そして、エントロピー計算部25は、高頻度M個の複合語候補についてのエントロピーの差分ΔHを複合語選択部26に出力する。 When the loop processing of step S30 is completed for the given N sounds, “1” is added to m, and the processing from step S20 to step S70 is also performed for the next m + 1-th compound word candidate m + 1. Do. The loop processing in step S10 is performed for the given high frequency M compound word candidates. Then, the entropy calculation unit 25 outputs the entropy difference ΔH m for the high frequency M compound word candidates to the compound word selection unit 26.

(言語モデル更新部の処理手順)
図4を参照して、言語モデル更新部27の処理手順について説明する。
最初に、言語モデル更新部27は、語彙・言語モデル記憶部12に記憶される元の語彙{V}に、複合語選択部26が選択した複合語wを加え({V}←{V}∪{w}))語彙を更新する(ステップS110)。
(Processing procedure of language model update unit)
With reference to FIG. 4, the process procedure of the language model update part 27 is demonstrated.
First, the language model update unit 27 adds the compound word w c selected by the compound word selection unit 26 to the original vocabulary {V} stored in the vocabulary / language model storage unit 12 ({V} ← {V } ∪ {w c })) The vocabulary is updated (step S110).

続いて、言語モデル更新部27は、言語モデル学習データ記憶部11に記憶される学習データに含まれる複合語作成前の単語2つ組を複合語に置き換え、学習データを更新する(ステップS120)。具体的には、言語モデル更新部27は、学習データであるテキストデータの単語区切り(形態素区切り)を更新する。ここで、単語区切りの更新とは、日本語の場合を想定すると、更新前のテキストデータに含まれる「自立語A+自立語B」や「自立語A+付属語C」といった単語ペアを、「複合語AB」や「複合語AC」に変化させることである。   Subsequently, the language model update unit 27 replaces a pair of words before the compound word creation included in the learning data stored in the language model learning data storage unit 11 with the compound word, and updates the learning data (step S120). . Specifically, the language model update unit 27 updates word breaks (morpheme breaks) of text data that is learning data. Here, assuming that the word break is updated in Japanese, a word pair such as “independent word A + independent word B” or “independent word A + ancillary word C” included in the text data before the update is combined with “composite word”. The word “AB” or “compound word AC”.

続いて、言語モデル更新部27は、エントロピー計算部25がステップS20(図3参照)で行った言語スコア計算により得た言語スコアテーブル(言語スコアテーブル記憶部15に記憶)を参照して、選択した複合語に該当する言語スコア(バイグラム)を置き換える。また、言語モデル更新部27は、統計的な処理により言語モデルを作成し、語彙・言語モデル記憶部12に記憶される言語モデルを更新する(ステップS130)。そして、言語モデル更新部27は、言語モデルを更新したことを整列部23に出力する。
以上で、実施形態に係る辞書作成装置100の処理手順についての説明を終了する。
Subsequently, the language model updating unit 27 selects the language score table (stored in the language score table storage unit 15) obtained by the language score calculation performed by the entropy calculation unit 25 in step S20 (see FIG. 3). Replace the language score (bigram) corresponding to the compound word. Further, the language model update unit 27 creates a language model by statistical processing, and updates the language model stored in the vocabulary / language model storage unit 12 (step S130). Then, the language model update unit 27 outputs to the alignment unit 23 that the language model has been updated.
Above, description about the process sequence of the dictionary creation apparatus 100 which concerns on embodiment is complete | finished.

以上のように、本実施形態に係る辞書作成装置100は、音声の正解単語列と音声認識部21によって音声を音声認識した結果である正解候補単語列とから複合語を辞書に登録するための基準であるエントロピーを計算するので、音響的な要素を考慮して辞書に登録する複合語を決定することができる。その為、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される。   As described above, the dictionary creating apparatus 100 according to the present embodiment registers a compound word in the dictionary from the correct word sequence of speech and the correct candidate word sequence that is the result of speech recognition by the speech recognition unit 21. Since the reference entropy is calculated, a compound word to be registered in the dictionary can be determined in consideration of acoustic elements. Therefore, the accuracy of word prediction in the statistical language model for speech recognition is improved, and recognition errors are reduced as compared with the conventional statistical language model.

[変形例]
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to this, It can implement in the range which does not change the meaning.

例えば、実施形態の辞書作成装置100は、日本語を辞書に登録する場合を想定して説明したが、英語などの他の言語についても適用可能である。   For example, the dictionary creating apparatus 100 of the embodiment has been described assuming that Japanese is registered in the dictionary, but the present invention can also be applied to other languages such as English.

また、実施形態の辞書作成装置100は、言語モデルとしてn−gramモデルの一つであるバイグラムを用いた場合を想定して説明したが、トライグラムなどを用いたり、他の言語モデルを用いてもよい。   Moreover, although the dictionary creation apparatus 100 of embodiment demonstrated the case where the bigram which is one of the n-gram models was used as a language model, it used a trigram etc., or using another language model. Also good.

11 言語モデル学習データ
12 語彙・言語モデル記憶部(記憶部)
13 音響モデル記憶部(記憶部)
14 音声言語資源記憶部
15 言語スコアテーブル記憶部
21 音声認識部(音声認識手段)
22 正解単語列整列部(正解単語列整列手段)
23 整列部(整列手段)
24 複合語頻度計数部(複合語頻度計数手段)
25 エントロピー計算部(エントロピー計算手段)
26 複合語選択部(複合語選択手段)
27 言語モデル更新部(辞書登録部(辞書登録手段))
100 辞書作成装置
11 Language Model Learning Data 12 Vocabulary / Language Model Storage Unit (Storage Unit)
13 Acoustic model storage unit (storage unit)
14 Spoken language resource storage unit 15 Language score table storage unit 21 Speech recognition unit (speech recognition means)
22 Correct word string alignment unit (correct word string aligning means)
23 Alignment part (alignment means)
24 Compound word frequency counting unit (compound word frequency counting means)
25 Entropy calculation part (entropy calculation means)
26 Compound Word Selection Unit (Compound Word Selection Unit)
27 Language Model Update Unit (Dictionary Registration Unit (Dictionary Registration Unit))
100 dictionary creation device

Claims (4)

音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、
音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、
前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部と、
前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識部と、
前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列部と、
前記整列部で整列された前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数部と、
前記複合語頻度計数部が抽出した複数の前記複合語候補並びに前記整列部で整列された前記正解単語列および前記正解候補単語列を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算部と、
各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択部と、
前記複合語選択部が選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録部と、
を備えることを特徴とする辞書作成装置。
A dictionary creation device for registering a compound word used for speech recognition in a dictionary as a new vocabulary,
A spoken language resource storage unit in which a voice and a correct word string obtained by characterizing the voice without error are stored;
A storage unit storing the dictionary, a statistical language model indicating a degree of connection between words in the speech, and a statistical acoustic model indicating a relationship between the words in the speech and a waveform pattern;
A speech recognition unit that recognizes the speech using the statistical language model and the statistical acoustic model, and generates a correct candidate word string indicating a word string of a correct answer candidate of the speech;
An alignment unit for aligning the correct word string and the correct candidate word string in accordance with an utterance time;
The frequency of each pair of words included in the correct word string and the correct candidate word string aligned by the aligning unit is counted, and the pair of words is stored in the dictionary according to the counted frequency. A compound word frequency counting unit that extracts a plurality of compound word candidates of the compound word to be registered;
In the case where each compound word candidate is defined as the compound word using the plurality of compound word candidates extracted by the compound word frequency counting unit and the correct word string and the correct candidate word string aligned in the aligning unit . An entropy calculating unit that calculates an entropy indicating that the speech recognition is difficult as the value is higher, an index indicating difficulty of speech recognition of the speech;
A compound word selection unit that selects a compound word candidate that reduces the entropy most when each compound word candidate is the compound word;
A dictionary registration unit for registering the compound word candidate selected by the compound word selection unit as a new vocabulary of the dictionary;
A dictionary creation device comprising:
前記エントロピー計算部は、
前記統計的言語モデルにより得られる言語スコアと前記統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する、
ことを特徴とする請求項1に記載の辞書作成装置。
The entropy calculator is
Calculating the entropy using a language score obtained by the statistical language model and an acoustic score obtained by the statistical acoustic model;
The dictionary creation device according to claim 1.
前記音声言語資源記憶部は、放送音声およびその正解単語列を逐次的に蓄積し、
前記辞書登録部は、複合語を新たな語彙として漸次登録する、
ことを特徴とする請求項1または請求項2に記載の辞書作成装置。
The spoken language resource storage unit sequentially accumulates broadcast voice and its correct word string,
The dictionary registration unit gradually registers a compound word as a new vocabulary.
The dictionary creation device according to claim 1 or claim 2, wherein
音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、
前記コンピュータは、
音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部とを有し、
前記コンピュータを、
前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識手段と、
前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列手段と、
整列された前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数手段と、
抽出した複数の前記複合語候補並びに整列された前記正解単語列および前記正解候補単語列を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算手段と、
各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択手段と、
前記選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録手段として機能させるための辞書作成プログラム。
A dictionary creation program that causes a computer to function as a dictionary creation device that registers a compound word used for speech recognition in a dictionary as a new vocabulary,
The computer
A spoken language resource storage unit in which speech and correct word strings obtained by characterizing the speech without error are stored; the dictionary; a statistical language model indicating the degree of connection between words in the speech; and the words in the speech And a storage unit storing a statistical acoustic model indicating the relationship between the waveform pattern and
The computer,
Speech recognition means for recognizing the speech using the statistical language model and the statistical acoustic model, and generating a correct candidate word string indicating a word string of a correct candidate for the speech;
An alignment means for aligning the correct word string and the correct candidate word string in accordance with an utterance time;
A compound word that counts the frequency of each pair of words included in the aligned correct word string and the correct candidate word string and registers the word pair in the dictionary according to the counted frequency Compound word frequency counting means for extracting as a plurality of compound word candidates,
An index indicating difficulty in speech recognition of the speech when each compound word candidate is the compound word using the extracted plurality of compound word candidates and the aligned correct word strings and the correct candidate word strings. Entropy calculating means for calculating entropy indicating that speech recognition is more difficult as the value is higher,
Compound word selection means for selecting a compound word candidate that reduces the entropy most when each compound word candidate is the compound word;
A dictionary creation program for causing the selected compound word candidate to function as dictionary registration means for registering as a new vocabulary of the dictionary.
JP2013098856A 2013-05-08 2013-05-08 Dictionary creation apparatus and dictionary creation program Expired - Fee Related JP6276516B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013098856A JP6276516B2 (en) 2013-05-08 2013-05-08 Dictionary creation apparatus and dictionary creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013098856A JP6276516B2 (en) 2013-05-08 2013-05-08 Dictionary creation apparatus and dictionary creation program

Publications (2)

Publication Number Publication Date
JP2014219569A JP2014219569A (en) 2014-11-20
JP6276516B2 true JP6276516B2 (en) 2018-02-07

Family

ID=51938042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013098856A Expired - Fee Related JP6276516B2 (en) 2013-05-08 2013-05-08 Dictionary creation apparatus and dictionary creation program

Country Status (1)

Country Link
JP (1) JP6276516B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134767B (en) * 2019-05-10 2021-07-23 云知声(上海)智能科技有限公司 Screening method of vocabulary
JP7512288B2 (en) 2019-08-06 2024-07-08 株式会社Nttドコモ Word Weight Calculation System

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP4758758B2 (en) * 2005-12-26 2011-08-31 日本放送協会 Dictionary creation device and dictionary creation program
JP4796460B2 (en) * 2006-09-05 2011-10-19 日本放送協会 Speech recognition apparatus and speech recognition program
JP4758919B2 (en) * 2007-01-22 2011-08-31 日本放送協会 Speech recognition apparatus and speech recognition program
JP4897737B2 (en) * 2008-05-12 2012-03-14 日本電信電話株式会社 Word addition device, word addition method, and program thereof
JP2011154061A (en) * 2010-01-26 2011-08-11 Nec Corp Dictionary creating device, computer program and data processing method therefor
JP5276610B2 (en) * 2010-02-05 2013-08-28 日本放送協会 Language model generation apparatus, program thereof, and speech recognition system

Also Published As

Publication number Publication date
JP2014219569A (en) 2014-11-20

Similar Documents

Publication Publication Date Title
Mangu et al. Finding consensus in speech recognition: word error minimization and other applications of confusion networks
Schuster et al. Japanese and korean voice search
US8185376B2 (en) Identifying language origin of words
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
US8126714B2 (en) Voice search device
JP4968036B2 (en) Prosodic word grouping method and apparatus
JPWO2007097176A1 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
JP2001092496A (en) Continuous speech recognition device and recording medium
KR20230156125A (en) Lookup table recursive language model
JP4764203B2 (en) Speech recognition apparatus and speech recognition program
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
JP6276516B2 (en) Dictionary creation apparatus and dictionary creation program
Navratil Recent advances in phonotactic language recognition using binary-decision trees.
CN100431003C (en) A Speech Decoding Method Based on Confusion Network
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Hwang et al. Building a highly accurate Mandarin speech recognizer
US6772116B2 (en) Method of decoding telegraphic speech
JP4758758B2 (en) Dictionary creation device and dictionary creation program
JP5124012B2 (en) Speech recognition apparatus and speech recognition program
JP2006107353A (en) Information processor, information processing method, recording medium and program
Fu et al. Automatic speech recognition based on non-uniform error criteria
JP4674609B2 (en) Information processing apparatus and method, program, and recording medium
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
JP2000075885A (en) Voice recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180112

R150 Certificate of patent or registration of utility model

Ref document number: 6276516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees