JPH0981178A - Unspecified speaker model generating device and voice recognition device - Google Patents
Unspecified speaker model generating device and voice recognition deviceInfo
- Publication number
- JPH0981178A JPH0981178A JP7239821A JP23982195A JPH0981178A JP H0981178 A JPH0981178 A JP H0981178A JP 7239821 A JP7239821 A JP 7239821A JP 23982195 A JP23982195 A JP 23982195A JP H0981178 A JPH0981178 A JP H0981178A
- Authority
- JP
- Japan
- Prior art keywords
- model
- state
- hidden markov
- speakers
- gaussian distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims abstract description 109
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 11
- 238000002156 mixing Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 53
- 239000000203 mixture Substances 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 235000010654 Melissa officinalis Nutrition 0.000 description 3
- 239000000865 liniment Substances 0.000 description 3
- 241000021559 Dicerandra Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 244000062730 Melissa officinalis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、複数の特定話者の
隠れマルコフモデルに基づいて、不特定話者の隠れマル
コフモデル(以下、HMMという。)を作成する不特定
話者モデル作成装置、及びその不特定話者モデル作成装
置を用いた音声認識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device for creating an unspecified speaker model, which creates a hidden Markov model for an unspecified speaker (hereinafter referred to as an HMM) based on hidden Markov models for a plurality of specified speakers. And a speech recognition device using the unspecified speaker model creation device.
【0002】[0002]
【従来の技術】従来、学習用の特定話者モデルに基づい
て不特定話者のHMMを作成するために、バーム・ウェ
ルチ(Baum−Welch)の学習アルゴリズム(以
下、第1の従来例という。)が広く用いられている(例
えば、中川聖一著,“確率モデルによる音声認識”,p
p.55−64,電子情報通信学会,昭和63年7月発
行参照。)。この第1の従来例では、HMMにおいて時
刻1から時刻tまでの間部分観測列{y1,y2,y3,
…,yt}を観測した後、時刻tには状態iにいる前向
き確率と、時刻tに状態iにいて時刻t+1から最後ま
での部分観測列{yt+1,yt+2,yt+3,…,yr}を観
測する後向き確率とを用いて、HMMのパラメータを再
推定して学習することにより、不特定話者のHMMを作
成する。2. Description of the Related Art Conventionally, a Baum-Welch learning algorithm (hereinafter referred to as a first conventional example) for creating an HMM of an unspecified speaker based on a specific speaker model for learning. ) Is widely used (for example, Seiichi Nakagawa, “Speech recognition by probabilistic model”, p.
p. 55-64, Institute of Electronics, Information and Communication Engineers, published in July 1988. ). In the first conventional example, the partial observation sequence {y 1 , y 2 , y 3 , between the time 1 and the time t in the HMM is used.
, Y t } after observation, the forward probability of being in state i at time t, and the partial observation sequence {y t + 1 , y t + 2 , y from time t + 1 to the end at state t at time t The backward probability of observing t + 3 , ..., Y r } is used to re-estimate and learn the parameters of the HMM to create the HMM of the unspecified speaker.
【0003】上記第1の従来例の方法を用いて、多様な
話者の音声の音響的特徴量の変動に対応するために多数
話者の音声データでモデルを学習することが望ましく学
習データが多量になる傾向があり、多数の話者による多
量の音声データでモデルを学習することが望ましい。し
かしながら、このような多量のデータを取り扱う場合、
その膨大な計算量はコンピューターの処理速度が高速化
しつつある現在においても問題となっている。Using the method of the first conventional example, it is desirable to learn a model with voice data of a large number of speakers in order to cope with variations in acoustic feature amounts of voices of various speakers. It tends to be large, and it is desirable to learn the model with a large amount of voice data by a large number of speakers. However, when dealing with such a large amount of data,
The enormous amount of calculation is a problem even now, as the processing speed of computers is increasing.
【0004】このような不特定話者モデルの計算量を削
減するために、既に小坂らによって特定話者モデルによ
る話者クラスタリングとモデル合成によるCCL法(以
下、第2の従来例という。)が提案されている(従来文
献2「小坂ほか,“クラスタリング手法を用いた不特定
話者モデル作成法”,日本音響学会論文集,1−R−1
2,1994年11月」参照。)。この第2の従来例の
方法では、各話者の音声の音響的特徴の類似性がすべて
の音響空間で等しいという仮定のもとに、すべての音韻
にわたるモデルセット全体を単位としてクラスタリング
を行っている。具体的には、十分に学習された特定話者
モデルをモデル間の距離を定義することによってクラス
タリングした後、各特定話者モデルを合成することによ
り不特定話者モデルを作成している。In order to reduce the calculation amount of such an unspecified speaker model, the CCL method (hereinafter referred to as a second conventional example) by speaker clustering and model synthesis by the specific speaker model has already been used by Kosaka et al. Proposed (Conventional document 2 "Kosaka et al.," Independent speaker model creation method using clustering method ", Proceedings of Acoustical Society of Japan, 1-R-1
2, November 1994 ”. ). In the method of the second conventional example, clustering is performed with the entire model set covering all phonemes as a unit under the assumption that the acoustic characteristics of the voices of the speakers are similar in all acoustic spaces. There is. Specifically, a well-trained specific speaker model is clustered by defining the distance between the models, and then each specific speaker model is synthesized to create an unspecified speaker model.
【0005】[0005]
【発明が解決しようとする課題】第2の従来例の方法で
は、少ない計算量で不特定話者モデルを作成することが
可能であるが、特定話者モデルのすべてのパラメータが
十分学習されていない場合には性能のよいモデルが得ら
れないため各話者に対して多くの発声データが必要とな
る。また、HMMの全ての状態において混合出力ガウス
分布の混合数が必ず同じになり、話者による特徴量のバ
ラツキの少ない状態に対して無駄なパラメータが増える
という問題があった。In the method of the second conventional example, it is possible to create an unspecified speaker model with a small amount of calculation, but all parameters of the specified speaker model are sufficiently learned. If there is no such model, a good model cannot be obtained, and a large amount of vocal data is required for each speaker. Further, the number of mixed output Gaussian distributions is always the same in all the states of the HMM, and there is a problem that unnecessary parameters increase in a state where there is little variation in the feature amount depending on the speaker.
【0006】本発明の第1の目的は以上の問題点を解決
し、各特定話者モデルのすべてのパラメータが学習され
ている必要がなく、また話者毎に学習されているパラメ
ータが異なっている場合においても不特定話者モデルを
作成でき、しかも処理装置のメモリ容量が少なくてす
み、その計算時間を短縮することができる不特定話者モ
デル作成装置を提供することにある。また、本発明の第
2の目的は、上記第1の目的に加えて、作成された不特
定話者モデルを用いて音声認識することができ、従来例
に比較して音声認識率を改善することができる音声認識
装置を提供することにある。The first object of the present invention is to solve the above problems and it is not necessary for all the parameters of each specific speaker model to be learned, and the parameters learned for each speaker are different. It is an object of the present invention to provide an unspecified speaker model creation device that can create an unspecified speaker model even when the above is present, and that requires less memory capacity of the processing device and shortens the calculation time. A second object of the present invention is, in addition to the above first object, that speech recognition can be performed using the created unspecified speaker model, and the speech recognition rate is improved compared to the conventional example. It is to provide a voice recognition device that can perform.
【0007】[0007]
【課題を解決するための手段】本発明に係る請求項1記
載の不特定話者モデル作成装置は、入力された複数の特
定話者の単一ガウス分布の隠れマルコフモデルに基づい
て、不特定話者の混合ガウス分布の隠れマルコフモデル
を作成する不特定話者モデル作成装置において、入力さ
れた複数の特定話者の単一ガウス分布の隠れマルコフモ
デルの各状態の出力ガウス分布を各状態ごとに独立にク
ラスタリングして合成することにより不特定話者の混合
ガウス分布の隠れマルコフモデルを作成するモデル作成
手段を備えたことを特徴とする。According to a first aspect of the present invention, there is provided a device for creating a speaker-independent model according to claim 1, which is based on a hidden Gaussian Markov model of a single Gaussian distribution of a plurality of specified speakers. In an unspecified speaker model creating device that creates a hidden Markov model of a mixed Gaussian distribution of speakers, the output Gaussian distribution of each state of the input hidden Markov model of a single Gaussian of a plurality of specific speakers is input for each state. It is characterized by comprising a model creating means for creating a hidden Markov model of a mixed Gaussian distribution of an unspecified speaker by independently clustering and synthesizing.
【0008】また、請求項2記載の不特定話者モデル作
成装置は、請求項1記載の不特定話者モデル作成装置に
おいて、上記モデル作成手段は、入力された複数の特定
話者の発声音声データに基づいて、複数の話者に対して
同一の初期話者隠れマルコフモデルを用いて所定の学習
法により上記発声音声データの存在する状態に対しての
み出力ガウス分布を学習することにより、複数個の特定
話者用単一ガウス分布の隠れマルコフモデルを作成する
学習手段と、上記学習手段によって作成された複数個の
特定話者用単一ガウス分布の隠れマルコフモデルに基づ
いて、各出力ガウス分布間の距離を基準にして、各クラ
スタにより短い距離に出力ガウス分布が含まれるように
複数のクラスタにクラスタリングを行うクラスタリング
手段と、上記クラスタリング手段によって各状態毎にク
ラスタリングされた単一ガウス分布の隠れマルコフモデ
ルに基づいて、各クラスタ内の複数の出力ガウス分布の
隠れマルコフモデルを各状態の単一ガウス分布の隠れマ
ルコフモデルに合成する合成手段と、上記合成手段によ
って合成された各状態の単一ガウス分布の隠れマルコフ
モデルを混合することにより、不特定話者の混合ガウス
分布の隠れマルコフモデルを作成する混合手段とを備え
たことを特徴とする。The unspecified speaker model creating device according to claim 2 is the unspecified speaker model creating device according to claim 1, wherein the model creating means inputs the uttered voices of the specified speakers. Based on the data, by learning the output Gaussian distribution only for the state in which the uttered voice data exists by a predetermined learning method using the same initial speaker hidden Markov model for a plurality of speakers, Each output Gaussian based on the learning means for creating a single hidden Gaussian Markov model for a specific speaker and the plurality of hidden Gaussian hidden Markov models for a specific speaker created by the learning means Clustering means for performing clustering on a plurality of clusters so that the output Gaussian distribution is included in a shorter distance for each cluster based on the distance between the distributions; The hidden Markov model with multiple output Gaussian distributions in each cluster is synthesized into the hidden Markov model with single Gaussian distribution in each cluster, based on the hidden Markov model with single Gaussian distribution clustered for each state by the Tulling means. A synthesizing means and a synthesizing means for creating a hidden Markov model of a mixed Gaussian distribution of an unspecified speaker by mixing the hidden Markov models of the single Gaussian distributions of the respective states synthesized by the synthesizing means. Is characterized by.
【0009】さらに、請求項3記載の不特定話者モデル
作成装置は、請求項2記載の不特定話者モデル作成装置
において、上記クラスタリング手段は、各状態毎に予め
設定したしきい値以上のデータ量で学習された出力ガウ
ス分布のみを取り出した後、クラスタリングすることを
特徴とする。Further, the speaker-independent speaker model creating apparatus according to claim 3 is the speaker-independent speaker model creating apparatus according to claim 2, wherein the clustering means is equal to or more than a threshold value set in advance for each state. It is characterized in that only the output Gaussian distribution learned with the data amount is extracted and then clustered.
【0010】またさらに、請求項4記載の不特定話者モ
デル作成装置は、請求項2又は3記載の不特定話者モデ
ル作成装置において、上記クラスタリング手段は、各状
態においてクラスタリングされた各クラスタの中心と各
出力ガウス分布間の距離の平均値が予め決めた距離以下
になるまでクラスタリングを繰り返すことにより、各状
態における各出力ガウス分布のバラツキが大きいほどク
ラスタ数が多くなるように各状態におけるクラスタ数を
決定することを特徴とする。Still further, in the speaker-independent speaker model producing apparatus according to claim 4, in the speaker-independent speaker model producing apparatus according to claim 2 or 3, the clustering means is provided for each cluster clustered in each state. By repeating the clustering until the average value of the distance between the center and each output Gaussian distribution becomes less than or equal to the predetermined distance, the clusters in each state are increased so that the larger the variation of each output Gaussian distribution in each state is, the larger the number of clusters becomes. Characterized by determining the number.
【0011】また、本発明に係る請求項5記載の音声認
識装置は、入力された複数の特定話者の単一ガウス分布
の隠れマルコフモデルに基づいて、不特定話者の混合ガ
ウス分布の隠れマルコフモデルを作成する請求項1乃至
4のうちの1つに記載の不特定話者モデル作成装置と、
入力された発声音声文の音声信号に基づいて、上記不特
定話者モデル作成装置によって作成された不特定話者の
混合分布の隠れマルコフモデルを用いて、音声認識する
音声認識手段とを備えたことを特徴とする。According to a fifth aspect of the speech recognition apparatus of the present invention, based on the input hidden Gaussian Markov model of a plurality of specific speakers, a hidden Gaussian mixture of unspecified speakers is hidden. An unspecified speaker model creation device according to any one of claims 1 to 4, which creates a Markov model,
Based on the voice signal of the input uttered voice sentence, using a hidden Markov model of the mixture distribution of the unspecified speakers created by the above-described unspecified speaker model creating device, a voice recognition means for recognizing the voice is provided. It is characterized by
【0012】[0012]
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である音声認識装置のブロック図である。本実
施形態の音声認識装置は、特に、特定話者の発声音声デ
ータ30のメモリに格納された複数N人の特定話者の発
声音声データに基づいて公知の最尤推定法を用いてデー
タの存在する状態に対してのみ出力ガウス分布を学習
し、上記特定話者モデルの中から学習された出力ガウス
分布のパラメータのみを取り出しHMMの対応する状態
毎にクラスタリングを行った後合成及び混合を行って混
合ガウス分布の隠れマルコフ網(以下、HM網とい
う。)を作成し、作成したHM網をHM網11のメモリ
に格納する不特定話者モデル作成部31を備え、HM網
11のメモリに格納されたHM網を参照して音声認識を
行うことを特徴とする。DETAILED DESCRIPTION OF THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a voice recognition device according to an embodiment of the present invention. The speech recognition apparatus according to the present embodiment uses, in particular, a known maximum likelihood estimation method based on the uttered voice data of a plurality of N specified speakers stored in the memory of the uttered voice data 30 of the specified speaker. The output Gaussian distribution is learned only for existing states, only the parameters of the output Gaussian distribution learned from the specific speaker model are taken out, clustering is performed for each corresponding state of the HMM, and then synthesis and mixing are performed. A hidden Markov network (hereinafter referred to as an HM network) having a mixed Gaussian distribution is created by using the unspecified speaker model creating unit 31 that stores the created HM network in the memory of the HM network 11. It is characterized in that the voice recognition is performed by referring to the stored HM network.
【0013】この音声認識装置は、マイクロホン1と、
特徴抽出部2と、バッファメモリ3と、音素照合部4
と、文脈自由文法データベース20のメモリに格納され
た所定の文脈自由文法に基づいて作成された、メモリに
格納されたLRテーブル13のメモリを参照して音声認
識処理を実行する音素コンテキスト依存型LRパーザ
(以下、LRパーザという。)5とを備える。This voice recognition device comprises a microphone 1 and
Feature extraction unit 2, buffer memory 3, phoneme matching unit 4
And a phoneme context-dependent LR that executes speech recognition processing by referring to the memory of the LR table 13 stored in the memory, which is created based on a predetermined context-free grammar stored in the memory of the context-free grammar database 20. And a parser (hereinafter referred to as LR parser) 5.
【0014】図2は、不特定話者モデル作成部31によ
って実行される不特定話者モデル作成処理を示すフロー
チャートである。当該作成処理においては、まず、ステ
ップS1において、複数N人の特定話者の発声音声デー
タに基づいて、当該発声音声データの特徴パラメータを
抽出し、抽出した特徴パラメータに基づいて、複数N人
の全ての話者に対して同一のHM網である初期話者モデ
ル(各状態1混合)を用いて公知の最尤推定法によりデ
ータの存在する状態に対してのみ出力ガウス分布の平均
値と分散を学習することにより、N個の特定話者用単一
ガウス分布のHM網を作成する。FIG. 2 is a flowchart showing an unspecified speaker model creating process executed by the unspecified speaker model creating unit 31. In the creation process, first, in step S1, the characteristic parameters of the uttered voice data are extracted based on the uttered voice data of a plurality of N specific speakers, and based on the extracted characteristic parameters, Mean value and variance of output Gaussian distribution only for states in which data exist by a known maximum likelihood estimation method using an initial speaker model (mixture of states 1) that is the same HM network for all speakers. By learning N, a single Gaussian HM network for N specific speakers is created.
【0015】次いで、ステップ2では、図3に示すよう
に、作成されたN個の特定話者用単一ガウス分布のHM
網に基づいて、各状態毎に予め設定したしきい値以上の
データ量で学習された出力ガウス分布のみを取り出した
後、図4に示すように、出力ガウス分布間の公知のバタ
ーチャ(Bhattacharyya)距離を基準にし
て、各クラスタにより短い距離に出力ガウス分布が含ま
れるように複数のクラスタにクラスタリングを行なう。
ここで、取り出す学習データ量にしきい値を設けたのは
信頼性の低い出力ガウス分布がクラスタリングに悪影響
を及ぼさないようにするためである。これにより、信頼
性の高いHM網11を得ることができ、当該HM網11
を用いて音声認識することにより、従来例に比較して高
い音声認識率で音声認識することができる。また、当該
クラスタリングでは、各状態においてクラスタリングさ
れ各クラスタの中心と各出力ガウス分布間の公知のバタ
ーチャ(Bhattacharyya)距離の平均値が
予め決めた距離以下になるまでクラスタリングを繰り返
すことにより、各状態における各メンバーの出力ガウス
分布のバラツキに応じてクラスタ数Kを決定する。ここ
で、バラツキが大きい場合はクラスタ数Kを比較的多く
設定する一方、バラツキが小さい場合はクラスタ数Kを
比較的少なく設定する。また、上記クラスタ数Kの決定
においては、最大のクラスタ数Kmax及び最小のクラ
スタ数Kminを設定してもよい。さらに、学習データ
量が小さい場合は、好ましくは、クラスタ数Kを小さく
設定する。Next, in step 2, as shown in FIG. 3, the HMs of N single Gaussian distributions for specific speakers are created.
After extracting only the output Gaussian distribution learned with a data amount equal to or more than a preset threshold value for each state based on the network, as shown in FIG. 4, a known buttercha (Bhattacharya) between the output Gaussian distributions is obtained. Based on the distance, clustering is performed on a plurality of clusters so that the output Gaussian distribution is included in a shorter distance for each cluster.
Here, the threshold value is set for the learning data amount to be taken out so that the unreliable output Gaussian distribution does not adversely affect the clustering. As a result, a highly reliable HM network 11 can be obtained, and the HM network 11
By performing voice recognition using, it is possible to perform voice recognition with a higher voice recognition rate than in the conventional example. Further, in the clustering, in each state, clustering is repeated in each state until the average value of known Bhattacharya distances between the center of each cluster and each output Gaussian distribution becomes equal to or less than a predetermined distance. The number of clusters K is determined according to the variation of the output Gaussian distribution of each member. Here, when the variation is large, the number of clusters K is set to be relatively large, while when the variation is small, the number of clusters K is set to be relatively small. In determining the number of clusters K, the maximum number of clusters Kmax and the minimum number of clusters Kmin may be set. Further, when the learning data amount is small, preferably the number of clusters K is set small.
【0016】次いで、ステップS3においては、上記ス
テップS2で各状態ごとにクラスタリングされた結果を
用いて、図5に示すように、クラスタ内の複数の出力ガ
ウス分布を各状態の単一ガウス分布に合成する。合成は
出力ガウス分布の総数、及びクラスタリング結果が各状
態ごとに異なること以外は、従来文献2の方法と同様の
方法で行なった。当該ステップS3の合成方法について
は詳細後述する。さらに、ステップS4においては、各
状態ごとに全てのクラスタの合成された単一ガウス分布
を公知の話者混合法を用いて混合することにより混合ガ
ウス分布のHM網を作成してHM網11のメモリに格納
する。混合比率は各クラスタのメンバーの出力ガウス分
布の学習データ量の総和の比に比例する値とした。すな
わち、各クラスタのメンバーの学習データ量が大きいほ
ど、混合比率を大きく設定する。Next, in step S3, using the results of clustering for each state in step S2, as shown in FIG. 5, a plurality of output Gaussian distributions in the cluster are converted into a single Gaussian distribution in each state. To synthesize. The synthesis was performed by the same method as the method of the conventional document 2 except that the total number of output Gaussian distributions and the clustering result were different for each state. The composition method of step S3 will be described in detail later. Further, in step S4, the combined single Gaussian distributions of all the clusters for each state are mixed using a known speaker mixing method to create an HM network of mixed Gaussian distributions, and the HM network 11 Store in memory. The mixing ratio was set to a value proportional to the ratio of the total learning data amount of the output Gaussian distribution of the members of each cluster. That is, the larger the learning data amount of each cluster member, the larger the mixing ratio is set.
【0017】上記ステップS3において用いられる各ク
ラスタにおける合成後の平均値μhjと分散Shjは、次
の数1及び数2で表される。なお、重み係数wj (i)は次
の数3で表される。The average value μh j and the variance Sh j after combination in each cluster used in step S3 are expressed by the following equations 1 and 2. The weight coefficient w j (i) is expressed by the following equation 3.
【0018】[0018]
【数1】 [Equation 1]
【数2】 [Equation 2]
【数3】 (Equation 3)
【0019】数1と数2はそれぞれ、複数のガウス分布
を単一ガウス分布と見なして求めた場合の平均値、分散
を表す。ここで、μj (i)とSj (i)は自然数i番目のHM
網のの状態jにおける単一ガウス分布である出力確率密
度関数の平均値と分散を表わす。また、nj (i)はi番目
のHM網の状態jにおけるサンプル数を表す。すなわ
ち、数1から明らかなように、合成後の平均値μhjと
分散Shjとはそれぞれ、合成前の平均値μjと分散Sj
を、各状態におけるサンプル数nj (i)に応じてサンプル
数nj (i)が大きいほど大きい重み係数wj (i)で重み付け
されて計算される。Equations 1 and 2 represent the average value and the variance when a plurality of Gaussian distributions are regarded as a single Gaussian distribution. Here, μ j (i) and S j (i) are the natural number i-th HM
It represents the mean and variance of the output probability density function which is a single Gaussian distribution in the state j of the network. Further, n j (i) represents the number of samples in the state j of the i-th HM network. That is, as is clear from Equation 1, the average value μh j and the variance Sh j after the synthesis are respectively the average value μ j and the variance S j before the synthesis.
Is calculated with a larger weighting factor w j (i) as the number of samples n j (i) increases according to the number of samples n j (i) in each state.
【0020】本実施形態においては、音声認識のための
統計的音素モデルセットとしてHM網11を使用してい
る。当該HM網11は効率的に表現された音素環境依存
モデルである。1つのHM網は多数の音素環境依存モデ
ルを包含する。HM網11はガウス分布を含む状態の結
合で構成され、個々の音素環境依存モデル間で状態が共
有される。このためパラメータ推定のためのデータ数が
不足する場合も、頑健なモデルを作成することができ
る。このHM網11は逐次状態分割法(Successive Sta
te Splitting:以下、SSSという。)を用いて自動作
成される。上記SSSではHM網のトポロジーの決定、
異音クラスタの決定、各々の状態におけるガウス分布の
パラメータの推定を同時に行なう。本実施形態において
は、HM網のパラメータとして、ガウス分布で表現され
る出力確率及び遷移確率を有する。このため認識時には
一般のHMMと同様に扱うことができる。In this embodiment, the HM network 11 is used as a statistical phoneme model set for speech recognition. The HM network 11 is a phoneme environment-dependent model that is efficiently expressed. One HM network contains many phoneme environment dependent models. The HM network 11 is composed of a combination of states including a Gaussian distribution, and the states are shared between individual phoneme environment dependent models. Therefore, a robust model can be created even when the number of data for parameter estimation is insufficient. This HM network 11 uses the sequential state division method (Successive Sta
te Splitting: Hereinafter referred to as SSS. ) Is used to automatically create. In the above SSS, determination of the topology of the HM network,
Simultaneous determination of abnormal sound clusters and estimation of parameters of Gaussian distribution in each state. In the present embodiment, the output probability and the transition probability represented by the Gaussian distribution are included as the parameters of the HM network. Therefore, at the time of recognition, it can be handled like a general HMM.
【0021】次いで、上述の本実施形態の音声認識方法
を用いた、SSS−LR(left-to-right rightmost
型)不特定話者連続音声認識装置について説明する。こ
の装置は、メモリに格納されたHM網11と呼ばれる音
素環境依存型の効率のよいHMMの表現形式を用いてい
る。また、上記SSSにおいては、音素の特徴空間上に
割り当てられた確率的定常信号源(状態)の間の確率的
な遷移により音声パラメータの時間的な推移を表現した
確率モデルに対して、尤度最大化の基準に基づいて個々
の状態をコンテキスト方向又は時間方向へ分割するとい
う操作を繰り返すことによって、モデルの精密化を逐次
的に実行する。Next, the SSS-LR (left-to-right right most) using the speech recognition method of this embodiment described above is used.
(Type) An unspecified speaker continuous speech recognition device will be described. This device uses a phoneme environment-dependent efficient HMM representation format called HM network 11 stored in a memory. Further, in the above SSS, the likelihood is compared with the stochastic model in which the temporal transition of the speech parameter is expressed by the stochastic transition between the stochastic stationary signal sources (states) assigned in the phoneme feature space. The model refinement is performed sequentially by repeating the operation of dividing each state in the context direction or the time direction based on the maximization criterion.
【0022】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。In FIG. 1, the vocalized voice of the speaker is input to the microphone 1 and converted into a voice signal, and then input to the feature extraction unit 2. The feature extraction unit 2 performs, for example, LPC analysis after A / D conversion of the input voice signal, and a 34-dimensional feature parameter including logarithmic power, 16th-order cepstrum coefficient, Δ logarithmic power, and 16th-order Δ cepstrum coefficient. To extract. The time series of the extracted characteristic parameters is input to the phoneme matching unit 4 via the buffer memory 3.
【0023】音素照合部4に接続されるメモリ内のHM
網11は、各状態をノードとする複数のネットワークと
して表され、各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラスタ (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率HM in the memory connected to the phoneme collation unit 4
The network 11 is represented as a plurality of networks in which each state is a node, and each state has the following information. (A) State number (b) Acceptable context cluster (c) List of preceding states and succeeding states (d) Parameter of output probability density distribution (e) Probability of self-transition and transition to subsequent states
【0024】音素照合部4は、音素コンテキスト依存型
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、不特定話者モデルを用いて音素照
合区間内のデータに対する尤度が計算され、この尤度の
値が音素照合スコアとしてLRパーザ5に返される。こ
のときに用いられるモデルは、HMMと等価であるため
に、尤度の計算には通常のHMMで用いられている前向
きパスアルゴリズムをそのまま使用する。The phoneme matching unit 4 executes a phoneme matching process in response to a phoneme matching request from the phoneme context dependent LR parser 5. Then, the likelihood for the data in the phoneme matching section is calculated using the unspecified speaker model, and the value of this likelihood is returned to the LR parser 5 as a phoneme matching score. Since the model used at this time is equivalent to the HMM, the forward path algorithm used in the normal HMM is used as it is for the calculation of the likelihood.
【0025】一方、メモリ内の所定の文脈自由文法(C
FG)データベース20を公知の通り自動的に変換して
LRテーブルを作成してLRテーブル13のメモリに格
納される。LRパーザ5は、上記LRテーブル13を参
照して、入力された音素予測データについて左から右方
向に、後戻りなしに処理する。構文的にあいまいさがあ
る場合は、スタックを分割してすべての候補の解析が平
行して処理される。LRパーザ5は、LRテーブル13
から次にくる音素を予測して音素予測データを音素照合
部4に出力する。これに応答して、音素照合部4は、そ
の音素に対応するHM網11内の情報を参照して照合
し、その尤度を音声認識スコアとしてLRパーザ5に戻
し、順次音素を連接していくことにより、連続音声の認
識を行い、その音声認識結果データを出力する。上記連
続音声の認識において、複数の音素が予測された場合
は、これらすべての存在をチェックし、ビームサーチの
方法により、部分的な音声認識の尤度の高い部分木を残
すという枝刈りを行って高速処理を実現する。On the other hand, a predetermined context-free grammar (C
The FG) database 20 is automatically converted as known to create an LR table and stored in the memory of the LR table 13. The LR parser 5 refers to the LR table 13 and processes the input phoneme prediction data from left to right without backtracking. In the case of syntactic ambiguity, the stack is split and parsing of all candidates is processed in parallel. The LR parser 5 has an LR table 13
The next phoneme is predicted and the phoneme prediction data is output to the phoneme matching unit 4. In response to this, the phoneme collation unit 4 collates by referring to the information in the HM network 11 corresponding to the phoneme, returns the likelihood to the LR parser 5 as a speech recognition score, and sequentially connects the phonemes. As a result, the continuous voice is recognized, and the voice recognition result data is output. When a plurality of phonemes are predicted in the continuous speech recognition, the existence of all of them is checked, and a pruning is performed by using a beam search method to leave a partial tree having a high likelihood of partial speech recognition. To achieve high-speed processing.
【0026】以上の実施形態において、特定話者の発声
音声データ30と、HM網11と、LRテーブル13
と、文脈自由文法データベース20とはそれぞれ、例え
ばハードディスクメモリに格納される。また、音素照合
部4とLRパーザ5と不特定話者モデル作成部31は例
えばデジタル電子計算機によって構成される。In the above embodiment, the voice data 30 of the specific speaker, the HM network 11, and the LR table 13 are used.
And the context-free grammar database 20 are stored in, for example, a hard disk memory. The phoneme collation unit 4, the LR parser 5, and the unspecified speaker model creation unit 31 are composed of, for example, a digital computer.
【0027】以上の実施形態においては、図2の不特定
話者モデル作成処理によって不特定話者モデルを作成し
ているが、当該作成処理によって作成されたHM網に対
して公知のバーム・ウェルチの学習アルゴリズムを用い
て再学習して、HM網を作成してもよい。In the above embodiment, the unspecified speaker model is created by the unspecified speaker model creating process of FIG. 2. However, the known balm welch for the HM network created by the creating process is used. The learning algorithm may be used to re-learn to create an HM network.
【0028】[0028]
【実施例】本発明者は、図1の音声認識装置の有効性を
確かめるために、以下の通り実験を行った。当該実験に
は、コンテキスト依存型の音素HMMの状態を効果的に
共有したHM網(例えば、従来文献3「鷹見ほか,“音
素コンテキストと時間に関する逐次状態分割による隠れ
マルコフ網の自動生成”,電子通信情報学会技術研究報
告,SP91−88,1991年12月」参照。)を使
用した。HM網の構造は1人の話者の発声した2620
単語の音声データを用いて決定し、総状態数200、及
び600の2種類のモデルを作成した。各モデルには1
状態10混合の無音モデルを付加した。特定話者モデル
学習用の初期話者モデルは無音モデルを除き各状態とも
単一分布としパラメータの初期値は構造決定と同じ音声
データで決定した。この初期話者モデルをもとに、本特
許出願人が所有する、トラベル・プランニングをタスク
とした自然発話の音声認識データベース(例えば、従来
文献4「T.Morimoto et al.,“A
Speech andLanguage Databa
se for Speech Translation
Research”,Proc.of ICSLP’
94,pp.1791−1794,1994年」参照)
の中の男性81名の自然発話データを用いて最尤推定法
により出力ガウス分布の平均値と分散を学習することに
より81名分の特定話者モデルを作成した。但し、1人
あたりのデータ量が20発話程度と少ないため、分散は
初期パラメータより値が大きくなる場合のみ更新した。
なお、今回は男性話者のみを用いて不特性話者モデルの
作成、及び認識実験を行なった。認識実験は学習に用い
たものと同じ自然発話データベースより選択した学習デ
ータに含まれない男性9人に対して行なった。EXAMPLE The present inventor conducted an experiment as described below in order to confirm the effectiveness of the speech recognition apparatus of FIG. In the experiment, an HM network that effectively shares the state of a context-dependent phoneme HMM (see, for example, Document 3 “Takami et al.,“ Automatic Generation of Hidden Markov Network by Sequential State Division with respect to Phoneme Context and Time ”], Electronic See IEICE Technical Report, SP91-88, December 1991.). The structure of HM network is 2620 uttered by one speaker.
Two types of models with total state numbers of 200 and 600 were created by making decisions using word voice data. 1 for each model
A silent model of state 10 mix was added. The initial speaker model for learning the specific speaker model was a single distribution in each state except for the silent model, and the initial values of the parameters were determined with the same speech data as the structure determination. Based on this initial speaker model, a speech recognition database of the spontaneous utterance owned by the applicant of the present patent and having a task of travel planning (see, for example, conventional document 4 “T. Morimoto et al.,“ A ”).
Speech and Language Database
se for Speech Translation
Research ”, Proc. Of ICSLP '
94, pp. 1791-1794, 1994 '').
The specific speaker model for 81 persons was created by learning the average value and variance of the output Gaussian distribution by the maximum likelihood estimation method using natural speech data of 81 males in the above. However, since the amount of data per person is as small as about 20 utterances, the variance is updated only when the value is larger than the initial parameter.
This time, we made an uncharacteristic speaker model and conducted a recognition experiment using only male speakers. The recognition experiment was performed on 9 men who were not included in the learning data selected from the same natural speech database as that used for learning.
【0029】不特定話者モデルはHM網全体を単位とし
たモデルベースのクラスタリングを用いた第2の従来例
のCCL法と本発明に係るHMMの状態別クラスタリン
グの結果を用いる方法により作成し両者の性能を音素認
識実験により比較した。ただし、本発明に係る状態別ク
ラスタリングによる方法では特定話者モデルの各状態の
出力ガウス分布の内、学習時の状態占有データ量が10
フレーム以上のもののみを使用した。さらに、状態別ク
ラスタリングによって作成したモデルを初期モデルとし
てバーム・ウェルチの学習アルゴリズムによって再学習
したモデルの認識率との比較も行なった。またさらに、
本発明に係る状態別クラスタリングによる方法でHMM
を作成した後、バーム・ウェルチの学習アルゴリズムに
よって再学習したモデルの認識率についても実験を行っ
た。ここで、実験条件である、分析条件、使用パラメー
タ、学習/認識データを表1に示す。The unspecified speaker model is created by the CCL method of the second conventional example using model-based clustering with the entire HM network as a unit and the method using the result of HMM state-based clustering according to the present invention. We compared the performance of the two by phoneme recognition experiments. However, in the state-based clustering method according to the present invention, the state occupancy data amount at the time of learning is 10 out of the output Gaussian distribution of each state of the specific speaker model.
Only more than the frame was used. Furthermore, we also compared the recognition rate of the model retrained by the learning algorithm of Balm-Welch with the model created by state clustering as the initial model. In addition,
The HMM according to the clustering method according to the present invention
After creating, we also conducted an experiment on the recognition rate of the model retrained by the learning algorithm of Balm Welch. Table 1 shows the analysis conditions, the use parameters, and the learning / recognition data, which are the experimental conditions.
【0030】[0030]
【表1】 実験条件 ───────────────────────────────── 分析条件 サンプリング周波数=12KHz ハミング窓=20ms フレーム周期=5ms ───────────────────────────────── 使用パラメータ 16次LPCケプストラム+16次Δケプストラム +対数パワー+Δ対数パワー ───────────────────────────────── 学習データ 男性81名−−各話者1会話(合計1799発声) ───────────────────────────────── 不特定話者モデル評価データ 男性9名−−各話者1会話(11〜29発声) ─────────────────────────────────[Table 1] Experimental conditions ───────────────────────────────── Analysis conditions Sampling frequency = 12 KHz Hamming window = 20 ms Frame Cycle = 5ms ───────────────────────────────── Used parameter 16th-order LPC cepstrum + 16th-order Δ cepstrum + logarithmic power + Δ Logarithmic power ───────────────────────────────── Learning data 81 males --- 1 conversation for each speaker (total 1799) Utterance) ───────────────────────────────── Unspecified speaker model evaluation data 9 males − − each speaker 1 conversation (11 to 29 vocalizations) ─────────────────────────────────
【0031】表2及び表3に、第2の従来例のCCL法
(以下、表においてモデルクラスタリングと略す。)及
び、本発明に係る状態別クラスタリングによる方法(以
下、表において、状態別クラスタリングと略す。)で作
成した各状態、混合数のHM網に含まれる出力ガウス分
布の総数を示す。第2の従来例のCCL法による場合は
無音モデルを除き全ての状態に対して混合分布数が等し
くなるが、本発明に係る状態別クラスタリングによる場
合は各状態に対して特定話者モデルから抽出された10
フレーム以上のデータで学習された出力ガウス分布数が
設定した混合数より少ない場合には抽出された分布数が
その状態の混合分布数となるためモデルベースのクラス
タリングによる場合より総分布数が少なくなっている。
但し、今回は各状態における抽出した出力ガウス分布の
平均値のばらつきの度合は混合数の決定において考慮し
ていない。このように音素バランスを考慮した音声デー
タの収集が困難な自由発話音声データベースを用いた場
合には各状態ごとに混合分布数を設計することにより不
要なパラメータの増加を防ぐことができる可能性がある
ことがわかる。Tables 2 and 3 show the CCL method of the second conventional example (hereinafter abbreviated as model clustering in the table) and the method by state-based clustering according to the present invention (hereinafter, state-based clustering in the table). The total number of output Gaussian distributions included in the HM network of each state and mixture number created in (1) is shown. In the case of the CCL method of the second conventional example, the number of mixture distributions is the same for all states except for the silent model, but in the case of state-based clustering according to the present invention, each state is extracted from the specific speaker model. Was done 10
If the number of output Gaussian distributions learned with data over a frame is less than the set number of mixed distributions, the number of extracted distributions will be the number of mixed distributions in that state, so the total number of distributions will be smaller than that with model-based clustering ing.
However, this time, the degree of variation in the average value of the extracted output Gaussian distribution in each state is not considered in the determination of the number of mixtures. In this way, when using a free-speech speech database in which it is difficult to collect speech data considering phoneme balance, it is possible to prevent unnecessary parameter increase by designing the number of mixture distributions for each state. I know there is.
【0032】[0032]
【表2】 不特定話者モデルの総分布数−201状態のHM網の場合 ─────────────────────────────────── 作成法/混合数 5 10 15 20 ─────────────────────────────────── モデルクラスタリング 1010 2010 3010 4010 ─────────────────────────────────── 状態別クラスタリング 979 1903 2798 3678 ───────────────────────────────────[Table 2] Total number of distributions of unspecified speaker model-In case of HM network in 201 state ────────────────────────────── ────── Preparation method / mixture number 5 10 15 20 ──────────────────────────────────── Model clustering 1010 2010 3010 4010 ─────────────────────────────────── State clustering 979 1903 2798 3678 ── ──────────────────────────────────
【0033】[0033]
【表3】 不特定話者モデルの総分布数−601状態のHM網の場合 ─────────────────────────────────── 作成法/混合数 3 5 10 15 ─────────────────────────────────── モデルクラスタリング 1810 3010 6010 9010 ─────────────────────────────────── 状態別クラスタリング 1617 2540 4614 6447 ───────────────────────────────────[Table 3] Total number of distributions of unspecified speaker model-601 state HM network ────────────────────────────── ────── Preparation method / mixture number 3 5 10 15 ───────────────────────────────────── Model clustering 1810 3010 6010 9010 ──────────────────────────────────── Clustering by state 1617 2540 4614 6447 ── ──────────────────────────────────
【0034】表4及び表5は各方法により作成した不特
定話者モデルを用いた音素認識実験の結果である。表中
の結果は男性9人に対する平均値を示している。Tables 4 and 5 show the results of the phoneme recognition experiment using the unspecified speaker model created by each method. The results in the table show average values for 9 men.
【0035】[0035]
【表4】 モデル作成法による音素認識率(%)の比較−201状態のHM網の場合 ─────────────────────────────────── 作成法/混合数 5 10 15 20 ─────────────────────────────────── バーム・ウェルチ 65.9 66.8 − − ─────────────────────────────────── モデルクラスタリング 62.2 62.5 63.3 63.2 ─────────────────────────────────── 状態別クラスタリング 63.6 64.1 64.0 64.5 ─────────────────────────────────── 状態別クラスタリング 68.0 68.6 − − +バーム・ウェルチ ───────────────────────────────────[Table 4] Comparison of phoneme recognition rates (%) by the model creation method-In the case of HM network in 201 state ─────────────────────────── ───────── Preparation method / mixture number 5 10 15 20 ──────────────────────────────── ─── Balm Welch 65.9 66.8 − − ──────────────────────────────────── Model Clustering 62.2 62.5 63.3 63.2 ─────────────────────────────────── By status Clustering 63.6 64.1 64.0 64.5 ─────────────────────────────────── By status Clustering 68.0 68.6 − − + balm woo Ruchi ───────────────────────────────────
【0036】[0036]
【表5】 モデル作成法による音素認識率(%)の比較−601状態のHM網の場合 ─────────────────────────────────── 作成法/混合数 3 5 10 15 ─────────────────────────────────── バーム・ウェルチ 67.6 67.8 − − ─────────────────────────────────── モデルクラスタリング 65.1 65.5 66.2 66.2 ─────────────────────────────────── 状態別クラスタリング 67.8 67.9 67.8 67.8 ─────────────────────────────────── 状態別クラスタリング 69.2 69.2 − − +バーム・ウェルチ ───────────────────────────────────[Table 5] Comparison of phoneme recognition rates (%) according to the model creation method-In the case of 601 state HM network ─────────────────────────── ───────── Preparation method / mixture number 3 5 10 15 ───────────────────────────────── ─── Balm Welch 67.6 67.8 − − ──────────────────────────────────── Model Clustering 65.1 65.5 66.2 66.2 ──────────────────────────────────── Clustering 67.8 67.9 67.8 67.8 ─────────────────────────────────── Clustering 69.2 69.2 − − + Balm Weh Ji ───────────────────────────────────
【0037】表4及び表5の結果を表2及び表3の結果
とあわせて見ると、本発明に係る状態別クラスタリング
による方法は全ての条件のもとで第2の従来例のCCL
法による場合より少ないパラメータ数で高い認識性能を
示しており、認識率の差はHM網の状態数が201状態
の場合より601状態の場合の方が大きくなっている。
実際の認識処理のスピードや話者適応を行なう場合の効
率を考えた場合できるだけ少ないパラメータ数で高い認
識性能が得られる方が不特定話者モデルとしての性能は
良いと考えられ、このことは、本発明に係る状態別クラ
スタリングによる方法が性能の良いモデルを得るのに有
効な方法であることを示している。Looking at the results of Tables 4 and 5 together with the results of Tables 2 and 3, the method by state-based clustering according to the present invention is the CCL of the second conventional example under all conditions.
High recognition performance is shown with a smaller number of parameters than in the case of the method, and the difference in recognition rate is larger in the case of the 601 state than in the case of 201 states of the HM network.
Considering the speed of actual recognition processing and the efficiency of speaker adaptation, it is considered that the performance as an unspecified speaker model is better when high recognition performance is obtained with as few parameters as possible. It is shown that the method according to the state-based clustering according to the present invention is an effective method for obtaining a model with good performance.
【0038】また、HM網の状態数と認識性能の関係を
見た場合、601状態のHM網は201状態のHM網よ
り高い認識性能を示しており、これは、第2の従来例の
CCL法及び、本発明に係る状態別クラスタリング法の
どちらの場合にも同様のことが言える。これは、201
状態ではまだ音韻環境が十分に細分化されてモデル化さ
れていないことが原因であると考えられる。音韻環境が
十分に細分化されるように状態分割されていなければ、
各状態の出力ガウス分布は音韻環境及び話者環境の両方
の要因による音響的特徴量の変動を同時に表現しなけれ
ばならず、音韻性と話者性の区別が難しくなり、認識誤
りの可能性が高くなると考えられる。When the relationship between the number of states of the HM network and the recognition performance is examined, the HM network in the 601 state shows higher recognition performance than the HM network in the 201 state, which is the CCL of the second conventional example. The same applies to both the method and the state-based clustering method according to the present invention. This is 201
This is probably because the phonological environment has not been sufficiently segmented and modeled in the state. If the phonological environment is not state-divided so that it is sufficiently subdivided,
The output Gaussian distribution of each state must represent changes in acoustic features due to both phonological and speaker environments at the same time, making it difficult to distinguish between phonological and speaker characteristics, and possible recognition errors. Is expected to increase.
【0039】さらに、表4及び表5から明らかなよう
に、本発明に係る状態別クラスタリング法でクラスタリ
ングした後バーム・ウェルチの学習アルゴリズムを用い
て再学習した場合、他の方法に比較してより高い音素認
識率が得られている。Further, as is clear from Tables 4 and 5, when clustering is performed by the clustering method according to the present invention and then relearning is performed using the learning algorithm of Balm-Welch, compared to other methods, A high phoneme recognition rate is obtained.
【0040】最後に、不特定話者モデルの作成時間につ
いて述べる。従来文献2において開示された第2の従来
例のCCL法では、バーム・ウェルチの学習アルゴリズ
ムの数パーセント程度の計算時間しか要しないと報告さ
れている。本発明に係る状態別クラスタリングを用いる
場合にはクラスタリングを行なう回数が増える分、第2
の従来例のCCL法に比較して計算時間が増加するが、
この時間はモデル作成に要する時間の大部分を占める特
定話者モデルの学習時間に比較すると非常に小さいた
め、全体の時間で見た場合には、第2の従来例のCCL
法と同様にバーム・ウェルチの学習アルゴリズムの数パ
ーセント程度の計算時間で不特定話者モデルを作成可能
である。Finally, the time for creating the unspecified speaker model will be described. It has been reported that the CCL method of the second conventional example disclosed in the conventional document 2 requires only a few percent of the calculation time of the learning algorithm of Balm-Welch. When the state-based clustering according to the present invention is used, the number of times of clustering increases,
Although the calculation time is increased as compared with the conventional CCL method of
This time is much smaller than the learning time of the specific speaker model, which occupies most of the time required to create the model. Therefore, when viewed from the entire time, the CCL of the second conventional example is used.
Similar to the method, it is possible to create an independent speaker model with a calculation time of several percent of the learning algorithm of Balm-Welch.
【0041】以上説明したように、本発明に係る実施形
態によれば、入力された複数の特定話者の単一ガウス分
布のHMMの各状態の出力ガウス分布を各状態ごとに独
立にクラスタリングして合成することにより不特定話者
の混合ガウス分布のHMMを作成するので、各特定話者
モデルの全てのパラメータが学習されている必要はな
く、また話者ごとに学習されているパラメータが異なっ
ていてる場合にも対応することができる。従って、発話
数が少ない話者の音声データや自由発話音声のような話
者ごとに発話内容が異なるデータに対しても使用するこ
とができる。さらに、HMMの状態ごとに各特定話者モ
デルから取り出された出力ガウス分布の平均値のばらつ
きやその学習データ量の情報を利用することによって状
態ごとに分割するクラスタ数を決めることができるた
め、学習データ量や話者間の音響的特徴の変動の度合を
考慮した混合分布数をHMMの各状態ごとに決定するこ
とができる。当該不特定話者モデルのHMMを用いて音
声認識することにより、従来例に比較して高い音声認識
率で音声認識することができる。As described above, according to the embodiment of the present invention, the output Gaussian distributions of the respective states of the input single Gaussian HMMs of a plurality of specific speakers are clustered independently for each state. Since an HMM having a mixed Gaussian distribution of unspecified speakers is created by synthesizing by using all the parameters, it is not necessary to learn all the parameters of each specific speaker model, and the parameters learned for each speaker are different. You can deal with the case. Therefore, the present invention can be used for voice data of a speaker having a small number of utterances and data having different utterance contents for each speaker, such as free utterance voice. Furthermore, the number of clusters to be divided for each state can be determined by using the variation of the average value of the output Gaussian distribution extracted from each specific speaker model and the information of the learning data amount for each state of the HMM. It is possible to determine the number of mixture distributions in consideration of the learning data amount and the degree of variation of acoustic characteristics between speakers for each state of the HMM. By performing voice recognition using the HMM of the unspecified speaker model, it is possible to perform voice recognition with a higher voice recognition rate than in the conventional example.
【0042】[0042]
【発明の効果】以上詳述したように本発明に係る請求項
1記載の不特定話者モデル作成装置によれば、入力され
た複数の特定話者の単一ガウス分布の隠れマルコフモデ
ルに基づいて、不特定話者の混合ガウス分布の隠れマル
コフモデルを作成する不特定話者モデル作成装置におい
て、入力された複数の特定話者の単一ガウス分布の隠れ
マルコフモデルの各状態の出力ガウス分布を各状態ごと
に独立にクラスタリングして合成することにより不特定
話者の混合ガウス分布の隠れマルコフモデルを作成する
モデル作成手段を備える。具体的には、上記モデル作成
手段は、入力された複数の特定話者の発声音声データに
基づいて、複数の話者に対して同一の初期話者隠れマル
コフモデルを用いて所定の学習法により上記発声音声デ
ータの存在する状態に対してのみ出力ガウス分布を学習
することにより、複数個の特定話者用単一ガウス分布の
隠れマルコフモデルを作成する学習手段と、上記学習手
段によって作成された複数個の特定話者用単一ガウス分
布の隠れマルコフモデルに基づいて、各出力ガウス分布
間の距離を基準にして、各クラスタにより短い距離に出
力ガウス分布が含まれるように複数のクラスタにクラス
タリングを行うクラスタリング手段と、上記クラスタリ
ング手段によって各状態毎にクラスタリングされた単一
ガウス分布の隠れマルコフモデルに基づいて、各クラス
タ内の複数の出力ガウス分布の隠れマルコフモデルを各
状態の単一ガウス分布の隠れマルコフモデルに合成する
合成手段と、上記合成手段によって合成された各状態の
単一ガウス分布の隠れマルコフモデルを混合することに
より、不特定話者の混合ガウス分布の隠れマルコフモデ
ルを作成する混合手段とを備える。As described in detail above, according to the speaker-independent model creating apparatus according to claim 1 of the present invention, based on the input hidden Gaussian Markov model of a plurality of specific speakers. , The output Gaussian distribution of each state of the input single Gaussian hidden Markov model of a plurality of specified speakers in the device for creating a hidden Markov model of the mixed Gaussian distribution of the unspecified speaker Modeling means for creating a hidden Markov model of a mixed Gaussian distribution of an unspecified speaker by independently clustering and synthesizing each state. Specifically, the model creating means uses a predetermined learning method by using the same initial speaker hidden Markov model for a plurality of speakers, based on the input vocal data of a plurality of specific speakers. Learning means for creating a hidden Markov model of a plurality of single Gaussian distributions for specific speakers by learning the output Gaussian distribution only for the state in which the uttered voice data exists, and the learning means Based on the Hidden Markov Model of multiple single-Gaussian distributions for specific speakers, based on the distance between each output Gaussian distribution, clustering into multiple clusters so that each cluster contains the output Gaussian distribution in a shorter distance Based on the clustering means for performing and the hidden Markov model of the single Gaussian distribution clustered for each state by the above clustering means. Synthesizing means for synthesizing multiple output Gaussian hidden Markov models in each cluster into a single Gaussian hidden Markov model in each state, and a single Gaussian hidden Markov model in each state synthesized by the above synthesizing means And mixing means for creating a hidden Markov model of a Gaussian mixture mixture of unspecified speakers.
【0043】すなわち、多数の特定話者モデルから学習
されている出力ガウス分布のみを取り出してHMMの各
状態で独立にクラスタリングを行なうことにより、各状
態における特徴量の変動の大きさや学習データ量を考慮
してクラスタ数を決定することが可能となり各状態ごと
に最適な出力ガウス分布数を決定することができる。ま
た、各特定話者モデルの学習されている出力ガウス分布
のみを選択的に使用することができるため各特定話者モ
デルの全ての出力ガウス分布が学習されている必要はな
く、一人あたりの発話量の少ないデータベースに対して
も有効に使用することができる。また、各話者ごとに別
々にパラメータ推定を行なうため、全てのデータを一度
に使って学習する第1の従来例のバーム・ウェルチの学
習アルゴリズムによる方法に対して計算量を飛躍的に減
らすことが可能となる。従って、不特定話者モデルの作
成時間を大幅に短縮することができる。That is, by taking out only the output Gaussian distribution learned from a large number of specific speaker models and performing clustering independently in each state of the HMM, the magnitude of variation of the feature amount and the learning data amount in each state can be determined. The number of clusters can be determined in consideration, and the optimum number of output Gaussian distributions can be determined for each state. Also, since only the output Gaussian distributions trained for each specific speaker model can be selectively used, it is not necessary for all output Gaussian distributions for each specific speaker model to be trained. It can be effectively used for databases with a small amount. In addition, since the parameters are estimated separately for each speaker, the amount of calculation is drastically reduced as compared with the method using the learning algorithm of Balm-Welch of the first conventional example in which all data are used at one time for learning. Is possible. Therefore, the time required to create the unspecified speaker model can be significantly shortened.
【0044】また、請求項3記載の不特定話者モデル作
成装置によれば、上記クラスタリング手段は、各状態毎
に予め設定したしきい値以上のデータ量で学習された出
力ガウス分布のみを取り出した後、クラスタリングす
る。これにより、信頼性のより高い最適な不特定話者モ
デルを作成することができる。従って、当該不特定話者
モデルを用いて音声認識を行うことにより、従来例に比
較してより高い音声認識率で音声認識することができ
る。Further, according to the speaker-independent speaker model creating apparatus of the third aspect, the clustering means extracts only the output Gaussian distribution learned with the data amount equal to or more than the preset threshold value for each state. Then cluster. This makes it possible to create an optimal speaker-independent model with higher reliability. Therefore, by performing voice recognition using the unspecified speaker model, voice recognition can be performed at a higher voice recognition rate than in the conventional example.
【0045】さらに、請求項4記載の不特定話者モデル
作成装置によれば、上記クラスタリング手段は、各状態
においてクラスタリングされた各クラスタの中心と各出
力ガウス分布間の距離の平均値が予め決めた距離以下に
なるまでクラスタリングを繰り返すことにより、各状態
における各出力ガウス分布のバラツキが大きいほどクラ
スタ数が多くなるように各状態におけるクラスタ数を決
定する。従って、各状態における各出力ガウス分布のバ
ラツキを考慮してクラスタ数を決定することが可能とな
り各状態ごとに最適な出力ガウス分布数を決定すること
ができる。これにより、信頼性のより高い最適な不特定
話者モデルを作成することができる。それ故、当該不特
定話者モデルを用いて音声認識を行うことにより、従来
例に比較してより高い音声認識率で音声認識することが
できる。Furthermore, according to the speaker-independent model creating apparatus of the fourth aspect, the clustering means determines in advance the average value of the distances between the centers of the clusters clustered in each state and the output Gaussian distributions. The number of clusters in each state is determined such that the larger the variation of each output Gaussian distribution in each state is, the larger the number of clusters is by repeating the clustering until the distance becomes equal to or less than the distance. Therefore, the number of clusters can be determined in consideration of the variation of each output Gaussian distribution in each state, and the optimal number of output Gaussian distribution can be determined for each state. This makes it possible to create an optimal speaker-independent model with higher reliability. Therefore, by performing voice recognition using the unspecified speaker model, voice recognition can be performed at a higher voice recognition rate than in the conventional example.
【0046】また、本発明に係る請求項5記載の音声認
識装置によれば、入力された複数の特定話者の単一ガウ
ス分布の隠れマルコフモデルに基づいて、不特定話者の
混合ガウス分布の隠れマルコフモデルを作成する請求項
1乃至4のうちの1つに記載の不特定話者モデル作成装
置と、入力された発声音声文の音声信号に基づいて、上
記不特定話者モデル作成装置によって作成された不特定
話者の混合分布の隠れマルコフモデルを用いて、音声認
識する音声認識手段とを備える。従って、当該不特定話
者モデルを用いて音声認識を行うことにより、従来例に
比較してより高い音声認識率で音声認識することができ
る。According to the speech recognition apparatus of the fifth aspect of the present invention, the mixed Gaussian distribution of unspecified speakers is based on the input hidden Markov model of a single Gaussian distribution of a plurality of specified speakers. 5. The unspecified speaker model creating device according to claim 1, which creates the hidden Markov model, and the unspecified speaker model creating device based on a voice signal of an input uttered voice sentence. And a voice recognition means for recognizing a voice using the hidden Markov model of the mixture distribution of the unspecified speakers created by. Therefore, by performing voice recognition using the unspecified speaker model, voice recognition can be performed at a higher voice recognition rate than in the conventional example.
【図面の簡単な説明】[Brief description of drawings]
【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。FIG. 1 is a block diagram of a voice recognition device according to an embodiment of the present invention.
【図2】 図1の不特定話者モデル作成部によって実行
される不特定話者モデル作成処理を示すフローチャート
である。FIG. 2 is a flowchart showing an unspecified speaker model creation process executed by an unspecified speaker model creation unit in FIG.
【図3】 図1の不特定話者モデル作成部によって実行
される不特定話者モデル作成処理のうち特定話者モデル
の学習と出力ガウス分布の抽出の処理を示す図である。FIG. 3 is a diagram showing a learning process of a specific speaker model and a process of extracting an output Gaussian distribution in the non-specific speaker model creating process executed by the unspecified speaker model creating unit of FIG. 1;
【図4】 図1の不特定話者モデル作成部によって実行
される不特定話者モデル作成処理のうち各状態毎の出力
ガウス分布のクラスタリングの処理を示す図である。FIG. 4 is a diagram showing a process of clustering an output Gaussian distribution for each state in the unspecified speaker model creating process executed by the unspecified speaker model creating unit in FIG. 1;
【図5】 図1の不特定話者モデル作成部によって実行
される不特定話者モデル作成処理のうち各クラスタ毎に
複数の確率密度関数を混合する処理を示す図である。5 is a diagram showing a process of mixing a plurality of probability density functions for each cluster in the unspecified speaker model creating process executed by the unspecified speaker model creating unit of FIG. 1. FIG.
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…隠れマルコフ網(HM網)、 13…LRテーブル、 20…文脈自由文法データベース、 30…特定話者の発声音声データ、 31…不特定話者モデル作成部。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Feature extraction part, 3 ... Buffer memory, 4 ... Phoneme matching part, 5 ... LR parser, 11 ... Hidden Markov network (HM network), 13 ... LR table, 20 ... Context-free grammar database, 30 ... Speech data of specific speaker, 31 ... Unspecified speaker model creation unit.
Claims (5)
分布の隠れマルコフモデルに基づいて、不特定話者の混
合ガウス分布の隠れマルコフモデルを作成する不特定話
者モデル作成装置において、 入力された複数の特定話者の単一ガウス分布の隠れマル
コフモデルの各状態の出力ガウス分布を各状態ごとに独
立にクラスタリングして合成することにより不特定話者
の混合ガウス分布の隠れマルコフモデルを作成するモデ
ル作成手段を備えたことを特徴とする不特定話者モデル
作成装置。1. An unspecified speaker model creating device for creating a hidden Markov model of a mixed Gaussian distribution of unspecified speakers, based on the input hidden Markov models of a single Gaussian distribution of specified speakers. Hidden Markov model of mixed Gaussian distributions of unspecified speakers by individually combining output Gaussian distributions of each state of input specific Gaussian distributions of specific speakers An unspecified speaker model creating apparatus comprising a model creating unit for creating a speaker.
て、複数の話者に対して同一の初期話者隠れマルコフモ
デルを用いて所定の学習法により上記発声音声データの
存在する状態に対してのみ出力ガウス分布を学習するこ
とにより、複数個の特定話者用単一ガウス分布の隠れマ
ルコフモデルを作成する学習手段と、 上記学習手段によって作成された複数個の特定話者用単
一ガウス分布の隠れマルコフモデルに基づいて、各出力
ガウス分布間の距離を基準にして、各クラスタにより短
い距離に出力ガウス分布が含まれるように複数のクラス
タにクラスタリングを行うクラスタリング手段と、 上記クラスタリング手段によって各状態毎にクラスタリ
ングされた単一ガウス分布の隠れマルコフモデルに基づ
いて、各クラスタ内の複数の出力ガウス分布の隠れマル
コフモデルを各状態の単一ガウス分布の隠れマルコフモ
デルに合成する合成手段と、 上記合成手段によって合成された各状態の単一ガウス分
布の隠れマルコフモデルを混合することにより、不特定
話者の混合ガウス分布の隠れマルコフモデルを作成する
混合手段とを備えたことを特徴とする請求項1記載の不
特定話者モデル作成装置。2. The model creating means uses a predetermined learning method by using the same initial speaker hidden Markov model for a plurality of speakers, based on the input voice data of a plurality of specific speakers. Learning means for creating a hidden Markov model of a plurality of single Gaussian distributions for specific speakers by learning the output Gaussian distribution only for the state in which the voiced speech data exists, and the learning means Based on the Hidden Markov Model of multiple single-Gaussian distributions for specific speakers, based on the distance between each output Gaussian distribution, clustering into multiple clusters so that each cluster contains the output Gaussian distribution in a shorter distance Based on a single Gaussian hidden Markov model clustered for each state by the above clustering means. Then, combining means for synthesizing hidden Markov models with multiple output Gaussian distributions in each cluster into hidden Markov models with single Gaussian distributions for each state, and hiding the single Gaussian distributions for each state synthesized by the above combining means The unspecified speaker model creating device according to claim 1, further comprising: a mixing unit that creates a hidden Markov model of a Gaussian mixture mixture of unspecified speakers by mixing the Markov models.
予め設定したしきい値以上のデータ量で学習された出力
ガウス分布のみを取り出した後、クラスタリングするこ
とを特徴とする請求項2記載の不特定話者モデル作成装
置。3. The clustering means extracts the output Gaussian distribution learned with an amount of data equal to or more than a preset threshold value for each state, and then performs clustering. Specific speaker model creation device.
いてクラスタリングされた各クラスタの中心と各出力ガ
ウス分布間の距離の平均値が予め決めた距離以下になる
までクラスタリングを繰り返すことにより、各状態にお
ける各出力ガウス分布のバラツキが大きいほどクラスタ
数が多くなるように各状態におけるクラスタ数を決定す
ることを特徴とする請求項2又は3記載の不特定話者モ
デル作成装置。4. The clustering means repeats the clustering until the average value of the distances between the centers of the clusters clustered in each state and the output Gaussian distributions becomes equal to or less than a predetermined distance, thereby making each cluster in each state. 4. The apparatus for creating an unspecified speaker model according to claim 2, wherein the number of clusters in each state is determined so that the larger the variation of the output Gaussian distribution is, the larger the number of clusters is.
分布の隠れマルコフモデルに基づいて、不特定話者の混
合ガウス分布の隠れマルコフモデルを作成する請求項1
乃至4のうちの1つに記載の不特定話者モデル作成装置
と、 入力された発声音声文の音声信号に基づいて、上記不特
定話者モデル作成装置によって作成された不特定話者の
混合分布の隠れマルコフモデルを用いて、音声認識する
音声認識手段とを備えたことを特徴とする音声認識装
置。5. A hidden Markov model of a mixed Gaussian distribution of unspecified speakers is created on the basis of the inputted hidden Markov model of a single Gaussian distribution of specified speakers.
1 to 4 and a mixture of the unspecified speakers created by the unspecified speaker model creating device based on the voice signal of the input uttered voice sentence. A voice recognition device comprising: a voice recognition means for recognizing a voice using a hidden Markov model of distribution.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7239821A JP2852210B2 (en) | 1995-09-19 | 1995-09-19 | Unspecified speaker model creation device and speech recognition device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7239821A JP2852210B2 (en) | 1995-09-19 | 1995-09-19 | Unspecified speaker model creation device and speech recognition device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0981178A true JPH0981178A (en) | 1997-03-28 |
| JP2852210B2 JP2852210B2 (en) | 1999-01-27 |
Family
ID=17050357
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7239821A Expired - Fee Related JP2852210B2 (en) | 1995-09-19 | 1995-09-19 | Unspecified speaker model creation device and speech recognition device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2852210B2 (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003524805A (en) * | 2000-02-25 | 2003-08-19 | スピーチワークス インターナショナル,インク. | Automatic retraining of speech recognition systems |
| KR100435440B1 (en) * | 2002-03-18 | 2004-06-10 | 정희석 | Variable sized- Clustering apparatus and method for better discrimination of the inter-speaker variation, Speaker Verification apparatus and method based on new VQ/HMM technique |
| CN1302454C (en) * | 2003-07-11 | 2007-02-28 | 中国科学院声学研究所 | Method for rebuilding probability weighted average deletion characteristic data of speech recognition |
| US7437288B2 (en) | 2001-03-13 | 2008-10-14 | Nec Corporation | Speech recognition apparatus |
| US7603276B2 (en) | 2002-11-21 | 2009-10-13 | Panasonic Corporation | Standard-model generation for speech recognition using a reference model |
| JP2010049291A (en) * | 1998-04-15 | 2010-03-04 | Microsoft Corp | Dynamically configurable acoustic model for speech recognition system |
-
1995
- 1995-09-19 JP JP7239821A patent/JP2852210B2/en not_active Expired - Fee Related
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010049291A (en) * | 1998-04-15 | 2010-03-04 | Microsoft Corp | Dynamically configurable acoustic model for speech recognition system |
| JP2003524805A (en) * | 2000-02-25 | 2003-08-19 | スピーチワークス インターナショナル,インク. | Automatic retraining of speech recognition systems |
| US7437288B2 (en) | 2001-03-13 | 2008-10-14 | Nec Corporation | Speech recognition apparatus |
| KR100435440B1 (en) * | 2002-03-18 | 2004-06-10 | 정희석 | Variable sized- Clustering apparatus and method for better discrimination of the inter-speaker variation, Speaker Verification apparatus and method based on new VQ/HMM technique |
| US7603276B2 (en) | 2002-11-21 | 2009-10-13 | Panasonic Corporation | Standard-model generation for speech recognition using a reference model |
| CN1302454C (en) * | 2003-07-11 | 2007-02-28 | 中国科学院声学研究所 | Method for rebuilding probability weighted average deletion characteristic data of speech recognition |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2852210B2 (en) | 1999-01-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2965537B2 (en) | Speaker clustering processing device and speech recognition device | |
| JP2871561B2 (en) | Unspecified speaker model generation device and speech recognition device | |
| US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
| JP2986792B2 (en) | Speaker normalization processing device and speech recognition device | |
| JP4141495B2 (en) | Method and apparatus for speech recognition using optimized partial probability mixture sharing | |
| US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
| JP3088357B2 (en) | Unspecified speaker acoustic model generation device and speech recognition device | |
| Rose | Word spotting from continuous speech utterances | |
| JP2852210B2 (en) | Unspecified speaker model creation device and speech recognition device | |
| JP3176210B2 (en) | Voice recognition method and voice recognition device | |
| JP3364631B2 (en) | Statistical language model generation apparatus and speech recognition apparatus | |
| JP2974621B2 (en) | Speech recognition word dictionary creation device and continuous speech recognition device | |
| JP2905674B2 (en) | Unspecified speaker continuous speech recognition method | |
| JP2871420B2 (en) | Spoken dialogue system | |
| JP2982689B2 (en) | Standard pattern creation method using information criterion | |
| JPH08110792A (en) | Speaker adaptation device and speech recognition device | |
| JP2886118B2 (en) | Hidden Markov model learning device and speech recognition device | |
| JP3035239B2 (en) | Speaker normalization device, speaker adaptation device, and speech recognition device | |
| JP3439700B2 (en) | Acoustic model learning device, acoustic model conversion device, and speech recognition device | |
| JP3104900B2 (en) | Voice recognition method | |
| JP2888781B2 (en) | Speaker adaptation device and speech recognition device | |
| JPH08123468A (en) | Unspecified speaker model generating device and speech recognition device | |
| JP2875179B2 (en) | Speaker adaptation device and speech recognition device | |
| JP2005091504A (en) | Voice recognition device | |
| JP2731133B2 (en) | Continuous speech recognition device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081113 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081113 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091113 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101113 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101113 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111113 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131113 Year of fee payment: 15 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |