JPH09305195A - Speech recognition device and speech recognition method - Google Patents
Speech recognition device and speech recognition methodInfo
- Publication number
- JPH09305195A JPH09305195A JP8117444A JP11744496A JPH09305195A JP H09305195 A JPH09305195 A JP H09305195A JP 8117444 A JP8117444 A JP 8117444A JP 11744496 A JP11744496 A JP 11744496A JP H09305195 A JPH09305195 A JP H09305195A
- Authority
- JP
- Japan
- Prior art keywords
- cepstrum
- pattern
- standard
- matching
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 18
- 238000003909 pattern recognition Methods 0.000 abstract description 21
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- KDYFGRWQOYBRFD-UHFFFAOYSA-N succinic acid Chemical compound OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、入力された音声の
認識を行う装置および方法において、予備的に標準パタ
ーン候補を絞りこんでから最終的な候補を出力する音声
認識装置および方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus and method for preliminarily narrowing down standard pattern candidates and then outputting final candidates in the apparatus and method for recognizing inputted speech.
【0002】[0002]
【従来の技術】入力された音声データの特徴量を算出し
て、標準パターンとのマッチングにより予備的に標準パ
ターンを絞り込み、その後、その絞り込んだ標準パター
ンと上記特徴量との類似度により音声認識を行う従来の
装置としてが、たとえば特開昭63−104098号や
特開昭58−176698号にそれぞれ示されている。
前者の特開昭63−104098号に示される音声認識
装置は、通常のDP(Dynamic Programming)マッチング
専用装置を予備選択部とし、この予備選択部によって選
択された標準パターンと入力音声データとの類似度を、
音韻継続時間を考慮した精度の高いDPマッチング装置
によって算出するようにしている。また、後者の特開昭
58−176698号に示される音声認識装置は、専用
演算手段による一次の(予備の)DPマッチングを行っ
た後、そのマッチングで決まらなかった場合に、汎用手
段(ソフトウェア)による二次のDPマッチングを行う
ようにしている。2. Description of the Related Art A feature amount of input voice data is calculated, a standard pattern is narrowed down by matching with a standard pattern, and then voice recognition is performed based on the similarity between the narrowed down standard pattern and the feature amount. As a conventional device for carrying out the above, for example, JP-A-63-104098 and JP-A-58-176698 are shown.
The former speech recognition apparatus disclosed in Japanese Patent Laid-Open No. 63-104098 uses a normal DP (Dynamic Programming) matching dedicated apparatus as a preliminary selecting section, and the standard pattern selected by this preliminary selecting section is similar to the input speech data. Degree
The calculation is performed by a highly accurate DP matching device that takes the phoneme duration into consideration. The latter speech recognition device disclosed in Japanese Patent Laid-Open No. 58-176698 is a general-purpose means (software) when a primary (preliminary) DP matching is performed by a dedicated computing means and the matching is not successful. The second DP matching is performed.
【0003】[0003]
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識装置では、予備的および最終的なマッチン
グを行うのにいずれもDPマッチングを利用しているた
めに、処理速度の十分な高速化を得られず、また、通常
のDPマッチングを2重に行うために、音声認識の精度
もそれほどよくないという不都合があった。However, in the above-mentioned conventional speech recognition apparatus, since DP matching is used for both preliminary and final matching, the processing speed must be sufficiently high. However, there is a problem in that the accuracy of voice recognition is not so good because normal DP matching is performed twice.
【0004】本発明の目的は、上記欠点を解消し、精度
を落とすことなく高速に認識処理を行うことのできる音
声認識装置および音声認識方法を提供することにある。It is an object of the present invention to provide a voice recognition device and a voice recognition method which can solve the above-mentioned drawbacks and can perform recognition processing at high speed without lowering accuracy.
【0005】[0005]
【課題を解決するための手段】本発明の音声認識装置
は、入力された音声データの特徴量を算出する特徴量算
出手段と、前記算出された特徴量と予め記憶されている
標準パターンとにより線形マッチングを行い、その結果
に応じて標準パターンを予備的に選択する予備選択手段
と、前記特徴量と前記予備的に選択した標準パターンと
により非線形マッチングを行い、音声認識を行う音声認
識手段と、を備えてなることを特徴とする。A voice recognition device of the present invention comprises a feature amount calculation means for calculating a feature amount of input voice data, and the calculated feature amount and a standard pattern stored in advance. Preselection means for preliminarily selecting a standard pattern according to the result of linear matching, and voice recognition means for performing voice recognition by performing non-linear matching with the feature amount and the preliminarily selected standard pattern. , Is provided.
【0006】上記音声認識装置では、標準パターンを予
備的に選択するのに線形マッチングを使用するために、
DPマッチングのような煩雑な演算を必要としない。こ
のため、簡単な構成で高速に認識処理を行うことができ
る。標準パターンを予備的に選択するとは、最も典型的
には、標準パターンに順位を付け、且つ第1位から予め
設定した所定順位までのものを選択することである。こ
の他、順位なしで一定の条件を満たす(パターンが近い
もの)ものの全部又は一部を選択することも可能であ
る。In the above speech recognizer, since linear matching is used to preselect a standard pattern,
It does not require complicated calculation such as DP matching. Therefore, the recognition processing can be performed at high speed with a simple configuration. Preliminarily selecting a standard pattern means, most typically, ranking standard patterns and selecting a standard pattern from a first rank to a predetermined rank. In addition, it is also possible to select all or a part of those satisfying a certain condition (having a close pattern) without ranking.
【0007】また、本発明の音声認識装置は、入力され
た音声データの短時間フレーム毎のケプストラムを算出
するケプストラム算出手段と、前記算出された各ケプス
トラムの軌跡上で、各ケプストラムの間隔が予め設定し
た固定長となるよう、線形補間により各ケプストラムを
正規化するケプストラム正規化手段と、前記正規化され
たケプストラムのパターンと予め記憶された標準ケプス
トラムパターンとにより線形マッチングを行い、その結
果に応じて標準ケプストラムパターンを予備的に選択す
る予備選択手段と、前記正規化されたケプストラムと前
記予備的に選択された標準ケプストラムパターンとによ
り非線形マッチングを行い、音声認識を行う音声認識手
段と、を備えてなることを特徴とする。The speech recognition apparatus of the present invention further comprises a cepstrum calculating means for calculating a cepstrum for each short-time frame of the input voice data, and the intervals between the cepstrums on the trajectory of the calculated cepstrum in advance. The cepstrum normalization means for normalizing each cepstrum by linear interpolation so that the set fixed length is obtained, and the linear matching is performed by the normalized cepstrum pattern and the standard cepstrum pattern stored in advance, and according to the result. A preselection means for preliminarily selecting a standard cepstrum pattern, and a voice recognition means for performing voice recognition by performing non-linear matching with the normalized cepstrum and the preliminarily selected standard cepstrum pattern. It is characterized by
【0008】上記音声認識装置では、ケプストラム正規
化手段により、各ケプストラムの間隔が予め設定した固
定長となるように正規化される。この正規化手段によれ
ば、各ケプストラムの間隔は時間軸上等間隔ではなくな
り、子音などの変化の激しい所ではその間隔が細かく、
母音などの変化の緩やかな所では間隔が粗くなるととも
に、特徴ベクトルであるケプストラムの数は単語の発生
の長さに大きく変化しない。このため、標準ケプストラ
ムパターンを予備的に選択する予備選択手段では、ベク
トル数の異なるもの同士を対比するDPマッチングを使
用する必要がなく、線形マッチングで簡単に行うことが
でき、処理を高速化出来る。In the above speech recognition apparatus, the cepstrum normalizing means normalizes the intervals between the cepstrums so as to have a preset fixed length. According to this normalizing means, the intervals between the cepstrums are not equal on the time axis, and the intervals are small in places where consonants and the like change drastically.
In the place where the vowel changes slowly, the intervals become coarse and the number of cepstrums, which are feature vectors, does not change greatly with the length of word occurrence. For this reason, the preliminary selection means for preliminary selection of the standard cepstrum pattern does not need to use DP matching in which patterns having different numbers of vectors are compared with each other, and linear matching can be easily performed, and the processing speed can be increased. .
【0009】また、本発明の音声認識装置は、入力され
た音声データの短時間フレーム毎のケプストラムを算出
するケプストラム算出手段と、前記算出された各ケプス
トラムの軌跡上で、各ケプストラムの間隔Lが予め設定
した固定長L1およびL2(L1>L2)となるよう、
線形補間により各ケプストラムを2種類に正規化するケ
プストラム正規化手段と、前記固定長L1の間隔で正規
化されたケプストラムのパターンと予め記憶された標準
ケプストラムパターンとにより線形マッチングまたは非
線形マッチングを行い、その結果に応じて標準ケプスト
ラムパターンを予備的に選択する予備選択手段と、前記
固定長L2の間隔で正規化されたケプストラムと前記予
備的に選択された標準ケプストラムパターンとにより非
線形マッチングを行い、音声認識を行う音声認識手段
と、を備えてなることを特徴とする。Further, the speech recognition apparatus of the present invention has a cepstrum calculating means for calculating a cepstrum for each short-time frame of input speech data, and an interval L of each cepstrum on the calculated trajectory of each cepstrum. In order to have preset fixed lengths L1 and L2 (L1> L2),
Cepstrum normalization means for normalizing each cepstrum into two types by linear interpolation, linear matching or non-linear matching is performed by a cepstrum pattern normalized at the fixed length L1 interval and a standard cepstrum pattern stored in advance, Non-linear matching is performed by preliminary selecting means for preliminarily selecting a standard cepstrum pattern according to the result, non-linear matching by the cepstrum normalized at the fixed length L2 interval, and the preliminarily selected standard cepstrum pattern. And a voice recognition means for performing recognition.
【0010】上記音声認識装置では、標準ケプストラム
パターンの予備的な選択において、正規化するための固
定長L1を長くして、粗いマッチングを行うようにして
いる。この場合のマッチングは線形マッチングでも良い
し、DPマッチングのような非線形マッチングでも良
い。DPマッチングの一種である連続DPマッチングを
使用する場合には、文章の中から単語を抽出して認識す
るいわゆるワードスポッテイングが可能になる。このよ
うに、予備的な標準ケプストラムパターンの選択を行う
場合、ケプストラム軌跡上の各ケプストラムの間隔を予
め設定した固定長にし、且つその固定長L1を長くして
正規化ケプストラムが粗く生成されるようにすると、予
備選択時においてのマッチングに要する演算量が少なく
なり、認識処理の高速化を図ることができる。In the above speech recognition apparatus, in the preliminary selection of the standard cepstrum pattern, the fixed length L1 for normalization is lengthened to perform rough matching. The matching in this case may be linear matching or non-linear matching such as DP matching. When continuous DP matching, which is a kind of DP matching, is used, so-called word spotting becomes possible by extracting and recognizing words from a sentence. As described above, when the preliminary standard cepstrum pattern is selected, the interval between the cepstrum on the cepstrum locus is set to a preset fixed length, and the fixed length L1 is increased so that the normalized cepstrum is roughly generated. With this, the amount of calculation required for matching at the time of preliminary selection is reduced, and the recognition processing can be speeded up.
【0011】さらに、本発明の音声認識装置は、前記予
備選択手段で予備的に選択される標準ケプストラムパタ
ーンの数を、音声入力時の背景雑音情報を前件部の入力
情報とするファジイ演算により決めるファジイ演算手
段、または、標準ケプストラムパターンの各々の単語の
一部分が他の単語の一部分である数情報を前件部の入力
情報とするファジイ演算により決めるファジイ演算手段
を設けたことを特徴とする。Further, the voice recognition apparatus of the present invention uses a fuzzy operation in which the number of standard cepstrum patterns preliminarily selected by the preselection means is the background noise information at the time of voice input as the input information of the antecedent part. A fuzzy arithmetic means for deciding or a fuzzy arithmetic means for deciding by a fuzzy arithmetic operation in which numerical information in which a part of each word of the standard cepstrum pattern is a part of another word is used as input information of the antecedent part. .
【0012】上記音声認識装置では、ファジイ演算によ
り、予備的に選択される標準ケプストラムパターンの数
を決めることにより、音声認識手段でのマッチングのた
めの演算量を減らし、また、ファジイ演算を利用するこ
とにより、環境に動的に対応した最適な標準ケプストラ
ムパターン数での演算処理を可能にする。ファジイ演算
としては、音声入力時の背景雑音情報を前件部の入力情
報としたり、標準ケプストラムパターンの各々の単語の
一部分が他の単語の一部分である数情報を前件部の入力
情報とすることが出来る。In the above speech recognition apparatus, the number of standard cepstrum patterns to be preliminarily selected is determined by the fuzzy calculation, so that the calculation amount for matching in the speech recognition means is reduced and the fuzzy calculation is used. This enables arithmetic processing with the optimal number of standard cepstrum patterns that dynamically corresponds to the environment. As the fuzzy operation, the background noise information at the time of voice input is used as the input information of the antecedent part, or the numerical information in which a part of each word of the standard cepstrum pattern is a part of another word is used as the input information of the antecedent part. You can
【0013】[0013]
【発明の実施の形態】図1は、本発明の実施の形態であ
る音声認識装置の構成図を示している。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows a block diagram of a voice recognition device according to an embodiment of the present invention.
【0014】同図に示す音声認識装置は、単語別に音声
を認識する単語型音声認識装置であり、たとえば、「と
うきょう」と発音された場合に、「とうきょう」を認識
する装置である。音声入力部1は、人間の声道を通って
放出された空気の振動を電気的なアナログ信号に変換す
るマイクロホンや、マイクロホンによって変換された電
気的なアナログ信号を所定の周期でサンプリングしてデ
ィジタル音声データに変換するA/D変換器等を備え
る。音声区間抽出部2は、上記音声入力部1から出力さ
れるディジタル音声データから、パワー情報等を用いて
音声の区間を決定する。パワー情報は、有音部と無音部
を識別するためのしきい値情報である。次に、特徴量抽
出部3において、決定された音声区間のディジタル音声
データから、線形予測法や高速フーリエ変換(FF
T)、離散フーリエ変換(DFT)手法等を利用して短
時間フレームごとのスペクトル特徴量の時系列を計算す
る。特徴量としては、FFTやDFTを利用することに
よって得られるケプストラムを用いることができる。ケ
プストラムは、よく知られているように、音声データを
FFT(またはDFT)処理することによって得られる
パワスペクトルの対数を、さらにFFT(またはDF
T)逆変換処理を施したものとして定義される。短時間
フレームごとに順次算出されるこのケプストラムの時系
列を線形マッチングによる予備選択部5に入力し、また
は、特徴量正規化部4において正規化した後に予備選択
部5に入力し、この予備選択部5において標準ケプスト
ラムのパターン(以下、標準パターンという)と比較す
る。予備選択部5では、標準パターン格納部6に記憶さ
れている多数の標準パターンと上記入力されたケプスト
ラムとを線形マッチングによって比較し、幾つかの標準
パターンを候補として予備的に選択する(絞り込む)。
この場合、各標準パターンに順位をつけて,その内の上
位幾つかの標準パターンを候補として選択し、単語番号
で出力する。このような動作を行う予備選択部5では、
線形マッチングの演算でよいために、且つ粗い順位を付
けて上位幾つかの標準パターン候補を選択すればよいた
めに、演算量が少なく計算コストがかからない。The voice recognition apparatus shown in FIG. 1 is a word type voice recognition apparatus for recognizing a voice for each word. For example, when the pronunciation of "Tokyo" is pronounced, "Tokyo" is recognized. The voice input unit 1 is a microphone that converts the vibration of the air emitted through the human vocal tract into an electric analog signal, or a digital signal by sampling the electric analog signal converted by the microphone at a predetermined cycle. The A / D converter etc. which convert into audio data are provided. The voice section extraction unit 2 determines a voice section from the digital voice data output from the voice input unit 1 using power information and the like. The power information is threshold information for identifying a sound part and a silent part. Next, in the feature quantity extraction unit 3, a linear prediction method or a fast Fourier transform (FF) is performed from the digital voice data of the determined voice section.
T), the discrete Fourier transform (DFT) method or the like is used to calculate the time series of the spectral feature amount for each short-time frame. A cepstrum obtained by using FFT or DFT can be used as the feature amount. As is well known, the cepstrum calculates the logarithm of the power spectrum obtained by FFT (or DFT) processing speech data, and further
T) Defined as having undergone the inverse transformation process. The time series of the cepstrum, which is sequentially calculated for each short-time frame, is input to the preliminary selection unit 5 by linear matching, or is input to the preliminary selection unit 5 after being normalized by the feature amount normalization unit 4, and this preliminary selection is performed. In Part 5, it is compared with a standard cepstrum pattern (hereinafter referred to as a standard pattern). The preliminary selection unit 5 compares a large number of standard patterns stored in the standard pattern storage unit 6 with the input cepstrum by linear matching, and preliminarily selects (narrows down) some standard patterns as candidates. .
In this case, each standard pattern is ranked, some of the standard patterns in the upper ranks are selected as candidates, and output by word number. In the preliminary selection unit 5 that performs such an operation,
The calculation amount is small and the calculation cost is low because the calculation of the linear matching is sufficient and the standard pattern candidates can be selected with some rough ranking.
【0015】標準パターン格納部6は、予め、多数の標
準パターンを記憶する。これらのパターンは、予備選択
部5と、非線形マッチングによるパターン認識部7に出
力される。The standard pattern storage unit 6 stores a large number of standard patterns in advance. These patterns are output to the preliminary selection unit 5 and the pattern recognition unit 7 based on nonlinear matching.
【0016】非線形マッチングによるパターン認識部7
では、特徴量抽出部3からまたは特徴量正規化部4から
出力される正規化前のまたは正規化後のケプストラム
と、順位づけされた標準パターンの内の上位幾つかの標
準パターン、すなわち、予備選択部5から出力される単
語番号に対応する標準パターンとに基づいてDPマッチ
ングによるパターン認識を行い、その結果を認識候補と
して結果出力部8に出力する。すなわち、標準パターン
の内、入力されたケプストラムに最も近いものが選ばれ
てディスプレイなどの表示部に出力される。なお、パタ
ーン認識部7で行う非線形マッチングには、この実施形
態ではDPマッチングを用いるものとするが、この他、
HMM(Hidden Markov Model)の確率的なモデルや、ニ
ューラルネットワーク等の手法を使用することも可能で
ある。Pattern recognition unit 7 by nonlinear matching
Then, the pre-normalized or post-normalized cepstrum output from the feature quantity extraction unit 3 or the feature quantity normalization unit 4 and some of the upper standard patterns of the ranked standard patterns, that is, the preliminary Pattern recognition by DP matching is performed based on the standard pattern corresponding to the word number output from the selection unit 5, and the result is output to the result output unit 8 as a recognition candidate. That is, the standard pattern that is closest to the input cepstrum is selected and output to the display unit such as a display. In this embodiment, DP matching is used for the non-linear matching performed by the pattern recognition unit 7.
It is also possible to use a probabilistic model of HMM (Hidden Markov Model) or a method such as a neural network.
【0017】上記線形マッチングによる予備選択部5で
は、特徴量抽出部3の出力のケプストラムと標準パター
ン格納部6に記憶されている標準パターンとを比較して
予備選択を行ってもよいが、その場合には、特徴量抽出
部3の出力のケプストラムの数が、同一単語のときに略
同じ数になっていることが必要である。本実施形態で
は、上記特徴量抽出部3の出力の各ケプストラムを特徴
量正規化部4において時間的に正規化するようにしてい
る。以下、この特徴量正規化部4での正規化方法につい
て説明する。The preliminary selection unit 5 based on the linear matching may perform preliminary selection by comparing the cepstrum output from the feature amount extraction unit 3 with the standard pattern stored in the standard pattern storage unit 6. In this case, it is necessary that the number of cepstrum output from the feature amount extraction unit 3 be approximately the same when the same word is used. In this embodiment, each cepstrum output from the feature amount extraction unit 3 is temporally normalized by the feature amount normalization unit 4. The normalization method in the feature quantity normalization unit 4 will be described below.
【0018】上記特徴量抽出部3において得られるケプ
ストラムは、音声区間Tの間に短時間の各フレームごと
に抽出されるが、もし、このケプストラムの時系列を正
規化しない場合には、時間軸上で短時間の各フレームご
とにケプストラムが演算、生成されることになるから、
図2に示すように、同じ単語を異なる時間に発生した場
合に、抽出されるケプストラムの数が異なってくる。す
なわち、図2(A)に示す例では、音声区間Tの間にT
1、T2、T3の合計3つのケプストラムが抽出、生成
されるが、同図(B)に示す例では、音声区間Tの間に
T1、T2、T3、T4の合計4つのケプストラムが抽
出、生成されてしまう。このため、このままではパター
ン認識を行う時の認識性能が低下し、信頼性を悪くする
問題がある。The cepstrum obtained by the feature amount extraction unit 3 is extracted for each frame for a short time during the voice section T. If the time series of this cepstrum is not normalized, the time axis is calculated. Since the cepstrum will be calculated and generated for each frame in the short time above,
As shown in FIG. 2, when the same word occurs at different times, the number of extracted cepstrum differs. That is, in the example shown in FIG.
Although a total of three cepstrums of 1, T2, and T3 are extracted and generated, in the example shown in FIG. 1B, a total of four cepstrums of T1, T2, T3, and T4 are extracted and generated. Will be done. Therefore, if this is left as it is, there is a problem that the recognition performance at the time of performing pattern recognition is deteriorated and the reliability is deteriorated.
【0019】そこで、本発明の実施の形態では、特徴量
正規化部4を設け、特徴量抽出部3で得られたケプスト
ラムの時系列をケプストラム空間上の軌跡に沿って正規
化する。この正規化の方式を、ここでは、SPT(Succ
essive Processing along Trajectory) 方式と称する。
図3は、特徴量正規化部4としてSPT処理部4′を配
置した場合の音声認識装置の構成図を示している。な
お、非線形マッチングによるパターン認識部7として、
DPマッチングによるパターン認識部7′を配置してい
る。Therefore, in the embodiment of the present invention, the feature amount normalization unit 4 is provided and the time series of the cepstrum obtained by the feature amount extraction unit 3 is normalized along the locus in the cepstrum space. This normalization method is referred to here as SPT (Succ
essive Processing along Trajectory) method.
FIG. 3 shows a configuration diagram of a voice recognition device in which an SPT processing unit 4 ′ is arranged as the feature amount normalization unit 4. In addition, as the pattern recognition unit 7 by nonlinear matching,
A pattern recognition section 7'by DP matching is arranged.
【0020】図4は、上記SPT方式のケプストラムの
正規化方法について説明する図である。このSPT処理
部4′においてのケプストラムの正規化方式(以下SP
T方式という)は、次の(1)〜(6)の手順からな
る。FIG. 4 is a diagram for explaining a method of normalizing the SPT type cepstrum. A normalization method of the cepstrum in the SPT processing unit 4 '(hereinafter referred to as SP
The T method) includes the following procedures (1) to (6).
【0021】(1)ケプストラム空間でその軌跡を区切
る長さを固定長として決める。(1) The length that divides the locus in the cepstrum space is determined as a fixed length.
【0022】(2)入力された音声データの開始点と終
了点の間の軌跡を描き、その長さを求める。ただし、こ
の場合の終了点は音声区間の終了点ではなく、適当に決
めた位置(ケプストラムの位置)である。(2) A locus between the start point and the end point of the input voice data is drawn and its length is obtained. However, the end point in this case is not the end point of the voice section but a position (position of the cepstrum) appropriately determined.
【0023】(3)開始点を1つ目の正規化されたケプ
ストラムの位置とする。(3) The starting point is the position of the first normalized cepstrum.
【0024】(4)終了点を越えるまで(5)、(6)
を繰り返す。(4) Until the end point is exceeded (5), (6)
repeat.
【0025】(5)今決めた正規化ケプストラムから軌
跡に沿って固定長だけ進む。(5) Proceed a fixed length along the locus from the normalized cepstrum that has just been determined.
【0026】(6)その位置のケプストラムを線形補間
によって生成し、正規化ケプストラムとする。(6) The cepstrum at that position is generated by linear interpolation and used as the normalized cepstrum.
【0027】この手順により、たとえば図4に示すよう
に開始点をC1、終了点をC5とすれば(C5は音声区
間の終了点ではない。)、最初に生成される正規化ケプ
ストラムS1の位置はC1と同じになり、2つ目の正規
化ケプストラムS2の位置は、図4に示すように少なく
ともC1〜C3の3つの正規化前ケプストラムの位置に
基づいて線形補間によって算出、生成される。線形補間
は、一般的な内分法で行われ、図4に示す例では、S1
からS2の長さが固定長である。このようにして内分法
による線形補間により正規化したケプストラムを順次、
算出、生成していくことにより、図4に示す例では開始
点C1から終了点C5までの軌跡上にS1〜S4の合計
4個の正規化したケプストラムが生成されることにな
る。By this procedure, for example, if the start point is C1 and the end point is C5 as shown in FIG. 4 (C5 is not the end point of the voice section), the position of the normalized cepstrum S1 generated first is set. Becomes the same as C1 and the position of the second normalized cepstrum S2 is calculated and generated by linear interpolation based on the positions of at least three pre-normalized cepstrum C1 to C3 as shown in FIG. The linear interpolation is performed by a general internal division method, and in the example shown in FIG.
The length from S2 to S2 is a fixed length. In this way, the cepstrum normalized by linear interpolation by the internal division method is sequentially
By calculating and generating, in the example shown in FIG. 4, a total of four normalized cepstrum S1 to S4 are generated on the locus from the start point C1 to the end point C5.
【0028】図6は、上記SPT方式の具体的な処理方
法を示すフローチャートである。FIG. 6 is a flowchart showing a specific processing method of the SPT method.
【0029】同図において、C1,C2,・・・,Cm
は、特徴量抽出部3より得られるベクトル量であるケプ
ストラムであり、S1,S2,・・・Snは、SPT処
理されて正規化されたベクトル量のケプストラムを表
す。またWholeLength はケプストラムの軌跡に沿って進
んでいく時の全体の距離を示し、FixedLength は予め設
定した固定長である。In the figure, C1, C2, ..., Cm
Are cepstrums that are vector quantities obtained from the feature quantity extraction unit 3, and S1, S2, ... Sn represent cepstrums of vector quantities that have been SPT-processed and normalized. Also, WholeLength indicates the total distance when moving along the trajectory of the cepstrum, and FixedLength is a preset fixed length.
【0030】まず、ステップST1において初期化し、
変数のNextLengthにFixedLength をセットしておく。S
T2で終了点に達したかどうかの判定を行う。なお、m
は終了点を表す値で適当に決めることができる。図4に
示す例では5である。次に、ST3で正規化前ケプスト
ラム間の距離dを求める。図4に示す例では、最初の処
理でのこの距離dはC2とC1間の距離である。なお、
この距離dには、たとえばユークリッド距離が用いられ
る。また、ST3ではWholeLength が、上記dを加える
ことによって更新される。次に、ST4で、WholeLengt
h とNextLengthとの比較が行われる。つまり、ケプスト
ラム軌跡上進んできた位置(WholeLength )が、次に生
成すべき正規化ベクトルの位置(NextLength)を越えた
かどうかの判定が行われる。図5に示す最初の段階で
は、WholeLength はC2の位置を表し、NextLength は
S2の位置を表すから、このST4では、noとなり、
カウンタiをインクリメントしてST2に戻る。次の段
階では、WholeLength がC3の位置となるから、ST4
では、yesとなり、ST5に進む。ST5は内分法に
よる線形補間を行って、正規化ケプストラムS2の位置
を確定する処理である。以下同様にして、S3、S4と
各正規化ケプストラムが順次算出、生成されていく。First, in step ST1, initialization is performed,
Set FixedLength to the variable NextLength. S
At T2, it is determined whether or not the end point has been reached. Note that m
Is a value indicating the end point and can be appropriately determined. In the example shown in FIG. 4, it is 5. Next, in ST3, the distance d between the pre-normalized cepstrums is obtained. In the example shown in FIG. 4, this distance d in the first processing is the distance between C2 and C1. In addition,
For this distance d, for example, Euclidean distance is used. In ST3, WholeLength is updated by adding d. Next, in ST4, WholeLengt
The comparison between h and NextLength is performed. That is, it is determined whether or not the position (WholeLength) that has advanced on the cepstrum locus exceeds the position (NextLength) of the normalized vector to be generated next. At the first stage shown in FIG. 5, WholeLength represents the position of C2 and NextLength represents the position of S2, so in this ST4, it becomes no,
The counter i is incremented and the process returns to ST2. At the next stage, WholeLength becomes the position of C3, so ST4
Then, yes, and the process proceeds to ST5. ST5 is a process of performing linear interpolation by the internal division method to determine the position of the normalized cepstrum S2. In the same manner, S3 and S4 and the respective normalized cepstrums are sequentially calculated and generated.
【0031】上記のSPT方式では、固定長が一定であ
るために、子音部等、認識すべきための情報をたくさん
持つ部分(変化の激しい部分)ではケプストラム数が多
くなるために音声認識の高性能化を図ることができる。
また、音声の終了点を待つことなくケプストラムの正規
化が順次行われていくために、逐次処理が可能になりシ
ステムの処理速度が速くなる利点がある。In the above-mentioned SPT method, since the fixed length is constant, the number of cepstrum is large in a portion having a lot of information to be recognized, such as a consonant portion (a portion that changes drastically), so that speech recognition is high. Performance can be improved.
Further, since the cepstrum is sequentially normalized without waiting for the end point of the voice, there is an advantage that the sequential processing becomes possible and the processing speed of the system becomes faster.
【0032】図3において線形マッチングによる予備選
択部5は、上記SPT処理部4′において正規化された
ケプストラムと標準パターン格納部6に記憶されている
標準パターンとを線形マッチングにより対比し、パター
ンの似ている標準パターンから粗い順位をつけ、1位か
ら一定の順位までの候補の単語番号をDPマッチングに
よるパターン認識部7′に送る。パターン認識部7′で
は、SPT処理部4′で正規化されたケプストラムと、
予備選択部5から送られてきた単語番号に対応する標準
パターンとをDPマッチングにより対比し、最も近い標
準パターンの単語番号を認識候補として結果出力部8に
出力する。結果出力部8は、得られた認識候補としての
単語番号に対応する単語をディスプレイなどに出力す
る。In FIG. 3, the preliminary selection unit 5 by linear matching compares the cepstrum normalized by the SPT processing unit 4'with the standard pattern stored in the standard pattern storage unit 6 by linear matching, and A rough rank is assigned from similar standard patterns, and candidate word numbers from the first rank to a fixed rank are sent to the pattern recognition unit 7'by DP matching. In the pattern recognition unit 7 ', the cepstrum normalized by the SPT processing unit 4',
The standard pattern corresponding to the word number sent from the preliminary selection unit 5 is compared by DP matching, and the word number of the closest standard pattern is output to the result output unit 8 as a recognition candidate. The result output unit 8 outputs a word corresponding to the obtained word number as a recognition candidate to a display or the like.
【0033】ところで、上述したようにSPT処理部
4′においてケプストラムを正規化することにより、音
声の子音の部分ではケプストラムの数が密になり、母音
の部分では反対に粗く生成される。一方、単語の時間的
な長さの違いは母音の長短が主な原因である。したがっ
て、SPT方式によりケプストラムを正規化する場合、
母音の長短の影響を少なくできるから、単語の時間的な
長さに違いがあっても、その違いをある程度吸収するこ
とができ、正規化されたケプストラム数の数が一致する
場合が増える。図7は、異なる話者が話した「とうきょ
う」の波形を示す。横軸が時間軸に相当し、縦線はSP
T方式による正規化スペクトラムの生成点を示してい
る。上は、0.64秒、下は0.57秒であるが、どち
らもSPT処理することにより22個のケプストラムが
生成され、時間の長さの違いが吸収されている。By normalizing the cepstrum in the SPT processing section 4'as described above, the number of cepstrum is dense in the consonant part of the voice and is coarsely generated in the vowel part. On the other hand, the difference in the temporal length of words is mainly due to the length of vowels. Therefore, when normalizing the cepstrum by the SPT method,
Since the influence of the length of the vowel can be reduced, even if there is a difference in the temporal length of the word, the difference can be absorbed to some extent, and the number of normalized cepstrum numbers is often the same. FIG. 7 shows waveforms of "Tokyo" spoken by different speakers. The horizontal axis corresponds to the time axis, and the vertical line is SP
The generation point of the normalized spectrum by the T method is shown. The upper side is 0.64 seconds and the lower side is 0.57 seconds, but 22 cepstrums are generated by the SPT processing in both cases, and the difference in the length of time is absorbed.
【0034】すなわち、単語の時間的な長さに違いがあ
っても、SPT方式によりケプストラムを正規化するこ
とにより、計算コストの少ない線形マッチングでも有効
な予備選択を行うことができる。ベクトル列の線形マッ
チングは、2つの同数のベクトル列v1,v2,・・・, vn
とv1',v2',・・・, vn ' とのベクトル列同士の距離をThat is, even if there is a difference in the time length of words, by normalizing the cepstrum by the SPT method, effective preliminary selection can be performed even in linear matching with a low calculation cost. Linear matching of vector sequences is performed by using two equal number of vector sequences v 1 , v 2 , ... , v n
And v 1 ', v 2 ', ... , v n '
【0035】[0035]
【数1】 [Equation 1]
【0036】とする計算法であり、計算コストはmに比
例するだけで、DPマッチングに比して少なくて済む。
なおDPマッチングでは、m個のベクトル列とn個のベ
クトル列(一般にm≠n)を扱うために、計算コストは
m×nに比例する。The calculation cost is only proportional to m and can be smaller than that of DP matching.
In DP matching, since m vector sequences and n vector sequences (generally m ≠ n) are handled, the calculation cost is proportional to m × n.
【0037】今、SPT処理部4′において正規化され
た後に得られるケプストラムの並びをs1,s2,・・・, s
n とし、ある単語(たとえば「東京」)の標準パターン
をr1,r2,・・・, rk とする。d(v,w)をベクトル
vとwの間の距離を表す関数とすると、Now, the sequence of the cepstrum obtained after being normalized by the SPT processing unit 4'is s 1 , s 2 , ... , S
Let n be the standard pattern of a certain word (for example, “Tokyo”) be r 1 , r 2 , ... , R k . If d (v, w) is a function representing the distance between the vectors v and w,
【0038】[0038]
【数2】 [Equation 2]
【0039】となり、n−k+1通りのベクトル列同士
の距離が得られ、d1,d2,・・・, d n-k+1 の内一番小さ
い値のものdmin を、この単語に対する標準パターンと
線形マッチチングの距離とする。図8は、線形マッチン
グで標準パターンrと入力パターンsの時系列の時間軸
の対応付けを示している。このような手順を全ての標準
パターンについて行い、dmin を小さい順に並べ、第1
位から所定の順位までの各dmin に対応する標準パター
ンを候補として、その単語番号を予備選択の結果として
出力する。And n−k + 1 different vector sequences
Gives the distance of d1, dTwo, ..., d n-k + 1The smallest of
Value dminWith the standard pattern for this word
Use linear matching distance. Figure 8 shows a linear match
Time axis of time series of standard pattern r and input pattern s
Is shown. Such a procedure for all standards
Do about the pattern, dmin1 in ascending order
Each d from rank to predetermined rankminStandard putter corresponding to
As a candidate and the word number as a result of the preliminary selection.
Output.
【0040】図3において、予備選択部5による線形マ
ッチングによって得られた予備選択候補の単語番号はD
Pマッチングによるパターン認識部7′に送られ、ここ
で、一般によく知られているDPマッチングにより、S
PT処理部4′で得られた正規化ケプストラムのパター
ン認識が行われる。この時に使用される標準パターンは
上記予備選択候補の単語番号に対応する標準パターンだ
けであり、標準パターン格納部6に記憶されている全て
の標準パターンが使われることはない。このため、この
パターン認識部7′での計算コストが小さくなり、処理
を高速化することができる。なお、DPマッチングに代
えて、HMMの確率的なモデルによるパターン認識やニ
ューラルネットワークなどの手法を使うことも可能であ
る。In FIG. 3, the word number of the preliminary selection candidate obtained by the linear matching by the preliminary selection unit 5 is D.
The pattern is sent to the pattern recognizing unit 7 ′ by P matching, and here, by the well-known DP matching, S
The pattern recognition of the normalized cepstrum obtained by the PT processing unit 4'is performed. The standard pattern used at this time is only the standard pattern corresponding to the word number of the preliminary selection candidate, and all the standard patterns stored in the standard pattern storage unit 6 are not used. Therefore, the calculation cost in the pattern recognition unit 7'is reduced, and the processing speed can be increased. Instead of DP matching, it is also possible to use a method such as pattern recognition using a probabilistic model of HMM or a neural network.
【0041】次に、本発明の他の実施形態について図9
を参照して説明する。同図に示す実施形態の音声認識装
置は、SPT処理部4′において、固定長L1の正規化
ケプストラム(L1)と、固定長L2の正規化ケプスト
ラム(L2)とをそれぞれ算出、生成する。固定長L
1、L2は、L1>L2の関係にある。また、線形マッ
チングによる予備選択部5に代えて、連続DPマッチン
グによる予備選択部5′を設ける。そして、固定長の長
い正規化ケプストラム(L1)を連続DPマッチングに
よる予備選択部5′に入力し、固定長の短い正規化ケプ
ストラム(L2)をDPマッチングによるパターン認識
部7′に入力する。なお、連続DPマッチングとは、標
準パターンを、入力パターンの始端から1フレームづつ
ずらしながらDPマッチングを行っていく方法であり、
文章中から単語を抽出するワードスポッティングを行う
ことが出来る。FIG. 9 shows another embodiment of the present invention.
This will be described with reference to FIG. In the speech recognition apparatus of the embodiment shown in the figure, the SPT processing unit 4'calculates and generates a normalized cepstrum (L1) having a fixed length L1 and a normalized cepstrum (L2) having a fixed length L2. Fixed length L
1 and L2 have a relationship of L1> L2. Further, in place of the preliminary selection unit 5 based on linear matching, a preliminary selection unit 5 ′ based on continuous DP matching is provided. Then, the normalization cepstrum (L1) having a long fixed length is input to the preliminary selection unit 5'by continuous DP matching, and the normalization cepstrum (L2) having a short fixed length is input to the pattern recognition unit 7'by DP matching. The continuous DP matching is a method of performing DP matching while shifting the standard pattern by one frame from the starting end of the input pattern.
You can do word spotting to extract words from sentences.
【0042】SPT方式の場合、ケプストラム軌跡上に
おいて固定長進むごとにケプストラムを生成するように
しているから、この固定長の長さが精度を決めると同時
に、この固定長を長くしてやればケプストラムの数が減
る。本発明に係る音声認識装置では、予備選択をする場
合、標準パターンの粗い順位をつければよいために、予
備選択部にはパターン認識部7′で行う最終の認識精度
と同じ精度は必要でない。そこで、SPT処理部4′で
は、予備選択部5′に出力する正規化ケプストラム(L
1)を生成する固定長を長くし、生成されるケプストラ
ムの数を減らしてやる。ケプストラムの数が減ることに
よって、予備選択部5′でのDPマッチングによる計算
コストを減らすことができる。今、SPT処理部4′で
の固定長L1を固定長L2に対して2倍にする場合を考
える。すると、正規化ケプストラムの数は半分となるか
ら、この場合のDPマッチングで計算すべき点の位置
は、図10の黒い点に相当する位置だけとなり、固定長
を倍にしない場合に比べると計算量は4分の1となる。
なお、この予備選択部5′では標準パターンについても
間引きをし、ケプストラムの数を減らしている。図10
は、正規化されたケプストラムの入力パターンs′と標
準ケプストラムのパターン(標準パターン)r′との時
系列の対応付けを示している。本実施形態では、予備選
択部5′で連続DPマッチングを行うようにしている
が、これは、一連の文章中から単語を抽出するワードス
ポッティングを行うためである。すなわち、予備選択部
5′でワードスポッティングを行い、抽出した単語に対
し、パターン認識部7′でDPマッチングを行う。この
連続DPマッチングによる予備選択部5′での実際の手
順について説明すると次のようになる。In the case of the SPT method, since the cepstrum is generated every time the fixed length advances on the cepstrum locus, the length of this fixed length determines the accuracy and at the same time, if the fixed length is lengthened, the number of cepstrums will increase. Is reduced. In the voice recognition apparatus according to the present invention, when the preliminary selection is performed, the rough order of the standard patterns may be set, and therefore the preliminary selection unit does not need the same accuracy as the final recognition accuracy performed by the pattern recognition unit 7 '. Therefore, in the SPT processing unit 4 ', the normalized cepstrum (L
Increase the fixed length to generate 1) and reduce the number of cepstrum generated. By reducing the number of cepstrums, it is possible to reduce the calculation cost due to the DP matching in the preliminary selection unit 5 '. Now, consider a case where the fixed length L1 in the SPT processing unit 4'is doubled with respect to the fixed length L2. Then, since the number of normalized cepstrums is halved, the position of the point to be calculated by DP matching in this case is only the position corresponding to the black point in FIG. 10, which is calculated as compared with the case where the fixed length is not doubled. The amount is one quarter.
The preliminary selection unit 5'decimates the standard patterns to reduce the number of cepstrum. FIG.
Shows the time series correspondence between the normalized cepstrum input pattern s ′ and the standard cepstrum pattern (standard pattern) r ′. In the present embodiment, the preliminary selection unit 5'performs continuous DP matching, but this is for performing word spotting for extracting words from a series of sentences. That is, the preliminary selection unit 5'performs word spotting, and the pattern recognition unit 7'performs DP matching on the extracted word. The actual procedure in the preliminary selection unit 5'by the continuous DP matching will be described below.
【0043】固定長Lを長くして得られた予備選択用の
正規化ケプストラム(L1)の並びs1',s2',・・・, s
n ' と、ある単語(たとえば「東京」)の予備選択用の
標準パターンr1',r2',・・・, rk ' について、連続D
Pマッチングを行い、d1, d2, ・・・を計算する。そし
て,d1, d2, ・・・の内1番小さなものを dmin とす
る。このような手順を全ての標準パターンについて行
い、 dmin を小さい順に並べ、その内第1位から所定の
順位までのものに対応する標準パターンを、予備選択候
補の単語番号としてDPマッチングによるパターン認識
部7′に出力する。Sequence of normalized cepstrum (L1) for preselection obtained by lengthening fixed length L s 1 ', s 2 ', ... , s
For n 'and a standard pattern r 1 ', r 2 ', ... , r k ' for preselection of a word (for example, "Tokyo"), a continuous D
P matching is performed and d 1, d 2 , ... Are calculated. The smallest of d 1, d 2 , ... Is d min . This procedure is performed for all the standard patterns, d min is arranged in ascending order, and the standard patterns corresponding to the first to the predetermined order among them are used as the preliminary selection candidate word numbers for pattern recognition by DP matching. Output to the section 7 '.
【0044】予備選択後のパターン認識処理について
は、図3のものと同じである。The pattern recognition process after the preliminary selection is the same as that shown in FIG.
【0045】次に、本発明の他の実施形態の音声認識装
置について図11を参照して説明する。同図に示す音声
認識装置が図9に示す装置と相違する点は、連続DPマ
ッチングによる予備選択部5′がファジイ演算部50を
備えている点である。このファジイ演算部50は、予備
選択部5′によって粗く順位の付けられた標準パターン
のうち、第1位からどの順位までの標準パターンを予備
選択候補とするかを決定するもので、本実施形態では、
ファジイルールの前件部の入力情報として音声入力時の
背景雑音情報であるS/N比および部分候補数を使用し
ている。S/N比は、音声信号と雑音信号の比率を示
し、音声入力部1からのディジタル音声データに基づい
てS/N検出部9において検出される。また、部分候補
数とは、「ひがしちば」に対して「ちば」「にしちば」
「ほんちば」「ひがしおおみや」のように、ある単語の
部分が他の認識対象単語の部分になっている数(この場
合、「ひがしちば」の部分候補数は4となる)を表すも
ので、この情報は標準パターン格納部6から得るように
している。ファジイ演算部50でのルールはたとえば、
次のように設定される。Next, a voice recognition apparatus according to another embodiment of the present invention will be described with reference to FIG. The voice recognition device shown in the figure is different from the device shown in FIG. 9 in that the preliminary selection unit 5'by continuous DP matching includes a fuzzy calculation unit 50. The fuzzy operation unit 50 determines which of the standard patterns from the first rank to which rank among the standard patterns roughly ranked by the preliminary selection unit 5'as the preliminary selection candidate. Then
As the input information of the antecedent part of the fuzzy rule, the S / N ratio and the number of partial candidates which are background noise information at the time of voice input are used. The S / N ratio indicates the ratio of a voice signal and a noise signal, and is detected by the S / N detector 9 based on the digital voice data from the voice input unit 1. In addition, the number of partial candidates means “Chiba” and “Nishichiba” for “Higashichiba”
It represents the number of words such as "Honchiba" and "Higashiomiya" that are part of other recognition target words (in this case, the number of partial candidates for "Higashichiba" is 4). This information is obtained from the standard pattern storage unit 6. The rule in the fuzzy operation unit 50 is, for example,
It is set as follows:
【0046】IF(部分候補数が小さい)THENしき
い値を小さくする IF(部分候補数が普通)THENしきい値を中くらい
にする IF(部分候補数が大きい)THENしきい値を大きく
する IF(S/N比が小さい=雑音が大きい)THENしき
い値を大きくする IF(S/N比が普通=雑音が普通)THENしきい値
を中くらいにする IF(S/N比が大きい=雑音が小さい)THENしき
い値を小さくする 上記後件部のしきい値は、上位、いくつまでの標準パタ
ーンを予備選択候補とするかを決めるための値であり、
大きいほど、候補数も多くなる(しきい値の切上げ数を
候補数そのものとしても良い)。前件部(入力側)およ
び後件部(出力側)に使用するメンバシップ関数を図1
2に示す。IF (small number of partial candidates) THEN threshold value is small IF (normal number of partial candidates) THEN threshold value is medium IF (large number of partial candidates) THEN threshold value is large IF (S / N ratio is small = noise is large) Increases the THEN threshold IF (S / N ratio is normal = noise is normal) THEN Threshold is medium IF (S / N ratio is large (= Noise is small) The THEN threshold value is made small. The threshold value of the consequent part is a value for determining how many standard patterns up to the standard selection candidate.
The larger the number, the larger the number of candidates (the number of rounded up thresholds may be the number of candidates itself). Figure 1 shows the membership functions used for the antecedent part (input side) and consequent part (output side).
It is shown in FIG.
【0047】ファジイ演算は以下のように行う。The fuzzy operation is performed as follows.
【0048】(1)部分候補数、S/N比より、PS
c,PMc,PLc,PSs,PMsPLsが幾つにな
るかを求める。(1) From the number of partial candidates and the S / N ratio, PS
Find out how many c, PMc, PLc, PSs, PMsPLs are.
【0049】(2)S=max(PSc,PLs),M
=max(PMc,PMs),L=max(PLc,P
Ss) (3)しきい値t=(PSt×S+PMt×M+PLt
×L)/(S+M+L) たとえば、部分候補数が2でS/N比が100だったと
すると、 (1)PSc=0.5,PMc=0.5,PLc=0.
0,PSs=0.0,PMs=0.0,PLs=1.0 (2)S=max(0.5,1.0)=1.0,M=m
ax(0.5,0.0)=0.5,L=max(0.
0,0.0)=0.0 (3)しきい値t=(10×1.0+30×0.5+5
0×0.0)/(1.0+0.5+0.0)=16.7 となり、この時のしきい値は16.7となる。しきい値
の切上げ数を予備選択する標準パターン数とすれば、そ
の数は17となる。(2) S = max (PSc, PLs), M
= Max (PMc, PMs), L = max (PLc, P
Ss) (3) Threshold value t = (PSt × S + PMt × M + PLt
XL) / (S + M + L) For example, if the number of partial candidates is 2 and the S / N ratio is 100, (1) PSc = 0.5, PMc = 0.5, PLc = 0.
0, PSs = 0.0, PMs = 0.0, PLs = 1.0 (2) S = max (0.5,1.0) = 1.0, M = m
ax (0.5,0.0) = 0.5, L = max (0.
0,0.0) = 0.0 (3) Threshold value t = (10 × 1.0 + 30 × 0.5 + 5)
0 × 0.0) / (1.0 + 0.5 + 0.0) = 16.7, and the threshold value at this time is 16.7. If the number of rounded up thresholds is the number of standard patterns to be preselected, the number is 17.
【0050】上記のファジイルールを用いて、S/N比
としきい値の関係を部分候補数1,2,4,5,6の場
合についてグラフにすると図13のようになり、しきい
値がS/N比に応じて滑らかに変化していることがわか
る。The above fuzzy rule is used to graph the relationship between the S / N ratio and the threshold value in the case of partial candidate numbers 1, 2, 4, 5, and 6 as shown in FIG. It can be seen that the change is smooth according to the S / N ratio.
【0051】このようにファジイ演算部50を設けるこ
とにより、周囲の環境に適した数の候補がパターン認識
部7′に送られることになるから、例えば、ノイズの多
い環境では予備選択される標準パターンの数が多くな
り、反対にノイズがあまりない環境では予備選択される
標準パターンの数が少なくなるなど、環境に応じて最適
な標準パターン数が予備選択されることになり、システ
ムの効率を良くできる効果がある。By providing the fuzzy operation section 50 in this way, a number of candidates suitable for the surrounding environment are sent to the pattern recognition section 7 '. Therefore, for example, in the noisy environment, the standard preselected is selected. The optimum number of standard patterns is preselected according to the environment, such as the number of patterns is large and the number of standard patterns preselected in an environment where there is not much noise is reduced, which improves system efficiency. There is a good effect.
【0052】[0052]
【発明の効果】本発明によれば、特徴量算出手段で算出
された特徴量を線形マッチングによって複数の標準パタ
ーンを予備的に選択しておき、この後に非線形マッチン
グによって音声認識を行うようにしているために、処理
速度が速くなるという効果がある。According to the present invention, a plurality of standard patterns are preliminarily selected from the feature amount calculated by the feature amount calculating means by linear matching, and then voice recognition is performed by nonlinear matching. This has the effect of increasing the processing speed.
【0053】また、上記特徴量としてケプストラムを算
出し、さらにケプストラム軌跡上の各ケプストラムの間
隔が予め設定した固定長となるように正規化してから標
準パターンの予備選択を行うことにより、単語発音の時
間的な長さの違いをある程度吸収することができ線形マ
ッチングであっても上記予備選択を精度の高いものとで
きる。Further, by calculating a cepstrum as the above feature amount and further normalizing the intervals of the cepstrum on the cepstrum locus to be a fixed length set in advance, preselection of a standard pattern is carried out, whereby The difference in time length can be absorbed to some extent, and the above preliminary selection can be made highly accurate even in the case of linear matching.
【0054】また、予備選択手段に入力するケプストラ
ムの固定長をより長いものにして正規化することにより
予備選択手段での計算コストを少なくできる。Further, by making the fixed length of the cepstrum input to the preliminary selecting means longer and normalizing it, the calculation cost in the preliminary selecting means can be reduced.
【0055】また、予備選択される標準ケプストラムパ
ターンの数をファジイ演算により動的に変更することに
より、周囲の環境などその時の状況に応じた最適な数の
候補を用いて音声認識を行うことができる。Further, by dynamically changing the number of preselected standard cepstrum patterns by fuzzy calculation, it is possible to perform voice recognition using an optimum number of candidates according to the situation at that time such as the surrounding environment. it can.
【図1】本発明の実施形態の音声認識装置の構成図FIG. 1 is a configuration diagram of a voice recognition device according to an embodiment of the present invention.
【図2】音声区間Tの違いによってケプストラム数が異
なってくることを説明する図FIG. 2 is a diagram for explaining that the number of cepstrum varies depending on the difference in the voice section T.
【図3】本発明の他の実施形態の音声認識装置の構成図FIG. 3 is a configuration diagram of a voice recognition device according to another embodiment of the present invention.
【図4】SPT方式でのケプストラム正規化の方法を説
明する図FIG. 4 is a diagram for explaining a cepstrum normalization method in the SPT method.
【図5】SPT方式でのケプストラム正規化の方法の詳
細を説明する図FIG. 5 is a diagram illustrating details of a cepstrum normalization method in the SPT method.
【図6】SPT方式の動作を示すフローチャートFIG. 6 is a flowchart showing the operation of the SPT method.
【図7】SPT方式において生成されるケプストラム数
は発生時間長に影響されないことを説明するための図FIG. 7 is a diagram for explaining that the number of cepstrum generated in the SPT method is not affected by the generation time length.
【図8】線形マッチングによるベクトル列同士の距離を
求める方法を説明するための図FIG. 8 is a diagram for explaining a method of obtaining a distance between vector sequences by linear matching.
【図9】本発明の他の実施形態の音声認識装置の構成図FIG. 9 is a configuration diagram of a voice recognition device according to another embodiment of the present invention.
【図10】上記図9に示す音声認識装置において連続D
Pマッチングによるベクトル列同士の距離を求める方法
を説明する図10 is a sequence diagram of the speech recognition apparatus shown in FIG.
The figure explaining the method of calculating | requiring the distance of vector sequences by P matching.
【図11】本発明の他の実施形態の音声認識装置の構成
図FIG. 11 is a configuration diagram of a voice recognition device according to another embodiment of the present invention.
【図12】ファジイ演算部に使用されるメンバシップ関
数を示す図FIG. 12 is a diagram showing a membership function used in a fuzzy operation unit.
【図13】ファジイ演算部を用いることにより、S/N
比に対ししきい値が変化することを示すグラフ[FIG. 13] S / N by using a fuzzy operation unit
Graph showing that the threshold changes with the ratio
───────────────────────────────────────────────────── フロントページの続き (72)発明者 三浦 堅弥 京都府京都市下京区木津屋橋通西洞院東入 ル東塩小路606 オムロンソフトウェア株 式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Kenya Miura 606, Omron Software Co., Ltd.
Claims (8)
特徴量算出手段と、前記算出された特徴量と予め記憶さ
れている標準パターンとにより線形マッチングを行い、
その結果に応じて標準パターンを予備的に選択する予備
選択手段と、前記特徴量と前記予備的に選択した標準パ
ターンとにより非線形マッチングを行い、音声認識を行
う音声認識手段と、を備えてなる音声認識装置。1. Linear matching is performed by a feature amount calculating means for calculating a feature amount of input voice data, and the calculated feature amount and a standard pattern stored in advance.
It comprises a preliminary selecting means for preliminarily selecting a standard pattern according to the result, and a voice recognizing means for performing voice recognition by performing non-linear matching by the feature amount and the preliminarily selected standard pattern. Speech recognizer.
のケプストラムを算出するケプストラム算出手段と、前
記算出された各ケプストラムの軌跡上で、各ケプストラ
ムの間隔が予め設定した固定長となるよう、線形補間に
より各ケプストラムを正規化するケプストラム正規化手
段と、前記正規化されたケプストラムのパターンと予め
記憶された標準ケプストラムパターンとにより線形マッ
チングを行い、その結果に応じて標準ケプストラムパタ
ーンを予備的に選択する予備選択手段と、前記正規化さ
れたケプストラムと前記予備的に選択された標準ケプス
トラムパターンとにより非線形マッチングを行い、音声
認識を行う音声認識手段と、を備えてなる音声認識装
置。2. A cepstrum calculating means for calculating a cepstrum for each short-time frame of input voice data, and an interval between each cepstrum on the trajectory of each calculated cepstrum is a preset fixed length. Cepstral normalizing means for normalizing each cepstrum by linear interpolation, and linear matching is performed with the standardized cepstrum pattern and the standard cepstrum pattern stored in advance, and the standard cepstrum pattern is preliminarily determined according to the result. A voice recognition device comprising: preselection means for selecting; and voice recognition means for performing voice recognition by performing non-linear matching with the normalized cepstrum and the preliminarily selected standard cepstrum pattern.
のケプストラムを算出するケプストラム算出手段と、前
記算出された各ケプストラムの軌跡上で、各ケプストラ
ムの間隔Lが予め設定した固定長L1およびL2(L1
>L2)となるよう、線形補間により各ケプストラムを
2種類に正規化するケプストラム正規化手段と、前記固
定長L1の間隔で正規化されたケプストラムのパターン
と予め記憶された標準ケプストラムパターンとにより線
形マッチングまたは非線形マッチングを行い、その結果
に応じて標準ケプストラムパターンを予備的に選択する
予備選択手段と、前記固定長L2の間隔で正規化された
ケプストラムと前記予備的に選択された標準ケプストラ
ムパターンとにより非線形マッチングを行い、音声認識
を行う音声認識手段と、を備えてなる音声認識装置。3. A cepstrum calculating means for calculating a cepstrum for each short-time frame of input voice data, and fixed lengths L1 and L2 in which a distance L between the cepstrum is preset on the calculated trajectory of each cepstrum. (L1
> L2), the cepstrum normalization means for normalizing each cepstrum into two types by linear interpolation, the pattern of the cepstrum normalized at intervals of the fixed length L1 and the standard cepstrum pattern stored in advance Preselection means for preliminarily selecting a standard cepstrum pattern in accordance with matching or non-linear matching, a cepstrum normalized at the fixed length L2 interval, and the preliminarily selected standard cepstrum pattern. A voice recognition device comprising: a voice recognition means for performing non-linear matching by performing voice recognition.
準ケプストラムパターンの数を、音声入力時の背景雑音
情報を前件部の入力情報とするファジイ演算により決め
るファジイ演算手段を設けたことを特徴とする、請求項
1〜3のいずれかに記載する音声認識装置。4. A fuzzy calculation means for determining the number of standard cepstrum patterns preliminarily selected by the preliminary selection means by fuzzy calculation using background noise information at the time of voice input as input information of the antecedent part. The voice recognition device according to any one of claims 1 to 3, characterized in that.
準ケプストラムパターンの数を、該標準ケプストラムパ
ターンの各々の単語の一部分が他の単語の一部分である
数情報を前件部の入力情報とするファジイ演算により決
めるファジイ演算手段を設けたことを特徴とする、請求
項1〜3のいずれかに記載する音声認識装置。5. The number information of the standard cepstrum patterns preliminarily selected by the preselection means, and the numerical information in which a part of each word of the standard cepstrum pattern is a part of another word. The voice recognition device according to any one of claims 1 to 3, further comprising fuzzy calculation means that is determined by fuzzy calculation.
該算出された特徴量と予め記憶されている標準パターン
とにより線形マッチングを行って、その結果に応じて標
準パターンを予備的に選択し、さらに、前記特徴量と前
記予備的に選択した標準パターンとにより非線形マッチ
ングを行い、音声認識を行うことを特徴とする音声認識
方法。6. A feature quantity of input voice data is calculated,
Linear matching is performed using the calculated feature amount and a standard pattern stored in advance, and a standard pattern is preliminarily selected according to the result, and the feature amount and the preliminarily selected standard pattern are further selected. A voice recognition method characterized by performing non-linear matching with and voice recognition.
のケプストラムを算出し、該算出された各ケプストラム
の軌跡上で、各ケプストラムの間隔が予め設定した固定
長となるよう、線形補間により各ケプストラムを正規化
し、該正規化されたケプストラムのパターンと予め記憶
された標準ケプストラムパターンとにより線形マッチン
グを行って、その結果に応じて標準ケプストラムパター
ンを予備的に選択し、さらに、前記正規化されたケプス
トラムと前記予備的に選択された標準ケプストラムパタ
ーンとにより非線形マッチングを行い、音声認識を行う
ことを特徴とする音声認識方法。7. A cepstrum for each short-time frame of input voice data is calculated, and each cepstrum is linearly interpolated on the trajectory of each calculated cepstrum so as to have a preset fixed length. Normalizing the cepstrum, performing a linear matching with the normalized pattern of the cepstrum and a prestored standard cepstrum pattern, and preliminarily selecting a standard cepstrum pattern according to the result, and further performing the normalization. A voice recognition method comprising performing non-linear matching by using the cepstrum and the preliminarily selected standard cepstrum pattern to perform voice recognition.
のケプストラムを算出し、該算出された各ケプストラム
の軌跡上で、各ケプストラムの間隔Lが予め設定した固
定長L1およびL2(L1>L2)となるよう、線形補
間により各ケプストラムを2種類に正規化し、該固定長
L1の間隔で正規化されたケプストラムのパターンと予
め記憶された標準ケプストラムパターンとにより非線形
マッチングを行って、その結果に応じて標準ケプストラ
ムパターンを予備的に選択し、さらに、前記固定長L2
の間隔で正規化されたケプストラムと前記予備的に選択
された標準ケプストラムパターンとにより非線形マッチ
ングを行い、音声認識を行うことを特徴とする音声認識
方法。8. A cepstrum for each short-time frame of input voice data is calculated, and fixed intervals L1 and L2 (L1> L2) in which the interval L of each cepstrum is preset on the trajectory of each calculated cepstrum. ), Each cepstrum is normalized into two types by linear interpolation, and non-linear matching is performed using the pattern of the cepstrum normalized at the interval of the fixed length L1 and the standard cepstrum pattern stored in advance, and the result is obtained. Preliminarily select the standard cepstrum pattern in accordance with the fixed length L2
A voice recognition method characterized by performing a non-linear matching by a standardized cepstrum pattern at a predetermined interval and the preliminarily selected standard cepstrum pattern to perform voice recognition.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8117444A JPH09305195A (en) | 1996-05-13 | 1996-05-13 | Speech recognition device and speech recognition method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8117444A JPH09305195A (en) | 1996-05-13 | 1996-05-13 | Speech recognition device and speech recognition method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09305195A true JPH09305195A (en) | 1997-11-28 |
Family
ID=14711810
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8117444A Pending JPH09305195A (en) | 1996-05-13 | 1996-05-13 | Speech recognition device and speech recognition method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09305195A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7058580B2 (en) | 2000-05-24 | 2006-06-06 | Canon Kabushiki Kaisha | Client-server speech processing system, apparatus, method, and storage medium |
| KR100870059B1 (en) * | 2002-03-04 | 2008-11-24 | 엘아이지넥스원 주식회사 | Roughness sound measuring system and measuring method using the same |
| US7508959B2 (en) | 2003-04-09 | 2009-03-24 | Toyota Jidosha Kabushiki Kaisha | Change information recognition apparatus and change information recognition method |
-
1996
- 1996-05-13 JP JP8117444A patent/JPH09305195A/en active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7058580B2 (en) | 2000-05-24 | 2006-06-06 | Canon Kabushiki Kaisha | Client-server speech processing system, apparatus, method, and storage medium |
| KR100870059B1 (en) * | 2002-03-04 | 2008-11-24 | 엘아이지넥스원 주식회사 | Roughness sound measuring system and measuring method using the same |
| US7508959B2 (en) | 2003-04-09 | 2009-03-24 | Toyota Jidosha Kabushiki Kaisha | Change information recognition apparatus and change information recognition method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4195428B2 (en) | Speech recognition using multiple speech features | |
| US6236963B1 (en) | Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus | |
| US6845357B2 (en) | Pattern recognition using an observable operator model | |
| JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
| US6553342B1 (en) | Tone based speech recognition | |
| US5822728A (en) | Multistage word recognizer based on reliably detected phoneme similarity regions | |
| EP1355296B1 (en) | Keyword detection in a speech signal | |
| US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
| EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
| US6122615A (en) | Speech recognizer using speaker categorization for automatic reevaluation of previously-recognized speech data | |
| US20040167779A1 (en) | Speech recognition apparatus, speech recognition method, and recording medium | |
| JP2011065120A (en) | Voice recognition of all languages, and single letter input method utilizing voice recognition | |
| JP2002507010A (en) | Apparatus and method for simultaneous multi-mode dictation | |
| CN112750445B (en) | Voice conversion method, device and system and storage medium | |
| US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
| US20040117181A1 (en) | Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method | |
| US20040006469A1 (en) | Apparatus and method for updating lexicon | |
| US6823304B2 (en) | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant | |
| JP3039623B2 (en) | Voice recognition device | |
| JPH09305195A (en) | Speech recognition device and speech recognition method | |
| JP2000075889A (en) | Voice recognizing system and its method | |
| JP2001005483A (en) | Word voice recognizing method and word voice recognition device | |
| JP2001083978A (en) | Voice recognition device | |
| JPH0451037B2 (en) |