JPH09212190A - Speech recognition device and sentence recognition device - Google Patents
Speech recognition device and sentence recognition deviceInfo
- Publication number
- JPH09212190A JPH09212190A JP8017415A JP1741596A JPH09212190A JP H09212190 A JPH09212190 A JP H09212190A JP 8017415 A JP8017415 A JP 8017415A JP 1741596 A JP1741596 A JP 1741596A JP H09212190 A JPH09212190 A JP H09212190A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- result
- similarity
- collation
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 abstract description 6
- 230000007246 mechanism Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 description 12
- 238000012795 verification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000008602 contraction Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声認識装置及び
文認識装置に関し、少なくとも一文以上の音響信号又は
文字列情報が連続的に入力される場合の認識に適用し得
るものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device and a sentence recognition device, and can be applied to recognition when acoustic signals or character string information of at least one sentence are continuously input.
【0002】[0002]
【従来の技術】通常の文音声を許容する音声認識装置で
は、予め認識対象となる文を定められた文法に基づいて
記述しておく必要がある。この文法記述規則は、一般的
に有限状態オートマトンや文脈自由文法と呼ばれる形式
が用いられている。2. Description of the Related Art In a speech recognition apparatus that allows ordinary sentence speech, it is necessary to describe a sentence to be recognized in advance based on a predetermined grammar. This grammar description rule generally uses a form called a finite state automaton or a context-free grammar.
【0003】[0003]
【発明が解決しようとする課題】しかしながら、有限状
態オートマトンや文脈自由文法と呼ばれる文法形式は、
文頭から文末迄の単語の連結規則を表現する形式であ
る。従って、この文法規則に合致する文は、当然ながら
必ず文頭から文末までの単語が正しく連なっている必要
がある。However, the grammatical forms called finite state automata and context-free grammars are
It is a format that expresses the rules for connecting words from the beginning to the end of a sentence. Therefore, of course, in a sentence that matches this grammatical rule, the words from the beginning of the sentence to the end of the sentence must be correctly connected.
【0004】一般的に、テキストで書かれている文で
は、このようなことは特に問題とはならないが、連続音
声入力では、完全な文を発声することの方がむしろ少な
く、主語や語尾の省略や名詞止めや間投詞(感動詞)の
多段挿入などが起こっている。このことは、一般のテキ
ストを対象とした文法を音声認識に用いる場合、文頭か
ら始まらず文末までたどり着かない部分文とでも言うべ
きものを、ある程度許容する必要があった。Generally, in a sentence written in a text, such a problem does not cause any particular problem, but in continuous speech input, it is rather less that a complete sentence is uttered. Abbreviations, noun stops, and multiple insertions of interjections (touch words) are occurring. This means that when using a grammar intended for general texts for speech recognition, it is necessary to allow some sub-sentences that do not start from the beginning of a sentence and reach the end of the sentence.
【0005】それでは、この部分文を予め許容する文法
規則を作成し、それを音声認識に適用すれば良いことに
なるが、このような部分文も全て文とみなす文法を記述
することは、その性質から言って、人為的な誤りを引き
起こし易く、また大変な手間が掛かる作業であった。Then, a grammar rule allowing this sub-sentence should be created in advance and applied to speech recognition. However, describing a grammar in which all such sub-sentences are regarded as sentences is By nature, it was a labor-intensive task that was prone to human error.
【0006】このようなことから、音声認識処理中に部
分文を自動的に許容する仕組みを取り入れて、音声認識
対応の文法作成の作業量を著しく軽減し、音声認識率の
向上を図ることできる音声認識装置、少なくとも一文以
上の文字列情報が入力された場合に文又は部分文の認識
を行う文認識装置の提供が要請されている。From the above, it is possible to improve the voice recognition rate by introducing a mechanism for automatically allowing a partial sentence during the voice recognition process to remarkably reduce the amount of work for creating a grammar corresponding to the voice recognition. There is a demand for a voice recognition device, and a sentence recognition device for recognizing a sentence or a partial sentence when at least one sentence of character string information is input.
【0007】[0007]
【課題を解決するための手段】そこで、請求項1の発明
は、少なくとも一文以上の音声が連続的に入力され、音
声認識結果を出力する音声認識装置において、以下の特
徴的な構成で上述の課題を解決するものである。Therefore, the invention of claim 1 is a speech recognition apparatus which receives at least one sentence of speech continuously and outputs a speech recognition result. It solves the problem.
【0008】即ち、請求項1記載の音声認識装置は、
(1)入力音響信号から所定フレーム毎に音響特徴情報
を抽出し、予め記憶されている音声の特徴情報と所定の
文法規則とに基づいて、上記所定フレーム毎に上記音響
特徴情報を照合し、この照合結果を一時的に記憶する
『入力音響分析・照合手段』と、(2)上記フレーム毎
の照合結果から部分文に対する照合結果と、少なくとも
一文に対する照合結果とを求め、上記部分文に対する照
合結果と、上記一文に対する照合結果とを比較して、上
記二つの照合結果からして類似度の高い一方の照合結果
の部分文又は一文を音声認識結果として出力する『部分
文・文類似度判定手段』とを備えるものである。That is, the speech recognition apparatus according to claim 1 is
(1) Acoustic feature information is extracted from the input acoustic signal for each predetermined frame, and the acoustic feature information is collated for each predetermined frame based on the voice feature information stored in advance and a predetermined grammar rule, The "input acoustic analysis / matching means" for temporarily storing the matching result, and (2) the matching result for the partial sentence and the matching result for at least one sentence are obtained from the matching result for each frame, and the matching for the partial sentence is performed. The result is compared with the matching result for the one sentence, and a partial sentence or one sentence of one matching result having a high similarity from the above two matching results is output as a speech recognition result. Means ".
【0009】このような構成を採ることで、入力音響信
号から音響の特徴情報を抽出し、予め記憶されている標
準的な音声の特徴情報と照合を重ねつつ、所定の文法規
則に従って所定フレーム毎に上記音響特徴情報と照合
し、この照合結果を記憶しておいて、部分文としての照
合結果と、一文としての照合結果とを比較して、類似度
の観点からして類似度の高いほうの部分又は一文のいず
れかを入力音響に対する音声認識結果を出力することが
でき、一文としての類似度が低い場合でも、部分文とし
ての類似度が高い場合は、部分文を高い認識率で認識出
力することができるのである。By adopting such a configuration, the acoustic feature information is extracted from the input acoustic signal, and is collated with the standard voice feature information stored in advance, and at predetermined frames according to a predetermined grammatical rule. Is compared with the acoustic feature information described above, the comparison result is stored, the comparison result as a partial sentence is compared with the comparison result as one sentence, and the one having a higher similarity degree from the viewpoint of similarity degree is compared. It is possible to output the speech recognition result for the input sound from either the part or one sentence, and even if the similarity as a sentence is low, the partial sentence is recognized with a high recognition rate if the similarity as a sentence is high. It can be output.
【0010】また、請求項4の発明は、少なくとも一文
以上の文字列情報が入力され、文認識結果を出力する文
認識装置において、以下の特徴的な構成で上述の課題を
解決するものである。According to a fourth aspect of the present invention, in a sentence recognition device which receives character string information of at least one sentence and outputs a sentence recognition result, the above problem is solved by the following characteristic configuration. .
【0011】即ち、請求項4記載の発明の文認識装置
は、(1)入力文字列情報から予め記憶されている単語
辞書情報と所定の文法規則とに基づいて、上記入力文字
列情報を所定長の文字列ごとに照合し、この照合結果を
一時的に記憶する『入力文字列情報照合手段』と、
(2)上記所定長の文字列ごとの照合結果から部分文に
対する照合結果と、少なくとも一文に対する照合結果と
を求め、上記部分文に対する照合結果と、上記一文に対
する照合結果とを比較して、上記二つの照合結果からし
て類似度の高い一方の照合結果の部分文又は一文を文認
識結果として出力する『部分文・文類似度判定手段』と
を備えたものである。That is, the sentence recognition device according to the invention of claim 4 is: (1) The input character string information is predetermined based on the word dictionary information stored in advance from the input character string information and a predetermined grammar rule. "Input character string information collating means" that collates each long character string and temporarily stores this collation result,
(2) A collation result for the partial sentence and a collation result for at least one sentence are obtained from the collation result for each character string having the predetermined length, and the collation result for the partial sentence and the collation result for the one sentence are compared, It is provided with "partial sentence / sentence similarity determination means" for outputting a partial sentence or one sentence of one matching result having a high similarity from the two matching results as a sentence recognition result.
【0012】このような構成を採ることで、入力文字列
情報と、単語辞書情報とによって、入力文字列を単語と
して照合すると共に、所定の文法規則からして、部分文
と一文としての照合を行い、これらの照合結果からし
て、類似度の高いほうの部分又は一文のいずれかを入力
文字列情報に対する文認識結果を出力することができ、
一文としての類似度が低い場合でも、部分文としての類
似度が高い場合は、部分文を高い認識率で認識出力する
ことができるのである。By adopting such a configuration, the input character string information and the word dictionary information are used to collate the input character string as a word, and according to a predetermined grammatical rule, collation as a partial sentence and a sentence is performed. From these collation results, it is possible to output the sentence recognition result for the input character string information for either the part with higher similarity or one sentence,
Even if the similarity as one sentence is low, if the similarity as a partial sentence is high, the partial sentence can be recognized and output with a high recognition rate.
【0013】[0013]
【発明の実施の形態】次に本発明の好適な実施の形態を
図面を用いて説明する。 『第1の実施の形態』:先ず、本発明の第1の実施の形
態の音声認識装置においては、(1)音声認識対象の文
発声入力時点での音声信号と認識文法との照合途中結果
を記憶し、(2)音声入力が完了した時点での文照合類
似度の最大値と、部分文の照合類似度の最大値とを比較
し、(3)部分文類似度の最大値が文照合類似度の最大
値よりも一定以上大きい場合には、最大類似度を得た部
分文を認識結果とし、部分文類似度の最大値が文照合類
似度の最大値よりも一定以上大きくない場合には、文照
合類似度中の最大値を与えた文を認識結果とする判定回
路とを備えるように構成するものである。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, a preferred embodiment of the present invention will be described with reference to the drawings. [First Embodiment]: First, in the speech recognition apparatus according to the first embodiment of the present invention, (1) an interim result of matching between a speech signal and a recognition grammar at the time of inputting speech of a speech recognition target. (2) The maximum value of the sentence matching similarity at the time when the voice input is completed is compared with the maximum value of the matching similarity of the partial sentence, and (3) the maximum value of the partial sentence similarity is the sentence. When the maximum value of the matching similarity is greater than a certain value, the partial sentence with the maximum similarity is set as the recognition result, and the maximum value of the partial sentence similarity is not more than a certain value than the maximum value of the sentence matching similarity. In the sentence matching similarity is provided with a determination circuit that uses a sentence as a recognition result.
【0014】図1は、第1の実施の形態の音声認識装置
の機能構成図である。この図1において、音声認識装置
は、音響分析回路101と、音声区間検出回路102
と、認識回路103と、照合途中結果保持メモリ回路1
04と、部分文判定回路105とから構成されている。FIG. 1 is a functional block diagram of the voice recognition device according to the first embodiment. In FIG. 1, the voice recognition device includes a sound analysis circuit 101 and a voice section detection circuit 102.
A recognition circuit 103 and a collation intermediate result holding memory circuit 1
04 and a sub-sentence determination circuit 105.
【0015】音響分析回路101は、入力音響信号をア
ナログ信号からデジタル信号にA(アナログ)/D(デ
ジタル)変換して、フレームと呼ばれる短時間毎に音響
特徴分析処理を行い、音響特徴パラメータ101Sを算
出するものである。このフレームは、例えば、10ミリ
秒〜30ミリ秒程度である。また、上記A/D変換は、
例えば、サンプリング周波数を例えば、8〜16KHz
程度とする。The acoustic analysis circuit 101 performs A (analog) / D (digital) conversion of an input acoustic signal from an analog signal to a digital signal, performs acoustic characteristic analysis processing at each short time called a frame, and outputs the acoustic characteristic parameter 101S. Is calculated. This frame is, for example, about 10 ms to 30 ms. In addition, the above A / D conversion is
For example, the sampling frequency is, for example, 8 to 16 KHz.
Degree.
【0016】この音響分析回路101は、具体的には、
音響特徴パラメータ101Sとしては、例えば、LPC
(線形予測コード化:Liner Predictio
nCording)ケプストラム係数Cj(t´)を用
いる。尚、ここで、j=0、1、…、J、このJはケプ
ストラム次数、t´は、フレーム番号で音声認識装置の
立ち上げ時刻をt´=0とするものである。The acoustic analysis circuit 101 is, specifically,
As the acoustic feature parameter 101S, for example, LPC
(Linear Prediction Coding: Liner Predictio
nCording) cepstrum coefficient Cj (t ′) is used. Here, j = 0, 1, ..., J, where J is the cepstrum order, t ′ is a frame number, and the start time of the voice recognition device is t ′ = 0.
【0017】このLPCケプストラム係数Cj(t´)
を、音響特徴パラメータ101Sとして音声区間検出回
路102と、認識回路103とに与えるのである。This LPC cepstrum coefficient Cj (t ')
Is given to the voice section detection circuit 102 and the recognition circuit 103 as the acoustic feature parameter 101S.
【0018】音声区間検出回路102は、フレーム毎の
音響特徴パラメータ系列から音声が発声され始めた時
刻、即ち、この時刻を音声始端信号tsとし、更に、発
声が終了した時刻、即ち、この時刻を音声終端信号te
として判定して、認識回路103と部分文判定回路10
5とに与えるのである。The voice section detection circuit 102 sets the time when the voice starts to be uttered from the acoustic feature parameter sequence for each frame, that is, this time as the voice start signal ts, and the time when the utterance ends, that is, this time. Voice termination signal te
And the recognition circuit 103 and the partial sentence determination circuit 10
5 and give.
【0019】この音声区間検出回路102は、具体的に
は、LPCケプストラム係数Cj(t´)の変化から音
声始端信号tsを検出する。この音声始端信号tsを検
出したことについては、説明を分かり易くするために、
音声始端信号tsからの相対フレーム番号をtで表し、
t´=tsのときt=0である。Specifically, the voice section detection circuit 102 detects the voice start signal ts from the change in the LPC cepstrum coefficient Cj (t '). Regarding the detection of the voice start signal ts, in order to make the explanation easy to understand,
The relative frame number from the voice start signal ts is represented by t,
When t '= ts, t = 0.
【0020】即ち、この音声区間検出回路102におい
て、説明を分かり易くすると、相対フレーム番号t=t
´−tsとなり、音声区間をTとすると、T=te−t
s+1となり、音声終端信号teは、te=T−1とな
る。That is, in order to make the explanation easy to understand, the relative frame number t = t in the voice section detection circuit 102.
′ −ts, where T is the voice section, T = te−t
s + 1, and the voice termination signal te becomes te = T-1.
【0021】認識回路103は、予め記憶されている認
識文法規則と、標準的な音声の特徴情報に基づいて、音
響分析回路101から与えられる音響特徴パラメータ1
01SのLPCケプストラム係数Cj(t´)をフレー
ム毎に照合して、その時点までの照合結果を照合途中結
果保持メモリ回路104に与える。The recognition circuit 103 receives the acoustic feature parameter 1 given from the acoustic analysis circuit 101 based on the previously stored recognition grammar rules and standard feature information of voice.
The LPC cepstrum coefficient Cj (t ′) of 01S is collated for each frame, and the collation result up to that point is given to the collation intermediate result holding memory circuit 104.
【0022】尚、上記認識文法規則としては、例えば、
有限状態オートマトン、文脈自由文法、句構造規則、一
般文法、正規文法など種々の文法規則を備えることが好
ましい。As the recognition grammar rule, for example,
It is preferable to provide various grammar rules such as finite state automaton, context-free grammar, phrase structure rule, general grammar, and regular grammar.
【0023】この認識回路103は、具体的には、LP
Cケプストラム係数Cj(t´)をt=0からt=T−
1まで順に照合し、フレーム番号tまでの部分文mの部
分文単語系列PS(m,t)と、その部分文類似度PV
(m,t)と、文nの文単語系列S(n,t)と、その
文類似度V(n,t)とを求めて照合途中結果保持メモ
リ回路104に与えるのである。また、一文の照合が完
了すると照合完了情報103Sを生成出力して部分文判
定回路105に与えるのである。This recognition circuit 103 is, specifically,
The C cepstrum coefficient Cj (t ') is changed from t = 0 to t = T-
The partial sentence word series PS (m, t) of the partial sentence m up to the frame number t and the partial sentence similarity PV
(M, t), the sentence word sequence S (n, t) of the sentence n, and the sentence similarity V (n, t) are obtained and given to the collation intermediate result holding memory circuit 104. Further, when the matching of one sentence is completed, the matching completion information 103S is generated and output and given to the partial sentence determination circuit 105.
【0024】照合途中結果保持メモリ回路104は、認
識回路103からの部分文mの部分文単語系列PS
(m,t)とその部分文類似度PV(m,t)と、文n
の文単語系列S(n,t)とその文類似度V(n,t)
とを一時的に記憶管理し、部分文判定回路105からの
命令制御によって最大類似度が検索制御されるのであ
る。The collation intermediate result holding memory circuit 104 stores the partial sentence word sequence PS of the partial sentence m from the recognition circuit 103.
(M, t) and its partial sentence similarity PV (m, t), and the sentence n
Sentence word sequence S (n, t) and its sentence similarity V (n, t)
Are temporarily stored and managed, and the maximum similarity is searched and controlled by the instruction control from the sub-sentence determination circuit 105.
【0025】部分文判定回路105は、上記音声区間検
出回路102から与えられる音声始端信号tsの情報
と、音声終端信号teの情報とからの判断で音声終端が
確立した時点、又は認識回路103からの照合完了情報
103Sによって、上記照合途中結果保持メモリ回路1
04の照合結果を検索する。即ち、部分文類似度と文類
似度とについて、それぞれの最大類似度を検索するので
ある。The sub-sentence determining circuit 105 determines when the voice end is established by the determination from the information of the voice start signal ts and the information of the voice end signal te given from the voice section detecting circuit 102, or from the recognition circuit 103. According to the verification completion information 103S of
The matching result of 04 is searched. That is, the maximum similarity between the partial sentence similarity and the sentence similarity is searched.
【0026】これらの最大類似度とは、例えば、部分文
類似度最大値MAX PV(m´,T−1)と、文類似
度最大値MAX V(n´,T−1)などである。These maximum similarities are, for example, the maximum partial sentence similarity MAX PV (m ', T-1) and the maximum sentence similarity MAX V (n', T-1).
【0027】そして、部分文類似度の最大値が、文照合
類似度の最大値よりも一定以上大きい場合には、最大類
似度を与える部分文を音声認識結果として出力する。ま
た、部分文類似度の最大値が、文照合類似度の最大値よ
りも一定以上大きくない場合には、文照合類似度中最大
値を得ることができる文を音声認識結果として出力する
のである。If the maximum value of the partial sentence similarity is larger than the maximum value of the sentence matching similarity by a certain amount or more, the partial sentence giving the maximum similarity is output as the speech recognition result. Further, when the maximum value of the partial sentence similarity is not larger than the maximum value of the sentence matching similarity by a certain amount or more, the sentence which can obtain the maximum value among the sentence matching similarities is output as the voice recognition result. .
【0028】この部分文判定回路105は、具体的に
は、例えば、認識回路103から照合完了情報103S
が与えられると、音声終端フレームT−1の部分文mの
類似度PV(m,T−1)の最大値MAX PV(m
´,T−1)と、文nの類似度V(n,T−1)の最大
値MAX V(n´,T−1)を検索する。尚、ここ
で、m´は、類似度の最大値を与える部分文の番号であ
り、n´は、類似度の最大値を与える文の番号である。The sub-sentence judgment circuit 105 is, for example, specifically, the collation completion information 103S from the recognition circuit 103.
Is given, the maximum value MAX PV (m of the similarity PV (m, T-1) of the partial sentence m of the voice termination frame T-1 is given.
', T-1) and the maximum value MAX V (n', T-1) of the similarity V (n, T-1) of the sentence n are searched. Here, m ′ is the number of the partial sentence that gives the maximum value of the similarity, and n ′ is the number of the sentence that gives the maximum value of the similarity.
【0029】上記部分文判定回路105は、上記類似度
の最大値検索によって、部分文最大類似度MAX PV
(m´,T−1)−SHの値が、最大文類似度MAX
V(n´,T−1)よりも大きい場合は、最大類似度を
与える部分文m´を音声認識結果として出力する。ま
た、部分文最大類似度MAX PV(m´,T−1)−
SHの値が、最大文類似度MAX V(n´,T−1)
よりも大きくない場合は、文照合類似度中の最大値n´
を与える文を音声認識結果として出力するのである。The sub-sentence determination circuit 105 searches for the maximum value of the degree of similarity to find the maximum sub-sentence MAX PV.
The value of (m ', T-1) -SH is the maximum sentence similarity MAX.
When it is larger than V (n ′, T−1), the partial sentence m ′ that gives the maximum similarity is output as the speech recognition result. In addition, the maximum similarity of partial sentences MAX PV (m ', T-1)-
The value of SH is the maximum sentence similarity MAX V (n ', T-1).
If it is not greater than, the maximum value n ′ in the sentence matching similarity
The sentence that gives is output as the speech recognition result.
【0030】(音声認識装置の動作):次に、図1の音
声認識装置の動作を説明する。先ず、予め認識回路10
3には、標準的な音声の特徴情報が記憶されていて、更
に、所定の認識文法規則が記憶されているものとする。
次に、音響信号が音響分析回路101に与えられると、
この回路でLPCケプストラム係数Cj(t´)などの
音響特徴パラメータ101Sが求められて、音声区間検
出回路102と認識回路103とに与えられる。この音
響特徴パラメータ101Sは、音声区間検出回路102
に与えられると、この回路102で、発声の音声始端信
号tsが検出されると共に、発声の終了である音声終端
信号teとが検出されて、認識回路103と部分文判定
回路105とに与えられる。(Operation of the voice recognition device): Next, the operation of the voice recognition device of FIG. 1 will be described. First, the recognition circuit 10 in advance
It is assumed that standard voice characteristic information is stored in 3 and a predetermined recognition grammar rule is also stored therein.
Next, when the acoustic signal is given to the acoustic analysis circuit 101,
The acoustic feature parameter 101S such as the LPC cepstrum coefficient Cj (t ') is obtained by this circuit and is given to the voice section detection circuit 102 and the recognition circuit 103. This acoustic feature parameter 101S is used for the voice section detection circuit 102.
To the recognition circuit 103 and the partial sentence determination circuit 105, the circuit 102 detects the voice start signal ts of the utterance and the voice end signal te which is the end of the utterance. .
【0031】一方、音響特徴パラメータ101Sは、認
識回路103にも与えられ、この回路103で、予め記
憶されている認識文法規則と、標準的な音声の特徴情報
に基づいて、音響分析回路101から与えられる音響特
徴パラメータ101SのLPCケプストラム係数Cj
(t´)がフレーム毎に照合されて、その時点までの照
合結果が照合途中結果保持メモリ回路104に与えられ
るのである。即ち、LPCケプストラム係数Cj(t
´)がt=0からt=T−1まで順に照合され、フレー
ム番号tまでの部分文mの部分文単語系列PS(m,
t)と、その部分文類似度PV(m,t)と、文nの文
単語系列S(n,t)と、その文類似度V(n,t)と
が求められて、照合途中結果保持メモリ回路104に一
時記憶されるのである。On the other hand, the acoustic feature parameter 101S is also given to the recognition circuit 103. In this circuit 103, based on the recognition grammar rules stored in advance and the standard feature information of the voice, the acoustic analysis circuit 101 LPC cepstrum coefficient Cj of given acoustic feature parameter 101S
(T ′) is collated for each frame, and the collation result up to that point is given to the collation midway result holding memory circuit 104. That is, the LPC cepstrum coefficient Cj (t
′) Are collated in order from t = 0 to t = T−1, and the partial sentence word series PS (m, of the partial sentence m up to the frame number t
t), the partial sentence similarity PV (m, t), the sentence word series S (n, t) of the sentence n, and the sentence similarity V (n, t) are obtained, and the collation intermediate result is obtained. It is temporarily stored in the holding memory circuit 104.
【0032】これらの部分文mの部分文単語系列PS
(m,t)と、その部分文類似度PV(m,t)と、文
nの文単語系列S(n,t)と、その文類似度V(n,
t)などの照合結果は、照合途中結果保持メモリ回路1
04に与えられると、一時的に記憶管理され、部分文判
定回路105からの命令制御によって最大類似度が検索
制御されるのである。Partial sentence word sequence PS of these partial sentences m
(M, t), the partial sentence similarity PV (m, t), the sentence word sequence S (n, t) of the sentence n, and the sentence similarity V (n, t).
The collation result such as t) is stored in the interim collation result holding memory circuit 1
When it is given to 04, it is temporarily stored and managed, and the maximum similarity is searched and controlled by the instruction control from the sub-sentence determination circuit 105.
【0033】次に、認識回路103から照合完了情報1
03S又は音声終端信号teの情報が部分文判定回路1
05に与えられると、この回路105では、音声終端が
確立した時点で、照合途中結果保持メモリ回路104の
照合結果が検索される。即ち、部分文類似度と文類似度
とについて、それぞれの最大類似度が検索されるのであ
る。Next, the collation completion information 1 from the recognition circuit 103.
03S or the information of the voice termination signal te is the partial sentence determination circuit 1
When it is given to 05, this circuit 105 searches the collation result of the collation intermediate result holding memory circuit 104 at the time when the voice termination is established. That is, the maximum similarity between the partial sentence similarity and the sentence similarity is searched.
【0034】つまり、具体的には、例えば、認識回路1
03から照合完了情報103Sが与えられると、音声終
端フレームT−1の部分文mの類似度PV(m,T−
1)の最大値MAX PV(m´,T−1)と、文nの
類似度V(n,T−1)の最大値MAX V(n´,T
−1)とが検索されるのである。That is, specifically, for example, the recognition circuit 1
When the collation completion information 103S is given from 03, the similarity PV (m, T- of the partial sentence m of the voice termination frame T-1 is given.
1) maximum value MAX PV (m ', T-1) and maximum value MAX V (n', T) of similarity V (n, T-1) of sentence n
-1) and are searched.
【0035】そして、上記類似度の最大値検索によっ
て、部分文最大類似度MAX PV(m´,T−1)−
SHの値が、最大文類似度MAX V(n´,T−1)
よりも大きいと判断される場合は、最大類似度を与える
部分文m´が音声認識結果として出力される。また、部
分文最大類似度MAX PV(m´,T−1)−SHの
値が、最大文類似度MAX V(n´,T−1)よりも
大きくないと判断される場合は、文照合類似度中の最大
値n´を与える文が音声認識結果として出力されるので
ある。Then, by the maximum value search of the above-mentioned similarity degree, the maximum similarity degree of partial sentences MAX PV (m ', T-1)-
The value of SH is the maximum sentence similarity MAX V (n ', T-1).
If it is determined that the maximum similarity is greater than the above, the partial sentence m ′ that gives the maximum similarity is output as the voice recognition result. If it is determined that the value of the maximum partial sentence similarity MAX PV (m ′, T−1) −SH is not greater than the maximum partial sentence similarity MAX V (n ′, T−1), sentence matching is performed. The sentence giving the maximum value n'in the similarities is output as the voice recognition result.
【0036】(本発明の第1の実施の形態の効果):
以上の本発明の第1の実施の形態によれば、音声認識
処理後に部分文の類似度と、文の類似度を比較判定し、
部分文の類似度が文類似度より大きい場合には、部分文
の結果を認識結果とすることによって、音声認識のため
の文法作成時に問題となる部分文対応作業をなくすこと
ができ、文法作成作業効率を著しく高めることができる
のである。(Effects of the first embodiment of the present invention):
According to the above-described first embodiment of the present invention, the similarity between partial sentences and the similarity between sentences are compared and determined after the voice recognition processing,
When the degree of similarity between sub-sentences is higher than the degree of sentence similarity, by using the result of the sub-sentence as the recognition result, it is possible to eliminate the sub-sentence correspondence work that is a problem when creating a grammar for speech recognition. The work efficiency can be significantly increased.
【0037】具体的には、音声認識処理中に部分文を自
動的に許容する仕組みを取り入れ、音声認識対応の文法
作成の作業量を著しく軽減し、部分文音声認識率を向上
する音声認識装置を実現することができる。More specifically, a speech recognition apparatus that incorporates a mechanism for automatically allowing partial sentences during the speech recognition process to significantly reduce the amount of work required to create a grammar corresponding to speech recognition and improve the speech recognition rate of partial sentences. Can be realized.
【0038】『第2の実施の形態』:次に本発明の第2
の実施の形態の音声認識装置においては、(1)音声入
力データと認識文法とを文頭から照合し、文照合類似度
の最大値と文頭からの部分文照合類似度の最大値を求め
る。(2)更に音声入力データと認識文法とを文末から
照合し、文末からの部分文照合類似度の最大値を求め
る。(3)それぞれの文頭と文末からの部分文類似度の
最大値が文照合類似度の最大値より一定以上大きい場合
には、最大類似度を与える部分文を認識結果とし、そう
でない場合には、文照合類似度中最大値を与えた文を認
識結果とする判定回路を備えるように構成する。[Second Embodiment]: Next, the second embodiment of the present invention
In the voice recognition device of the embodiment, (1) the voice input data and the recognition grammar are collated from the beginning of the sentence, and the maximum value of the sentence matching similarity and the maximum value of the partial sentence matching similarity from the beginning of the sentence are obtained. (2) Further, the voice input data and the recognition grammar are collated from the end of the sentence to obtain the maximum value of the partial sentence collation similarity from the end of the sentence. (3) When the maximum value of the partial sentence similarity from the beginning of each sentence and the end of the sentence is larger than the maximum value of the sentence matching similarity by a certain amount or more, the partial sentence giving the maximum similarity is set as the recognition result. , And a determination circuit that uses a sentence having the maximum value among the sentence matching similarities as a recognition result.
【0039】図2は、本発明の第2の実施の形態の音声
認識装置の機能構成図である。この図2において、音声
認識装置は、音響分析回路101と、音声区間検出回路
102と、音声辞書回路201と、順方向認識回路20
2と、逆方向認識回路203と、照合途中結果保持メモ
リ回路104Aと、部分文判定回路105Aとから構成
されている。FIG. 2 is a functional block diagram of a voice recognition device according to the second embodiment of the present invention. In FIG. 2, the voice recognition device includes an acoustic analysis circuit 101, a voice section detection circuit 102, a voice dictionary circuit 201, and a forward direction recognition circuit 20.
2, a backward direction recognition circuit 203, a collation intermediate result holding memory circuit 104A, and a partial sentence determination circuit 105A.
【0040】この第2の実施の形態の音声認識装置にお
いて特徴的な構成は、音声辞書回路201と、順方向認
識回路202と、逆方向認識回路203と、照合途中結
果保持メモリ回路104Aと、部分文判定回路105A
とである。尚、他の、音響分析回路101と、音声区間
検出回路102とは、上述の第1の実施の形態と同じ機
能を担うものである。The speech recognition apparatus of the second embodiment is characterized by a voice dictionary circuit 201, a forward direction recognition circuit 202, a backward direction recognition circuit 203, a collation intermediate result holding memory circuit 104A, Sub-sentence judgment circuit 105A
And The other acoustic analysis circuit 101 and voice section detection circuit 102 have the same functions as those in the first embodiment.
【0041】音声辞書回路201は、予め標準的な音声
の特徴情報を記憶しているものである。この音声特徴情
報を、順方向認識回路202と、逆方向認識回路203
とに与えるものである。The voice dictionary circuit 201 stores standard voice feature information in advance. This voice feature information is used as the forward direction recognition circuit 202 and the backward direction recognition circuit 203.
To give to.
【0042】順方向認識回路202は、音響分析回路1
01から音響特徴パラメータ101Sを与えられると、
予め記憶されている認識文法規則に基づいて、音声辞書
回路201に記憶されている音声特徴情報を用いて、音
響特徴パラメータ101Sを入力された順番に順方向に
照合して、順方向照合結果を照合途中結果保持メモリ回
路104Aに記憶するのである。The forward direction recognition circuit 202 is the acoustic analysis circuit 1
When the acoustic feature parameter 101S is given from 01,
Based on the recognition grammar rules stored in advance, the voice feature information stored in the voice dictionary circuit 201 is used to collate the acoustic feature parameters 101S in the input order in the forward direction. It is stored in the collation midway result holding memory circuit 104A.
【0043】即ち、音響特徴パラメータ101Sである
LPCケプストラム係数Cj(t)をt=0からt=T
−1まで文頭から順方向照合し、フレーム番号tまでの
順方向部分文mの単語系列FS(m)と、その類似度F
V(m)と、文nの単語系列S(n)と、その類似度V
(n)とを求めて照合途中結果保持メモリ回路104A
に与えるのである。That is, the LPC cepstrum coefficient Cj (t), which is the acoustic feature parameter 101S, is changed from t = 0 to t = T.
Forward matching is performed from the beginning of the sentence up to -1, and the word sequence FS (m) of the forward partial sentence m up to the frame number t and the similarity F thereof.
V (m), the word sequence S (n) of the sentence n, and its similarity V
(N) is obtained, and the interim collation result holding memory circuit 104A is obtained.
To give to.
【0044】逆方向認識回路203は、音響分析回路1
01から音響特徴パラメータ101Sを与えられると、
予め記憶されている認識文法規則に基づいて、音声辞書
回路201に記憶されている音声特徴情報を用いて、音
響特徴パラメータ101Sを入力された順番とは逆に、
音声終端teから音声始端tsまでの逆方向に照合し
て、逆方向照合結果を照合途中結果保持メモリ回路10
4Aに記憶するのである。The backward direction recognition circuit 203 is the acoustic analysis circuit 1
When the acoustic feature parameter 101S is given from 01,
On the basis of the recognition grammar rules stored in advance, the voice feature information stored in the voice dictionary circuit 201 is used to reverse the order in which the acoustic feature parameters 101S are input,
The backward collation result from the voice end te to the voice start end ts is collated, and the backward collation result is held in the collation intermediate result holding memory circuit 10.
It is stored in 4A.
【0045】即ち、音響特徴パラメータ101Sである
LPCケプストラム係数Cj(t)をt=T−1からt
=0まで文末から文頭へ照合して、フレーム0までの逆
方向部分文Sの単語系列BS(S)とその類似度BV
(S)とを照合途中結果保持メモリ回路104Aに与え
るのである。That is, the LPC cepstrum coefficient Cj (t), which is the acoustic feature parameter 101S, is calculated from t = T-1 to t.
From the end of the sentence to the beginning of the sentence until = 0, the word sequence BS (S) of the backward partial sentence S up to frame 0 and its similarity BV
(S) is given to the mid-verification result holding memory circuit 104A.
【0046】照合途中結果保持メモリ回路104Aは、
順方向認識回路202からの順方向部分文mの単語系列
FS(m)とその類似度FV(m)と、文nの単語系列
S(n)とその類似度V(n)と、逆方向認識回路20
3からの逆方向部分文Sの単語系列BS(S)とその類
似度BV(S)とを記憶管理して、部分文判定回路10
5Aから部分文の最大類似度と、文の最大類似度とが検
索制御されるのである。The mid-verification result holding memory circuit 104A
The word sequence FS (m) of the forward partial sentence m from the forward recognition circuit 202 and its similarity FV (m), the word sequence S (n) of the sentence n and its similarity V (n), and the reverse direction. Recognition circuit 20
The partial sentence determination circuit 10 stores and manages the word sequence BS (S) of the backward partial sentence S from 3 and its similarity BV (S).
From 5A, the maximum similarity of the partial sentence and the maximum similarity of the sentence are search-controlled.
【0047】部分文判定回路105Aは、照合途中結果
保持メモリ回路104Aを検索して、部分文類似度の最
大値と、文照合類似度の最大値を選び出す。そして、部
分文類似度の最大値が文照合類似度の最大値よりも一定
以上大きい場合には、最大類似度を得ている部分文を音
声認識結果として出力する。また、部分文類似度の最大
値が文照合類似度の最大値よりも一定以上大きくない場
合は、文照合類似度中最大値を得る文を音声認識結果と
して出力するのである。The sub-sentence determination circuit 105A searches the collation intermediate result holding memory circuit 104A and selects the maximum value of the sub-sentence similarity and the maximum value of the sentence collation similarity. When the maximum value of the partial sentence similarity is larger than the maximum value of the sentence matching similarity by a certain amount or more, the partial sentence having the maximum similarity is output as the voice recognition result. Further, when the maximum value of the partial sentence similarity is not larger than the maximum value of the sentence matching similarity by a certain amount or more, the sentence which obtains the maximum value among the sentence matching similarities is output as the voice recognition result.
【0048】即ち、この部分文判定回路105Aは、順
方向部分文mの類似度FV(m)と、逆方向部分文Sの
類似度BV(S)中の最大値MAX PVと、文nの類
似度V(n)の最大値MAX Vとを検索するのであ
る。That is, the sub-sentence determining circuit 105A determines the similarity FV (m) of the forward sub-sentence m, the maximum value MAX PV in the similarity BV (S) of the backward sub-sentence S, and the sentence n. The maximum value MAX V of the similarity V (n) is searched.
【0049】これによって、もし部分文の最大類似度M
AX PV−SH(文の優先度を表すゼロよりも大きい
閾値である。)の値が、文の最大類似度MAX Vより
も大きい場合は、部分文の最大類似度MAX PVを与
える順方向部分文m又は逆方向部分文Sを音声認識結果
として出力するのである。また、部分文の最大類似度M
AX PV−SHの値が、文の最大類似度MAX Vよ
りも大きくない場合は、最大類似度を得ることができる
文を音声認識結果として出力するのである。As a result, if the maximum similarity M of the partial sentence is
When the value of AX PV-SH (which is a threshold value greater than zero indicating the priority of a sentence) is larger than the maximum similarity MAX V of a sentence, a forward portion that gives the maximum similarity MAX PV of a partial sentence The sentence m or the backward partial sentence S is output as the voice recognition result. In addition, the maximum similarity M of partial sentences
When the value of AX PV-SH is not larger than the maximum similarity MAX V of the sentence, the sentence that can obtain the maximum similarity is output as the speech recognition result.
【0050】(音声認識装置の動作): 次に、図2
の音声認識装置の動作を説明する。先ず、予め順方向認
識回路202と、逆方向認識回路203とには、所定の
認識文法規則が記憶されているものとする。更に、音声
辞書回路201には、標準的な音声の特徴情報が記憶さ
れているものとする。次に、音響信号が音響分析回路1
01に与えられると、この回路でLPCケプストラム係
数Cj(t´)などの音響特徴パラメータ101Sが求
められて、音声区間検出回路102と順方向認識回路2
02と逆方向認識回路203とに与えられる。(Operation of Speech Recognition Device) Next, referring to FIG.
The operation of the voice recognition device will be described. First, it is assumed that a predetermined recognition grammar rule is stored in advance in the forward direction recognition circuit 202 and the backward direction recognition circuit 203. Furthermore, it is assumed that the voice dictionary circuit 201 stores standard feature information of voice. Next, the acoustic signal is the acoustic analysis circuit 1
01, the acoustic characteristic parameter 101S such as the LPC cepstrum coefficient Cj (t ′) is obtained by this circuit, and the voice section detecting circuit 102 and the forward direction recognizing circuit 2 are obtained.
02 and the reverse direction recognition circuit 203.
【0051】この音響特徴パラメータ101Sは、音声
区間検出回路102に与えられると、この回路102
で、発声の音声始端信号tsが検出されると共に、発声
の終了である音声終端信号teとが検出されて、順方向
認識回路202と逆方向認識回路203とに与えられ
る。When this acoustic feature parameter 101S is supplied to the voice section detection circuit 102, this circuit 102S.
At the same time, the voice start signal ts of utterance is detected, and the voice end signal te which is the end of utterance is detected and applied to the forward direction recognition circuit 202 and the backward direction recognition circuit 203.
【0052】音響特徴パラメータ101Sと発声の音声
始端信号tsと音声終端信号teとが順方向認識回路2
02に与えられると、予め記憶されている認識文法規則
に基づいて、音声辞書回路201に記憶されている音声
特徴情報も用いて、音響特徴パラメータ101Sが入力
された順番に順方向に照合されて、順方向照合結果が照
合途中結果保持メモリ回路104Aに与えられるのであ
る。The acoustic feature parameter 101S, the voice start signal ts of the utterance, and the voice end signal te are the forward direction recognition circuit 2
When given to No. 02, the acoustic feature parameters 101S are collated in the forward order in the input order using the speech feature information stored in the voice dictionary circuit 201 based on the recognition grammar rules stored in advance. The forward verification result is given to the mid-verification result holding memory circuit 104A.
【0053】具体的には、音響特徴パラメータ101S
であるLPCケプストラム係数Cj(t)をt=0から
t=T−1まで文頭から順方向に照合され、フレーム番
号tまでの順方向部分文mの単語系列FS(m)と、そ
の類似度FV(m)と、文nの単語系列S(n)と、そ
の類似度V(n)とが求められて照合途中結果保持メモ
リ回路104Aに与えられる。Specifically, the acoustic feature parameter 101S
The LPC cepstrum coefficient Cj (t) is collated from t = 0 to t = T−1 in the forward direction from the beginning of the sentence, and the word sequence FS (m) of the forward direction partial sentence m up to the frame number t and its similarity. FV (m), the word sequence S (n) of the sentence n, and the similarity V (n) thereof are obtained and given to the collation intermediate result holding memory circuit 104A.
【0054】また、音響特徴パラメータ101Sと発声
の音声始端信号tsと音声終端信号teとが逆方向認識
回路203に与えられると、予め記憶されている認識文
法規則に基づいて、音声辞書回路201に記憶されてい
る音声特徴情報をも用いて、音響特徴パラメータ101
Sが入力された順番とは逆に、音声終端信号teから音
声始端信号tsまでの逆方向に照合されて、逆方向照合
結果が照合途中結果保持メモリ回路104Aに与えられ
るのである。Further, when the acoustic feature parameter 101S, the voice start signal ts of the utterance, and the voice end signal te are given to the backward direction recognition circuit 203, the voice dictionary circuit 201 receives the voice grammar circuit 201 based on the recognition grammar rules stored in advance. The acoustic feature parameter 101 is also stored using the stored voice feature information.
Contrary to the order in which S is input, collation is performed in the reverse direction from the voice end signal te to the voice start signal ts, and the backward collation result is given to the collation midway result holding memory circuit 104A.
【0055】具体的には、音響特徴パラメータ101S
であるLPCケプストラム係数Cj(t)をt=T−1
からt=0まで文末から文頭へ照合されて、フレーム0
までの逆方向部分文Sの単語系列BS(S)とその類似
度BV(S)とが照合途中結果保持メモリ回路104A
に与えられる。Specifically, the acoustic feature parameter 101S
LPC cepstrum coefficient Cj (t) is t = T-1
From the end of the sentence to the beginning of the sentence from 0 to t = 0, and the frame 0
Up to and including the word sequence BS (S) of the backward partial sentence S and its similarity BV (S) are in the middle of collation result holding memory circuit 104A.
Given to.
【0056】照合途中結果保持メモリ回路104Aで
は、順方向認識回路202からの順方向部分文mの単語
系列FS(m)とその類似度FV(m)と、文nの単語
系列S(n)とその類似度V(n)と、逆方向認識回路
203からの逆方向部分文Sの単語系列BS(S)とそ
の類似度BV(S)とが記憶管理されて、部分文判定回
路105Aから部分文の最大類似度と、文の最大類似度
とが検索制御されるのである。In the collation intermediate result holding memory circuit 104A, the word sequence FS (m) of the forward partial sentence m from the forward recognition circuit 202 and its similarity FV (m) and the word sequence S (n) of the sentence n. And its similarity V (n), the word sequence BS (S) of the backward partial sentence S from the backward recognition circuit 203, and its similarity BV (S) are stored and managed, and the partial sentence determination circuit 105A outputs them. The maximum similarity of the partial sentence and the maximum similarity of the sentence are search-controlled.
【0057】この部分文判定回路105Aによる検索に
よって、部分文類似度の最大値と、文照合類似度の最大
値とが選び出される。そして、部分文類似度の最大値が
文照合類似度の最大値よりも一定以上大きい場合には、
最大類似度を得ている部分文が音声認識結果として出力
される。また、部分文類似度の最大値が文照合類似度の
最大値よりも一定以上大きくない場合は、文照合類似度
中最大値を得る文が音声認識結果として出力されるので
ある。By the search by the partial sentence determination circuit 105A, the maximum value of the partial sentence similarity and the maximum value of the sentence matching similarity are selected. Then, when the maximum value of the partial sentence similarity is larger than the maximum value of the sentence matching similarity by a certain amount or more,
The partial sentence that has the maximum similarity is output as the voice recognition result. When the maximum value of the partial sentence similarity is not higher than the maximum value of the sentence matching similarity by a certain amount or more, the sentence that obtains the maximum value among the sentence matching similarities is output as the voice recognition result.
【0058】即ち、この部分文判定回路105Aでは、
順方向部分文mの類似度FV(m)と、逆方向部分文S
の類似度BV(S)中の最大値MAX PVと、文nの
類似度V(n)の最大値MAX Vとが検索するのであ
る。That is, in this sub-sentence determination circuit 105A,
The similarity FV (m) of the forward sub-sentence m and the backward sub-sentence S
The maximum value MAX PV of the similarity BV (S) and the maximum value MAX V of the similarity V (n) of the sentence n are searched.
【0059】これによって、部分文の最大類似度MAX
PV−SH(文の優先度を表すゼロよりも大きい閾値
である。)の値が、文の最大類似度MAX Vよりも大
きい場合は、部分文の最大類似度MAX PVを与える
順方向部分文m又は逆方向部分文Sが音声認識結果とし
て出力されるのである。また、部分文の最大類似度MA
X PV−SHの値が、文の最大類似度MAX Vより
も大きくない場合は、最大類似度を得ることができる文
が音声認識結果として出力されるのである。As a result, the maximum similarity MAX of partial sentences is obtained.
When the value of PV-SH (a threshold value greater than zero indicating the priority of a sentence) is larger than the maximum similarity MAX V of a sentence, a forward partial sentence that gives the maximum similarity MAX PV of a partial sentence The m or backward partial sentence S is output as the voice recognition result. Also, the maximum similarity MA of partial sentences
When the value of X PV-SH is not larger than the maximum similarity MAX V of the sentence, the sentence that can obtain the maximum similarity is output as the speech recognition result.
【0060】(本発明の第2の実施の形態の効果):
以上の本発明の第2の実施の形態の音声認識装置によ
れば、順方向の部分文の類似度と、更に逆方向の部分文
と文の類似度とを比較判定し、部分文の類似度が文類似
度より大きい場合には、部分文の結果を認識結果とする
ことによって、音声認識のための文法作成時に問題とな
る部分文対応作業をなくすことができ、文法作成作業効
率を著しく高めることができるのである。(Effects of the second embodiment of the present invention):
According to the speech recognition apparatus of the second embodiment of the present invention described above, the similarity between the forward partial sentences and the similarity between the backward partial sentences and the sentences are compared and determined to determine the similarity of the partial sentences. When the degree is higher than the sentence similarity, by using the result of the sub-sentence as the recognition result, it is possible to eliminate the sub-sentence correspondence work which is a problem when creating the grammar for speech recognition, and the grammar creation work efficiency is significantly improved. It can be increased.
【0061】更に、逆方向部分文では、発声時に頻発す
る接頭語、例えば、「えーと」、「あのー」などの語に
対する認識対象からの除去を容易に行うことができ、実
質的な認識性能の向上にも寄与することができるのであ
る。Further, in the backward partial sentence, it is possible to easily remove a prefix frequently occurring during utterance, for example, words such as "er" and "an", from the recognition target, and to obtain a substantial recognition performance. It can also contribute to improvement.
【0062】従って、音声認識処理中に部分文を自動的
に許容する仕組みを取り入れ、音声認識対応の文法作成
の作業量を著しく軽減し、部分文音声認識率を向上する
音声認識装置を実現することができる。Therefore, a mechanism for automatically permitting partial sentences during the speech recognition process is introduced, and the amount of work for creating a grammar corresponding to speech recognition is significantly reduced, and a speech recognition apparatus for improving the speech recognition rate of partial sentences is realized. be able to.
【0063】(他の実施の形態): (1)尚、上述
の実施の形態において、文は一般的には最小構成単位で
ある語から、語がいくつか集まってできる句、句が文の
形をしているときに節というような階層で形成されてい
るので、一文に対して部分文は、一つの節、一つの句、
最小単位の語のいずれである場合でもよい。また、一文
が、節と節とが接続されている場合も適用することがで
きる。(Other Embodiments): (1) In the above embodiment, a sentence is generally a minimum unit, and a phrase formed of several words, or a phrase is a sentence. When a shape is formed, it is formed in a hierarchy such as a clause, so a sub-sentence is one clause, one phrase,
It may be any of the minimum unit words. In addition, one sentence can be applied even when clauses are connected to each other.
【0064】(2)また、LPCケプストラムの他に、
LPCメル(mel)ケプストラムや、最も簡単なパワ
ースペクトラム(スペクトルフォルマント)で特徴を捕
らえることもできるし、また、動的パラメータであるデ
ルタケプストラム(ケプストラムの時間的な変化の量を
時間差分によって表すもの)で特徴を捕らえることも好
ましい。(2) In addition to the LPC cepstrum,
Features can be captured by the LPC mel cepstrum or the simplest power spectrum (spectral formant), and the dynamic parameter delta cepstrum (the amount of time change of the cepstrum is expressed by time difference). It is also preferable to capture the feature with).
【0065】(3)更に、上述の音声認識では、連続D
P(動的計画法:DynamicProgrammin
g:非線形伸縮パターン)マッチングによって部分文、
文に対する照合を行うこともよい。また、統計的・確率
的パターン認識であるHMM(Hidden Mark
ov Model:隠れマルコフモデル)法を用いるこ
とも好ましい。(3) Further, in the above speech recognition, continuous D
P (Dynamic Programming: DynamicProgramming
g: Non-linear expansion / contraction pattern) Partial sentence by matching,
It is also possible to collate the sentences. In addition, HMM (Hidden Mark) which is statistical / probabilistic pattern recognition is used.
ov Model: Hidden Markov Model) method is also preferably used.
【0066】(4)更にまた、音声認識装置での部分
文、文を認識だけでなく、一文以上の文字列を入力され
て、文を認識する文認識装置としても適用することがで
きる。具体的には、例えば、OCR(文字読取装置)な
どで文字を読み取り、この読み取られた文字列を、単語
辞書を使用して認識回路や部分文判定回路で処理するこ
とで部分文、一文の認識を行うことができる。(4) Furthermore, the present invention can be applied not only to recognition of partial sentences and sentences by the voice recognition device, but also to a sentence recognition device which recognizes a sentence when one or more character strings are input. Specifically, for example, a character is read by an OCR (character reading device) or the like, and the read character string is processed by a recognition circuit or a partial sentence determination circuit using a word dictionary to generate a partial sentence or a single sentence. Can recognize.
【0067】(5)また、文を入力しているデータベー
スから特定の部分を探し出す場合にも適用することがで
き、情報検索の分野にも適用することができる。(5) It can also be applied to a case where a specific part is searched out from a database in which a sentence is input, and it can also be applied to the field of information retrieval.
【0068】[0068]
【発明の効果】以上述べたように請求項1記載の発明
は、少なくとも一文以上の音声が連続的に入力され、音
声認識結果を出力する音声認識装置において、入力音響
信号から所定フレーム毎に音響特徴情報を抽出し、予め
記憶されている音声の特徴情報と所定の文法規則とに基
づいて、上記所定フレーム毎に上記音響特徴情報を照合
し、この照合結果を一時的に記憶する入力音響分析・照
合手段と、フレーム毎の照合結果から部分文に対する照
合結果と、少なくとも一文に対する照合結果とを求め、
上記部分文に対する照合結果と、上記一文に対する照合
結果とを比較して、二つの照合結果からして類似度の高
い一方の照合結果の部分文又は一文を音声認識結果とし
て出力する部分文・文類似度判定手段とを備えるもので
ある。As described above, according to the first aspect of the invention, in a voice recognition device in which at least one sentence of voice is continuously input and a voice recognition result is output, an audio signal is output from an input audio signal at predetermined frames. An input acoustic analysis that extracts characteristic information, collates the acoustic characteristic information for each predetermined frame based on prestored characteristic information of voice and a predetermined grammar rule, and temporarily stores the collation result. -The matching means and the matching result for the partial sentence and the matching result for at least one sentence are obtained from the matching result for each frame,
A partial sentence / sentence that compares the matching result for the sub-sentence with the matching result for the one sentence and outputs one of the matching partial sentences or one sentence having a high similarity from the two matching results as the speech recognition result. And a similarity determining means.
【0069】このような構成を採ることで、本発明は、
音声認識処理中に部分文を自動的に許容する仕組みを取
り入れ、音声認識対応の文法作成の作業量を著しく軽減
し、部分文音声認識率を向上する音声認識装置を実現す
ることができる。By adopting such a configuration, the present invention provides
It is possible to implement a speech recognition apparatus that incorporates a mechanism for automatically allowing partial sentences during the speech recognition process, significantly reduces the amount of work for creating a grammar corresponding to speech recognition, and improves the speech recognition rate of partial sentences.
【0070】また、請求項4記載の発明は、少なくとも
一文以上の文字列情報が入力され、文認識結果を出力す
る文認識装置において、入力文字列情報から予め記憶さ
れている単語辞書情報と所定の文法規則とに基づいて、
上記入力文字列情報を所定長の文字列ごとに照合し、こ
の照合結果を一時的に記憶する入力文字列情報照合手段
と、所定長の文字列ごとの照合結果から部分文に対する
照合結果と、少なくとも一文に対する照合結果とを求
め、部分文に対する照合結果と、一文に対する照合結果
とを比較して、二つの照合結果からして類似度の高い一
方の照合結果の部分文又は一文を文認識結果として出力
する部分文・文類似度判定手段とを備えるものである。According to a fourth aspect of the present invention, in a sentence recognition device in which character string information of at least one sentence is input and a sentence recognition result is output, predetermined word dictionary information and predetermined word dictionary information are input from the input character string information. Based on the grammar rules of
The input character string information is collated for each character string of a predetermined length, input character string information collating means for temporarily storing the collation result, and the collation result for the partial sentence from the collation result of each character string of the predetermined length, The collation result for at least one sentence is obtained, the collation result for the partial sentence is compared with the collation result for one sentence, and the sub-sentence or one sentence of the one collation result having a high similarity from the two collation results is the sentence recognition result. The sub-sentence / sentence similarity determining means for outputting
【0071】このような構成を採ることで、本発明は、
少なくとも一文以上の文字列情報が入力された場合に一
文又は部分文の文認識を行う文認識装置を実現すること
ができる。By adopting such a configuration, the present invention provides
It is possible to realize a sentence recognition device that recognizes a sentence or a partial sentence when character string information of at least one sentence is input.
【図1】本発明の第1の実施の形態の音声認識装置の機
能構成図である。FIG. 1 is a functional configuration diagram of a voice recognition device according to a first embodiment of this invention.
【図2】本発明の第2の実施の形態の音声認識装置の機
能構成図である。FIG. 2 is a functional configuration diagram of a voice recognition device according to a second embodiment of the present invention.
101…音響分析回路、101S…音響特徴パラメー
タ、102…音声区間検出回路、103…認識回路、1
04、104A…照合途中結果保持メモリ回路、10
5、105A…部分文判定回路、201…音声辞書回
路、202…順方向認識回路、203…逆方向認識回
路、MAX PV(m´,T−1)…部分文類似度最大
値、MAX V(n´,T−1)…文類似度最大値、t
s…音声始端信号、te…音声終端信号、m…部分文、
n…一文、PS(m,t)…部分文単語系列、PV
(m,t)…部分文類似度、S(n,t)…文単語系
列、V(n,t)…文類似度。101 ... Acoustic analysis circuit, 101S ... Acoustic feature parameter, 102 ... Voice section detection circuit, 103 ... Recognition circuit, 1
04, 104A ... Collation intermediate result holding memory circuit, 10
5, 105A ... Sub-sentence determination circuit, 201 ... Voice dictionary circuit, 202 ... Forward recognition circuit, 203 ... Reverse recognition circuit, MAX PV (m ', T-1) ... Sub-sentence maximum value, MAX V ( n ′, T−1) ... maximum value of sentence similarity, t
s ... voice start signal, te ... voice end signal, m ... partial sentence,
n ... one sentence, PS (m, t) ... partial sentence word series, PV
(M, t) ... partial sentence similarity, S (n, t) ... sentence word sequence, V (n, t) ... sentence similarity.
Claims (5)
力され、音声認識結果を出力する音声認識装置におい
て、 入力音響信号から所定フレーム毎に音響特徴情報を抽出
し、予め記憶されている音声の特徴情報と所定の文法規
則とに基づいて、上記所定フレーム毎に上記音響特徴情
報を照合し、この照合結果を一時的に記憶する入力音響
分析・照合手段と、 上記フレーム毎の照合結果から部分文に対する照合結果
と、少なくとも一文に対する照合結果とを求め、上記部
分文に対する照合結果と、上記一文に対する照合結果と
を比較して、上記二つの照合結果からして類似度の高い
一方の照合結果の部分文又は一文を音声認識結果として
出力する部分文・文類似度判定手段とを備えたことを特
徴とする音声認識装置。1. A voice recognition device in which voices of at least one sentence are continuously input and a voice recognition result is output, and acoustic feature information is extracted from an input acoustic signal for each predetermined frame, and the voice feature information stored in advance is stored. Based on the characteristic information and a predetermined grammar rule, the acoustic characteristic information is collated for each of the predetermined frames, and an input acoustic analysis / collation means for temporarily storing the collation result, and a portion from the collation result for each frame. The collation result for the sentence and the collation result for at least one sentence are obtained, the collation result for the partial sentence is compared with the collation result for the one sentence, and one collation result having a high similarity from the two collation results is obtained. And a partial sentence / sentence similarity determining unit that outputs the partial sentence or one sentence as a speech recognition result.
系列の照合によって得られる類似度を含むものであるこ
とを特徴とする請求項1記載の音声認識装置。2. The speech recognition apparatus according to claim 1, wherein the matching result of the partial sentence and the one sentence includes a similarity degree obtained by matching the word series.
い、順方向照合結果を一時的に記憶させる順方向照合部
と、 上記音響信号の入力終了時点から入力開始の時点までの
逆方向に上記照合を行い、逆方向照合結果を一時的に記
憶させる逆方向照合部とを備えると共に、 上記部分文・文類似度判定手段は、 上記順方向照合結果と逆方向照合結果とから、上記部分
文に対する照合結果と、上記一文に対する照合結果との
比較を行うことを特徴とする請求項1又は2記載の音声
認識装置。3. The input acoustic analysis / collation means performs the collation in the forward direction in the input start order of the acoustic signal, and stores the forward collation result temporarily, and the acoustic signal. And a backward matching unit that performs the matching in the reverse direction from the input end time to the input start time, and temporarily stores the backward matching result, and the partial sentence / sentence similarity determination means is 3. The voice recognition device according to claim 1, wherein a comparison result for the partial sentence and a comparison result for the one sentence are compared based on a forward matching result and a backward matching result.
され、文認識結果を出力する文認識装置において、 入力文字列情報から予め記憶されている単語辞書情報と
所定の文法規則とに基づいて、上記入力文字列情報を所
定長の文字列ごとに照合し、この照合結果を一時的に記
憶する入力文字列情報照合手段と、 上記所定長の文字列ごとの照合結果から部分文に対する
照合結果と、少なくとも一文に対する照合結果とを求
め、上記部分文に対する照合結果と、上記一文に対する
照合結果とを比較して、上記二つの照合結果からして類
似度の高い一方の照合結果の部分文又は一文を文認識結
果として出力する部分文・文類似度判定手段とを備えた
ことを特徴とする文認識装置。4. A sentence recognition device for inputting at least one sentence of character string information and outputting a sentence recognition result, based on word dictionary information stored in advance from input character string information and a predetermined grammatical rule, Input character string information collating means for collating the input character string information for each character string of a predetermined length and temporarily storing the collation result, and a collation result for a partial sentence from the collation result of each character string of the predetermined length. , A matching result for at least one sentence is compared, and the matching result for the partial sentence is compared with the matching result for the one sentence, and a partial sentence or one sentence of one matching result having a high similarity from the above two matching results. A sentence recognition device, comprising: a partial sentence / sentence similarity determination means for outputting as a sentence recognition result.
向に行い、順方向照合結果を一時的に記憶させる順方向
照合部と、 上記入力文字列情報の入力終了時点から入力開始の時点
までの逆方向に上記照合を行い、逆方向照合結果を一時
的に記憶させる逆方向照合部とを備えると共に、 上記部分文・文類似度判定手段は、 上記順方向照合結果と逆方向照合結果とから、上記部分
文に対する照合結果と、上記一文に対する照合結果との
比較を行うことを特徴とする請求項4記載の文認識装
置。5. The input character string information collating means performs the collation in the forward direction in the input start order of the input character string information, and a forward collating unit for temporarily storing the forward collation result, The above-mentioned collation is performed in the reverse direction from the input end time of the input character string information to the input start time, and a reverse direction collation unit for temporarily storing the reverse direction collation result is provided, and the sub-sentence / sentence similarity determination is performed. 5. The sentence recognition apparatus according to claim 4, wherein the means compares the matching result for the partial sentence with the matching result for the one sentence from the forward matching result and the backward matching result.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8017415A JPH09212190A (en) | 1996-02-02 | 1996-02-02 | Speech recognition device and sentence recognition device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8017415A JPH09212190A (en) | 1996-02-02 | 1996-02-02 | Speech recognition device and sentence recognition device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09212190A true JPH09212190A (en) | 1997-08-15 |
Family
ID=11943381
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8017415A Pending JPH09212190A (en) | 1996-02-02 | 1996-02-02 | Speech recognition device and sentence recognition device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09212190A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006189862A (en) * | 2004-12-29 | 2006-07-20 | Samsung Electronics Co Ltd | Judgment method and apparatus of time series signal pattern recognition possibility |
| JP2007206239A (en) * | 2006-01-31 | 2007-08-16 | Yamaha Motor Co Ltd | Speech recognition apparatus and speech recognition method |
| JP2007271876A (en) * | 2006-03-31 | 2007-10-18 | Denso Corp | Speech recognizer and program for speech recognition |
-
1996
- 1996-02-02 JP JP8017415A patent/JPH09212190A/en active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006189862A (en) * | 2004-12-29 | 2006-07-20 | Samsung Electronics Co Ltd | Judgment method and apparatus of time series signal pattern recognition possibility |
| JP2007206239A (en) * | 2006-01-31 | 2007-08-16 | Yamaha Motor Co Ltd | Speech recognition apparatus and speech recognition method |
| JP2007271876A (en) * | 2006-03-31 | 2007-10-18 | Denso Corp | Speech recognizer and program for speech recognition |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
| EP0376501B1 (en) | Speech recognition system | |
| US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
| US7590533B2 (en) | New-word pronunciation learning using a pronunciation graph | |
| US8666745B2 (en) | Speech recognition system with huge vocabulary | |
| US6163768A (en) | Non-interactive enrollment in speech recognition | |
| US7676365B2 (en) | Method and apparatus for constructing and using syllable-like unit language models | |
| JP2003316386A (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
| KR101014086B1 (en) | Speech processing apparatus and method, and recording medium | |
| KR101424193B1 (en) | Non-direct data-based pronunciation variation modeling system and method for improving performance of speech recognition system for non-native speaker speech | |
| Ström | Continuous speech recognition in the WAXHOLM dialogue system | |
| JP3364631B2 (en) | Statistical language model generation apparatus and speech recognition apparatus | |
| JP2974621B2 (en) | Speech recognition word dictionary creation device and continuous speech recognition device | |
| JPH09212190A (en) | Speech recognition device and sentence recognition device | |
| JPH08241096A (en) | Speech recognition method | |
| JP3061292B2 (en) | Accent phrase boundary detection device | |
| JP3575904B2 (en) | Continuous speech recognition method and standard pattern training method | |
| JP2731133B2 (en) | Continuous speech recognition device | |
| JPH09114482A (en) | Speaker adaptation method for speech recognition | |
| Jelinek et al. | 25 Continuous speech recognition: Statistical methods | |
| JP3231365B2 (en) | Voice recognition device | |
| JPH07261782A (en) | Sound recognition device | |
| JP2002268677A (en) | Statistical language model generator and speech recognizer | |
| Mariño et al. | Ramses: a Spanish demisyllable based continuous speech recognition system | |
| JPH10333692A (en) | Phoneme table, speech recognition method and recording medium storing speech recognition program |