JP2003241788A - Voice recognition device and voice recognition system - Google Patents
Voice recognition device and voice recognition systemInfo
- Publication number
- JP2003241788A JP2003241788A JP2002043778A JP2002043778A JP2003241788A JP 2003241788 A JP2003241788 A JP 2003241788A JP 2002043778 A JP2002043778 A JP 2002043778A JP 2002043778 A JP2002043778 A JP 2002043778A JP 2003241788 A JP2003241788 A JP 2003241788A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- noise
- voice recognition
- unit
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】本発明の課題は、複数の異なる雑音の環境下で
入力されたユーザの音声認識を低い処理負荷で精度良く
行うことのできる音声認識装置及び音声認識システムを
提供することである。
【解決手段】上記課題は、複数の異なる雑音の環境下で
入力されたユーザの音声を認識する音声認識装置におい
て、前記ユーザの発声の特徴を、前記複数の異なる雑音
の各々の性質に対応させてモデル化した音響モデルを複
数保持する雑音適応音響モデル保持手段と、当該音声認
識装置の利用開始が検出されたときに、前記雑音の性質
を検出し、その検出された雑音の性質に対応した音響モ
デルを、前記雑音適応音響モデル保持手段から取得し
て、該音響モデルと前記入力されたユーザの音声を照合
して音声認識を行う音声認識処理手段とを有することを
特徴とする音声認識装置にて解決される。
An object of the present invention is to provide a speech recognition apparatus and a speech recognition system capable of accurately recognizing a user's speech input under a plurality of different noise environments with a low processing load. It is to be. An object of the present invention is to provide a speech recognition apparatus for recognizing a user's voice input under a plurality of different noise environments, wherein a feature of the user's utterance is made to correspond to each property of the plurality of different noises. Noise adaptive acoustic model holding means for holding a plurality of modeled acoustic models, and when the start of use of the speech recognition device is detected, the property of the noise is detected, and the property of the noise is detected. Voice recognition processing means for acquiring a voice model from the noise-adaptive voice model holding means, and performing voice recognition by comparing the voice model with the input user voice. Will be resolved.
Description
【0001】[0001]
【発明の属する技術分野】本発明は、雑音環境下での音
声認識に関し、詳しくは、携帯環境下での雑音状態に基
づいて音声認識を行うことのできる音声認識装置及び音
声認識システムに間する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to voice recognition in a noisy environment, and more particularly, to a voice recognition device and a voice recognition system capable of performing voice recognition based on a noise state in a portable environment. .
【0002】[0002]
【従来の技術】一般に、移動通信用のモバイル機器な
ど、雑音環境下での使用が予想される機器では、騒音の
中で発生した音声でも正しく認識するような耐雑音化技
術が不可欠である。音声認識の分野では、多数の耐雑音
化技術が提案されており、その代表的な技術として、雑
音キャンセル技術や雑音適応技術などがある。雑音キャ
ンセル技術には、雑音のスペクトル上やケプストラム
(音声波形の短時間振幅スペクトルの対数の逆フーリエ
変換として定義され、これをリフタリングという操作に
より、音韻性を表すスペクトル包絡成分とピッチを表す
基本周波数成分とに分離する方法をいう)上の偏りを利
用して雑音を除去するといったものがある。一方、雑音
適応技術には、雑音自体を音響モデルに組み込んで音響
モデルを修正し、雑音を含む音声の認識率を向上させる
といったものがある。2. Description of the Related Art Generally, in a device which is expected to be used in a noisy environment such as a mobile device for mobile communication, it is essential to have a noise resistance technique for correctly recognizing a voice generated in a noise. In the field of speech recognition, many noise resistant techniques have been proposed, and typical techniques thereof include noise cancellation techniques and noise adaptation techniques. Noise cancellation technology is defined as the inverse Fourier transform of the logarithm of the noise spectrum or the cepstrum (the short-time amplitude spectrum of the speech waveform. This is called lifter operation, and the spectrum envelope component that represents the phonological property and the fundamental frequency that represents the pitch. There is a method of removing noise by utilizing the above bias. On the other hand, there is a noise adaptation technique in which noise itself is incorporated into an acoustic model and the acoustic model is modified to improve the recognition rate of speech including noise.
【0003】また、上記以外にもマイクの指向性を強く
して背景雑音の入力音声への混入を防止するといった雑
音低減手法も提案されている。In addition to the above, there has been proposed a noise reducing method in which the directivity of the microphone is strengthened to prevent background noise from being mixed into the input voice.
【発明が解決しようとする課題】上述したように、騒音
下でユーザの発声した音声を正しく認識させるための技
術として対雑音化技術がある。移動通信用のモバイル機
器などが利用される環境(以下、携帯環境下という)で
は、該モバイル機器が道路わきや駅のホームなどの様々
な場所で使用されることから、音声に重畳される背景雑
音は利用場所によって大きく変わる。このため、雑音適
法手法のように、1つの雑音適応モデルを用いて発話直
前の背景雑音から音響モデルを補正するには、背景雑音
の大きさが時々刻々変動する携帯環境下では補正の追従
性に限界がある。しかし、多数の個別背景雑音に適応し
た多数の音響モデルを保持し、これらのどれに該当する
かを判定して最適とみなされる音響モデルに切り替える
といった手法を採用すれば、携帯環境下での実用は可能
になるが、その反面、多くのメモリと処理能力を必要と
するため、通信端末、例えば、携帯電話等のような携帯
機器では処理負担が増えてしまい、実現性に欠ける。As described above, there is a noise reduction technique as a technique for correctly recognizing a voice uttered by a user under noise. In an environment where a mobile device for mobile communication is used (hereinafter referred to as a mobile environment), since the mobile device is used in various places such as on the side of a road or at a platform of a station, a background superimposed on voice is used. Noise varies greatly depending on the place of use. Therefore, like the noise law method, in order to correct the acoustic model from the background noise immediately before the utterance using one noise adaptive model, the tracking performance of the correction in the mobile environment where the magnitude of the background noise changes momentarily. Is limited. However, if a method is adopted in which a large number of acoustic models adapted to a large number of individual background noises are retained, and which of these is determined and the acoustic model considered to be optimal is adopted, practical use in a mobile environment is possible. However, on the other hand, since a large amount of memory and processing capacity are required, the processing load is increased in a communication terminal, for example, a mobile device such as a mobile phone, which is not feasible.
【0004】また、音声認識に入る前の音声区間切り出
しにおいて、一般に音声開始点の判定は音の大きさ(音
声パワー)の変動を見て行うことが広く用いられている
が、背景雑音が大きい携帯環境では、音声と雑音の識別
が難しくなり正常に動作しないといった問題も生じる。
これに対し、背景雑音を消去するマイクを用いる解決方
法があるが、この場合、雑音消去により音声歪みが発生
し、結果として音声の認識率を落としてしまう。さら
に、指向性の高いマイクを使うことで背景雑音を回避す
る方法もあるが、この場合、ユーザの口の方向に指向性
を合わせる必要があり、このことをユーザが意識しなけ
れば、精度の高い音声認識率は保証されない。このこと
は、ユーザに対する利便性を下げることを意味し、実用
性の点から問題がある。Further, in cutting out a voice section before starting voice recognition, it is generally widely used to judge a voice start point by observing a change in a loudness (voice power) of a voice, but background noise is large. In a mobile environment, there is a problem that it is difficult to distinguish between voice and noise and it does not operate normally.
On the other hand, there is a solution using a microphone that eliminates background noise, but in this case, noise elimination causes voice distortion, and as a result, the recognition rate of voice is reduced. There is also a method of avoiding background noise by using a microphone with high directivity, but in this case, it is necessary to match the directivity with the direction of the user's mouth, and if the user is not aware of this, the accuracy of High speech recognition rates are not guaranteed. This means that the convenience for the user is reduced, and there is a problem in terms of practicality.
【0005】本発明は、上記のような問題点に鑑みてな
されたもので、その課題とするところは、複数の異なる
雑音の環境下で入力されたユーザの音声認識を低い処理
負荷で精度良く行うことのできる音声認識装置及び音声
認識システムを提供することである。The present invention has been made in view of the above problems, and its object is to accurately recognize the voice recognition of a user input under a plurality of different noise environments with a low processing load. A voice recognition device and a voice recognition system that can be performed.
【0006】[0006]
【課題を解決するための手段】上記第一の課題を解決す
るため、本発明は、請求項1に記載されるように、複数
の異なる雑音の環境下で入力されたユーザの音声を認識
する音声認識装置において、前記ユーザの発声の特徴
を、前記複数の異なる雑音の各々の性質に対応させてモ
デル化した音響モデルを複数保持する雑音適応音響モデ
ル保持手段と、当該音声認識装置の利用開始が検出され
たときに、前記雑音の性質を検出し、その検出された雑
音の性質に対応した音響モデルを、前記雑音適応音響モ
デル保持手段から取得して、該音響モデルと前記入力さ
れたユーザの音声を照合して音声認識を行う音声認識処
理手段とを有することを特徴としている。In order to solve the above-mentioned first problem, the present invention, as set forth in claim 1, recognizes a user's voice input under a plurality of different noise environments. In a voice recognition device, noise adaptive acoustic model holding means for holding a plurality of acoustic models in which the characteristics of the user's utterance are modeled corresponding to the properties of each of the plurality of different noises, and the use of the voice recognition device is started. Is detected, the property of the noise is detected, an acoustic model corresponding to the detected property of the noise is acquired from the noise adaptive acoustic model holding means, and the acoustic model and the input user are acquired. And a voice recognition processing means for performing voice recognition by collating the voices.
【0007】このような音声認識装置によれば、雑音
(=背景雑音)の性質、例えば、背景雑音の音量に対応
した複数の音響モデルが予め保持され、ユーザによる当
該音声認識装置の利用が検出されたときに検出される背
景雑音の音量に対応した音響モデルが該保持された音響
モデルのなかかから選択される。ユーザによる入力され
た音声の認識は、上記のようにして選択された音響モデ
ルを採用して行われるので、ユーザの移動による雑音環
境の変化があっても、該ユーザによる当該音声認識装置
の利用前にはその場所での雑音環境にみあった音響モデ
ルによる音声認識が行われる。すなわち、当該音声認識
装置を移動環境で使用しても良好な認識性能を得ること
が可能である。また、上記音響モデルの生成形態は、雑
音音量に対応付けられる音響モデルをそれぞれ用意して
も、元となる1つの音響モデルを雑音音量に応じて適応
的に変化させてもよい。後者の場合、雑音音量に応じて
1つの音響モデルを遅延なく変化させるための制御回路
などを設ければよい。さらに、ここでは、上記音響モデ
ルは雑音音量に適応して生成される例を示したが、これ
に限らず雑音の種類などに適応して生成されるものであ
ってもよい。According to such a speech recognition apparatus, a plurality of acoustic models corresponding to the nature of noise (= background noise), for example, the volume of background noise are held in advance, and the use of the speech recognition apparatus by the user is detected. The acoustic model corresponding to the volume of the background noise detected at the time of being selected is selected from the retained acoustic models. Since the recognition of the voice input by the user is performed by adopting the acoustic model selected as described above, even if there is a change in the noise environment due to the movement of the user, the use of the voice recognition device by the user Previously, speech recognition is performed using an acoustic model that matches the noise environment at that location. That is, it is possible to obtain good recognition performance even when the voice recognition device is used in a mobile environment. Further, as the generation mode of the acoustic model, acoustic models associated with the noise volume may be prepared, or one original acoustic model may be adaptively changed according to the noise volume. In the latter case, a control circuit or the like for changing one acoustic model according to the noise volume without delay may be provided. Further, here, the example in which the acoustic model is generated in accordance with the noise volume is shown, but the present invention is not limited to this, and may be generated in accordance with the type of noise.
【0008】2つの雑音モデルを用意することで処理量
を最小限に抑えつつも高い音声認識率を得ることが可能
になるという観点から、本発明は、請求項2に記載され
るように、前記音声認識装置において、前記雑音適応音
響モデル保持手段に保持される音響モデルは、前記雑音
の大きさを表す雑音音量の高低に対応して生成されるこ
とを特徴としている。From the viewpoint that it is possible to obtain a high speech recognition rate while minimizing the processing amount by preparing two noise models, the present invention is as described in claim 2. In the voice recognition device, the acoustic model held in the noise adaptive acoustic model holding means is generated in correspondence with the level of noise volume representing the magnitude of the noise.
【0009】このような音声認識装置によれば、低い雑
音音量に適応させた音響モデル(ここでは、低雑音音響
モデルと略記)と、高い雑音音量に適応させた音響モデ
ル(ここでは、高雑音音響モデルと略記)の2つを用意
するだけでよいので、携帯環境下のように雑音音量が大
きく変わるような雑音環境下であっても、低い処理量で
音声認識を精度よく行うことができる。ユーザによる音
声認識装置の利用開始の判断は、例えば、請求項3に記
載されるように、前記音声認識装置において、前記音声
認識装置の利用開始検出基準は、該音声認識装置がユー
ザに把持されたとき及び、該音声認識装置がユーザに操
作されたとき及び、該音声認識装置がユーザの一部と接
触又は接近したときの少なくとも1つが検出されたとき
とすることを特徴としている。According to such a voice recognition device, an acoustic model adapted to a low noise volume (herein, abbreviated as a low noise acoustic model) and an acoustic model adapted to a high noise volume (here, a high noise volume). It is only necessary to prepare two models (abbreviated as acoustic model), so that voice recognition can be accurately performed with a low processing amount even in a noisy environment in which the noise volume greatly changes like a portable environment. . The determination of the start of use of the voice recognition device by the user is, for example, as described in claim 3, in the voice recognition device, the use start detection criterion of the voice recognition device is such that the user recognizes the voice recognition device. And when the voice recognition device is operated by the user, and when at least one of when the voice recognition device contacts or approaches a part of the user is detected.
【0010】発話開始前の周囲の雑音状況に基づいて低
雑音音響モデルと、高雑音音響モデルのいずれかの雑音
適応補正を行うことで、より現実的な音響モデルによる
音声認識が可能になるという観点から、本発明は、請求
項4に記載されるように、前記音声認識装置において、
前記音声認識手段は、前記雑音を測定した際に、該雑音
の音量が小さければ、その小さい雑音量に対応付けられ
た音響モデルを前記雑音適応音響モデル保持手段から取
得して発話直前の背景雑音で補正する第1の雑音適応補
正手段と、前記雑音の音量が大きければ、その大きい雑
音量に対応付けられた音響モデルを、前記雑音適応音響
モデル保持手段から取得して発話直前の音で補正する第
2の雑音適応補正手段とを有することを特徴としてい
る。It is said that by performing noise adaptive correction of either the low noise acoustic model or the high noise acoustic model based on the ambient noise situation before the start of speech, it becomes possible to recognize speech by a more realistic acoustic model. From the point of view, the present invention provides the speech recognition device as described in claim 4,
If the sound recognition unit measures the noise and the volume of the noise is small, the speech recognition unit acquires an acoustic model associated with the small noise amount from the noise adaptive acoustic model holding unit to obtain background noise immediately before utterance. If the volume of the noise is large, an acoustic model associated with the large noise amount is acquired from the noise adaptive acoustic model holding unit and corrected with the sound immediately before the utterance. And a second noise adaptive correction means for performing the above.
【0011】このような音声認識装置によれば、室内環
境のように比較的背景雑音が少ない静かな環境下では、
発話開始前の背景雑音を用いて低雑音音響モデルを適応
させ、人通りの多いような環境下では周囲の音に基づい
て高雑音音響モデルを適用させるので、雑音環境に応じ
た現実的な音響モデルによる音声認識が可能になる。According to such a voice recognition device, in a quiet environment where background noise is relatively small, such as an indoor environment,
A low-noise acoustic model is adapted using background noise before the start of speech, and a high-noise acoustic model is applied based on the surrounding sound in a crowded environment. Speech recognition by the model becomes possible.
【0012】背景雑音の音量に応じて分析された音声の
分析結果と、上記のようにして得られる音響モデルを用
いて音声認識を行うことで、より音声認識の認識精度を
高めることができるという観点から、本発明は、請求項
5に記載されるように、前記音声認識装置において、前
記音声認識手段は、前記測定された雑音音量が小さいと
きに入力された音声を分析する第1の音声分析手段と、
前記測定された雑音音量が大きいときに入力された音声
を分析する第2の音声分析手段とを有し、前記第1の音
声分析手段にて分析された入力音声を前記第1の雑音適
応補正手段にて補正された音響モデルを用いて認識し、
前記第2の音声分析手段にて分析された入力音声を前記
第2の雑音適応補正手段にて補正された音響モデルを用
いて認識することを特徴としている。It is said that the recognition accuracy of the voice recognition can be further improved by performing the voice recognition using the analysis result of the voice analyzed according to the volume of the background noise and the acoustic model obtained as described above. From the point of view, according to the present invention, as described in claim 5, in the voice recognition device, the voice recognition means analyzes the voice input when the measured noise volume is low. Analytical means,
A second voice analysis means for analyzing a voice input when the measured noise volume is large, and the input voice analyzed by the first voice analysis means is subjected to the first noise adaptive correction. Recognize using the acoustic model corrected by means,
It is characterized in that the input voice analyzed by the second voice analysis means is recognized by using the acoustic model corrected by the second noise adaptive correction means.
【0013】背景雑音の音量に応じた音声分析が合理的
に行えるという観点から、本発明は、請求項6に記載さ
れるように、前記音声認識装置において、前記音声認識
手段は、前記測定された雑音の大小に応じて、入力音声
の分析に用いる前記第1の音声分析手段と、前記第2の
音声分析手段とを切り替える発話開始判定切替手段を有
することを特徴としている。According to the present invention, as described in claim 6, in the voice recognition device, the voice recognition means performs the measurement, from the viewpoint that the voice analysis according to the volume of the background noise can be reasonably performed. It is characterized by further comprising utterance start determination switching means for switching between the first speech analysis means used for analyzing the input speech and the second speech analysis means according to the magnitude of the noise.
【0014】このような音声認識装置によれば、発話開
始判定などに用いられる音声分析手段が測定された雑音
音量に応じて切り替えられるので、合理的に発話開始点
を抽出することができる。According to such a voice recognition device, the voice analysis means used for determining the utterance start can be switched according to the measured noise volume, so that the utterance start point can be reasonably extracted.
【0015】背景雑音が低い場合に、発話区間の音声認
識を合理的に行うことができるという観点から、本発明
は、請求項7に記載されるように、前記音声認識装置に
おいて、前記第1の音声分析手段は、入力音声のパワー
情報を用いて発話開始を判定する音声パワー検出手段を
有し、検出された発話区間の音声を前記音声認識手段に
て出力して認識させることを特徴としている。From the viewpoint that voice recognition in the utterance section can be reasonably performed when the background noise is low, the present invention provides the voice recognition device according to the first aspect, as described in claim 7. The voice analysis means of has a voice power detection means for determining the start of utterance by using the power information of the input voice, and outputs the voice of the detected utterance section by the voice recognition means for recognition. There is.
【0016】このような音声認識装置によれば、背景雑
音が少ない環境下では、簡易な処理である音量(パワ
ー)での発話始端検出を行うことで、適応的に処理量を
減らすことができ、消費電力の低減が可能である。According to such a voice recognition device, in an environment where the background noise is small, it is possible to adaptively reduce the processing amount by performing the utterance start detection at the volume (power) which is a simple process. It is possible to reduce power consumption.
【0017】背景雑音が高い場合であっても発話開始点
を的確に抽出することができるという観点から、本発明
は、請求項8に記載されるように、前記音声認識装置に
おいて、前記第2の音声分析手段は、入力音声を2分割
し、一方の音声を時刻情報と共に記憶する音声記憶手段
と、他方の音声にケプストラム分析をかけ、その分析に
より得られるピッチ成分の開始点を発話開始点候補とし
て求め、該求めた発話開始点候補より以前の点を発話開
始点とみなして決定するピッチ抽出手段と、その決定し
た発話開始点からの発話区間の音声を前記音声認識手段
にて出力して認識させることを特徴としている。From the viewpoint that the utterance start point can be accurately extracted even when the background noise is high, the present invention provides the speech recognition device according to the second aspect, as described in claim 8. The voice analysis means of 1 divides the input voice into two, and applies a cepstrum analysis to the voice storage means that stores one voice together with time information and the other voice, and the start point of the pitch component obtained by the analysis is the utterance start point. Pitch extraction means for determining as a candidate, the point before the obtained utterance start point candidate is regarded as the utterance start point, and the speech in the utterance section from the determined utterance start point is output by the voice recognition means. It is characterized by making them recognize.
【0018】このような音声認識装置によれば、背景雑
音が大きい環境下では、ケプストラム分析がかけられ、
音声の特徴とピッチ成分を抽出した上で、発話開始点を
推定するので、人通りの多い地下街や繁華街などの雑音
環境下であっても的確に発話開始点を抽出することがで
きる。According to such a voice recognition device, cepstrum analysis is performed in an environment with a large background noise,
Since the utterance starting point is estimated after extracting the characteristics of the voice and the pitch component, the utterance starting point can be accurately extracted even in a noisy environment such as an underground shopping area or a busy street.
【0019】また、本発明は、請求項9に記載されるよ
うに、前記音声認識装置において、前記音声認識処理手
段は、認識結果として認識の確度を示す認識スコアを算
出し、その算出された認識スコアが所定の閾値を超えて
いれば、該認識結果は正解の可能性が高いとみなし、該
認識結果と、該認識で得られる音声特徴量とを記憶する
音声特徴認識結果記憶手段と、前記音声特徴認識結果記
憶手段により記憶されている前記認識結果と、前記認識
で得られる音声特徴量とを用いて話者固有の音声の特徴
を学習する話者適応適応手段を有することを特徴として
いる。Further, according to the present invention, as described in claim 9, in the voice recognition device, the voice recognition processing means calculates a recognition score indicating a recognition accuracy as a recognition result, and the recognition score is calculated. If the recognition score exceeds a predetermined threshold, the recognition result is considered to be highly likely to be correct, and a voice feature recognition result storage unit that stores the recognition result and a voice feature amount obtained by the recognition, A speaker adaptation adaptation unit for learning a speaker-specific voice feature using the recognition result stored by the voice feature recognition result storage unit and the voice feature amount obtained by the recognition. There is.
【0020】このような音声認識装置によれば、例え
ば、背景雑音が小さな場合に、発声された音声に対する
音声認識結果として、認識スコアが算出される。この認
識スコアは、認識の尤もらしさを得点のようなもので表
したもので、スコアが高い(所定の閾値と比較して)ほ
ど、音声認識時の認識が正しくなされたものとみなされ
る。本発明によれば、高い認識スコアが得られた場合の
み、認識結果と、該認識で得られる音声特徴量を話者適
用に必要なデータとして保存するので、認識対象単語を
限定しなくても十分な認識性能を得ることができる。According to such a voice recognition device, for example, when the background noise is small, the recognition score is calculated as the voice recognition result for the uttered voice. This recognition score is expressed as a score of likelihood of recognition, and the higher the score (compared to a predetermined threshold), the more accurate the recognition at the time of voice recognition is. According to the present invention, only when a high recognition score is obtained, the recognition result and the voice feature amount obtained by the recognition are stored as data necessary for speaker application, so that the recognition target word is not limited. Sufficient recognition performance can be obtained.
【0021】また、本発明の音声認識装置が外部電源に
接続されているときに限って、上記話者適応を行うこと
で、より高速な話者適応が可能になるという観点から、
本発明は、請求項10に記載されるように、前記音声認
識装置において、前記話者適応手段は、前記音声認識装
置が外部電源供給手段により供給されているときに、前
記音声特徴認識結果記憶手段により記憶されている前記
認識結果と、前記認識で得られる音声特徴量とを用いて
話者適応行う外部電源供給話者適応手段を有することを
特徴としている。From the viewpoint that the speaker adaptation can be performed at a higher speed by performing the speaker adaptation only when the voice recognition device of the present invention is connected to the external power source.
According to the present invention, as described in claim 10, in the voice recognition device, the speaker adaptation means stores the voice feature recognition result storage when the voice recognition device is supplied by an external power supply means. An external power supply speaker adaptation means for performing speaker adaptation using the recognition result stored by the means and the voice feature amount obtained by the recognition is provided.
【0022】このような音声認識装置によれば、自身が
外部より電源の供給を受けているときのみ上記話者適応
処理を実行するので、バッテリー駆動によって話者適応
処理を行う場合と比較して電池寿命の影響を受けない。
このため、制御部のクロック速度を上げることができ、
話者適応処理を高速に実行することができる。さらに、
ユーザが音声認識装置と外部電源との接続を就寝時に行
っておけば、ユーザが眠っている間に話者適応処理を完
了するので、ユーザに対する利便性を向上させることが
できる。According to such a voice recognition device, since the speaker adaptation processing is executed only when the speaker itself is supplied with power from the outside, as compared with the case where the speaker adaptation processing is driven by the battery. Not affected by battery life.
Therefore, the clock speed of the control unit can be increased,
The speaker adaptation process can be executed at high speed. further,
If the user makes the connection between the voice recognition device and the external power source at bedtime, the speaker adaptation process is completed while the user is sleeping, so that the convenience for the user can be improved.
【0023】処理量の多い話者適応処理を外部にて行う
ことで、より音声認識装置での処理負担を軽減すること
が可能になるという観点から、本発明は、請求項11に
記載されるように、無線又は有線による音声通信が可能
な通信端末とサーバ装置とを含む音声認識システムにお
いて、前記通信端末は、請求項1乃至10いずれか一項
記載の音声認識装置と、前記音声認識装置によって得ら
れた入力音声に関する音声認識の結果と、音声特徴量と
を表すデータの量が話者適用に必要な分蓄積されたとき
に、該データを前記サーバ装置に送信するデータ一括送
信手段を備え、前記サーバ装置は、前記通信端末から送
信されてくる前記データを受信するデータ受信手段と、
前記データに基づいて話者適応を実行するデータ一括処
理型話者適応処理手段と、該データ一括処理型話者適応
処理手段により、前記通信端末で変更されるべきパラメ
ータを算出して前記通信端末に送信するデータ一括処理
型変更パラメータ送信手段とを備えたことを特徴として
いる。The present invention is set forth in claim 11 from the viewpoint that it is possible to further reduce the processing load on the speech recognition apparatus by externally performing speaker adaptation processing that requires a large amount of processing. As described above, in the voice recognition system including the communication terminal capable of wireless or wired voice communication and the server device, the communication terminal is the voice recognition device according to any one of claims 1 to 10, and the voice recognition device. When the amount of data representing the voice recognition result about the input voice obtained by the above and the voice feature amount is accumulated for the application of the speaker, the data batch transmission means for transmitting the data to the server device is provided. The server device includes data receiving means for receiving the data transmitted from the communication terminal,
A data batch processing type speaker adaptation processing means for executing speaker adaptation based on the data, and a parameter to be changed in the communication terminal by the data batch processing type speaker adaptation processing means, and the communication terminal And a data batch processing type change parameter transmitting means for transmitting the data.
【0024】このような音声認識システムによれば、ク
ライアント側となる通信端末側で話者適応に必要な分の
該当データが貯まると、そのデータが外部のサーバ装置
側に送出される。サーバ装置は、通信端末から受取った
データをもとに話者適応処理を実行し、通信端末におい
て変更すべきパラメータの情報を返す。すなわち、話者
適応の計算が外部のサーバ側で実行され、その結果がク
ライアント側の通信端末にフィードバックされるので、
通信端末に要求される計算機資源、メモリ資源などを緩
和することができる。また話者適応中であっても、通信
端末は負荷を受けず利用可能である。さらに、通信端末
とサーバ装置間の通信形態は、無線LAN等のように無
線で接続される通信形態であっても、USB等のように
両者が有線で接続される通信形態であってもよいので、
プロバイダーでは多様な通信形態での音声認識システム
の実現が可能となる。反対にユーザ側では、多様な通信
形態からそれぞれに見合ったシステムの選択が可能にな
るので、利便性が向上する。According to such a voice recognition system, when the corresponding data necessary for speaker adaptation is accumulated on the communication terminal side which is the client side, the data is sent to the external server side. The server device executes the speaker adaptation process based on the data received from the communication terminal, and returns the information of the parameter to be changed in the communication terminal. That is, the speaker adaptation calculation is executed on the external server side, and the result is fed back to the communication terminal on the client side.
It is possible to reduce the computer resources and memory resources required for the communication terminal. Further, even while the speaker is being adapted, the communication terminal can be used without being overloaded. Further, the communication mode between the communication terminal and the server device may be a wireless communication mode such as a wireless LAN, or a wired communication mode such as a USB. So
Providers will be able to implement voice recognition systems in a variety of communication formats. On the other hand, the user side can select a system suitable for each from various communication modes, which improves convenience.
【0025】また、上記同様の観点から、本発明は、請
求項12に記載されるように、前記音声認識システムに
おいて、前記通信端末は、前記音声認識装置によって得
られた入力音声に関する音声認識の結果と、音声特徴量
とを表すデータを順次前記サーバ装置に送信するデータ
順次送信手段を備え、前記サーバ装置は、前記通信端末
から送信されてくる前記データを受信して蓄積するデー
タ受信蓄積手段と、該蓄積したデータの量が話者適応に
必要な量に達したときに、該データに基づいて話者適応
を実行するデータ−順次蓄積処理型話者適応処理手段
と、該データ−順次蓄積処理型話者適応処理手段によ
り、前記通信端末で変更されるべきパラメータを算出し
て前記通信端末に送信するデータ−順次蓄積処理型変更
パラメータ送信手段とを備えたことを特徴としている。From the same viewpoint as above, according to the present invention, as defined in claim 12, in the voice recognition system, the communication terminal performs voice recognition relating to an input voice obtained by the voice recognition device. A data receiving and storing unit that includes a data sequential transmitting unit that sequentially transmits a result and data representing a voice feature amount to the server device, and the server device receives and accumulates the data transmitted from the communication terminal. And a data-sequential accumulation processing type speaker adaptation processing means for executing speaker adaptation based on the data when the amount of the accumulated data reaches the amount necessary for the speaker adaptation, and the data-sequentially. Data for calculating a parameter to be changed by the communication terminal by the storage processing type speaker adaptation processing means and transmitting it to the communication terminal-sequential storage processing type change parameter transmitting means; It is characterized by comprising.
【0026】さらに、上記同様の観点から、本発明は、
請求項13に記載されるように、前記音声認識システム
において、前記通信端末は、前記データ一括送信手段又
は前記データ順次送信手段による所定データの送信を、
前記サーバ装置と接続される通信ネットワークを介して
該サーバ装置に行うことを特徴としている。Further, from the same viewpoint as above, the present invention provides
As described in claim 13, in the voice recognition system, the communication terminal transmits predetermined data by the data batch transmission means or the data sequential transmission means,
It is characterized in that it is performed to the server device via a communication network connected to the server device.
【0027】このような音声認識システムによれば、話
者適応の計算が公衆網、移動網、IP網などの通信ネッ
トワークに接続されるサーバ側で実行され、その結果が
クライアント側の通信端末にフィードバックされるの
で、通信端末の共有資源を有効に使用することができ
る。また、通信事業者などのプロバイダーでは通信ネッ
トワークを介した音声認識システムの実現が可能とな
る。According to such a voice recognition system, the speaker adaptation calculation is executed on the server side connected to a communication network such as a public network, a mobile network or an IP network, and the result is transmitted to a communication terminal on the client side. Since it is fed back, the shared resources of the communication terminal can be effectively used. Also, a provider such as a telecommunications carrier can realize a voice recognition system via a communication network.
【0028】上記通信ネットワークが移動網であれば、
前記通信端末は、請求項14に記載されるように、前記
音声認識システムにおいて、前記通信端末は、移動用通
信端末であることを特徴としている。If the communication network is a mobile network,
As described in claim 14, the communication terminal is characterized in that, in the voice recognition system, the communication terminal is a mobile communication terminal.
【0029】[0029]
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.
【0030】図1は、本実施の形態における音声認識装
置のブロック図である。この音声認識装置は、利用開始
終了判定部11と、音声入力部12と、雑音音量判定部
13と、発話開始判定切替部14と、フィルタ15と、
音声記憶部16と、ピッチ抽出部17と、音声始端検出
部18と、雑音適応補正部19と、音響モデル記憶部2
0と、音声認識処理部21と、音声特徴・認識結果記憶
部22と、話者適応部23とから構成される。FIG. 1 is a block diagram of a voice recognition device according to this embodiment. This voice recognition device includes a use start / end determination unit 11, a voice input unit 12, a noise volume determination unit 13, an utterance start determination switching unit 14, a filter 15,
The voice storage unit 16, the pitch extraction unit 17, the voice start end detection unit 18, the noise adaptive correction unit 19, and the acoustic model storage unit 2
0, a voice recognition processing unit 21, a voice feature / recognition result storage unit 22, and a speaker adaptation unit 23.
【0031】上記構成において、音響モデル記憶部20
には、静かな室内環境(=雑音環境A)のように少ない
背景雑音の雑音量で雑音適応させた音響モデルAと、人
通りの多い地下街、繁華街のように周囲の騒音が大きい
ような環境(=雑音環境B)下の背景雑音の音量で雑音
適応させた音響モデルBの2通りの音響モデルが予め保
持される。以下、このことを前提にした上記構成での動
作概要について説明を進める。In the above configuration, the acoustic model storage unit 20
Includes an acoustic model A that is noise-adapted with a small amount of background noise, such as a quiet indoor environment (= noise environment A), and the surrounding noise is large, such as in an underground city with many pedestrians or in a downtown area. Two types of acoustic models, that is, the acoustic model B that is noise-adapted with the volume of the background noise under the environment (= noise environment B) are held in advance. Below, an explanation will be given of the outline of the operation in the above-mentioned configuration on the assumption of this.
【0032】まず、利用開始終了判定部11で、ユーザ
による音声認識装置の利用開始が次のような手段によっ
て検出される。First, the use start / end determining section 11 detects the start of use of the voice recognition device by the user by the following means.
【0033】タッチセンサによる把持検出
折り畳み型の音声認識装置であればフリップの開閉検
出
音声認識装置のスピーカー部にユーザの耳が接触した
ことを赤外線センサで検出
上記〜の組み合わせ
上記〜のいずれかによるユーザの利用開始が検出さ
れると、上記利用開始終了判定部11は、ユーザによる
利用開始を示す信号(=開始指示信号)を音声入力部1
2に出力する。この通知を受けた音声入力部12は、発
話開始前に入力された雑音を雑音音量判定部13に出力
する。雑音音量判定部13は、音声入力部12から出力
された雑音(以下、背景雑音と略記)の音量を測定し、
その測定された背景雑音の音量が上記雑音環境A、Bの
いずれの環境に該当するかを判定して、結果を音声認識
処理部21に出力する。この雑音音量判定部13で判定
された結果は、雑音適応補正部19にも送られる。雑音
適応補正部19には、上記雑音環境A、Bに基づく2つ
の雑音モデルが保持されており、雑音音量判定部13か
らの上記判定結果に基づいて補正される。この雑音モデ
ルの補正結果(この補正結果、補正後の雑音モデルその
ものとしても、補正情報のみとしてもよい)は、音声認
識処理部21に出力される。Grip Detection by Touch Sensor In the case of a folding type voice recognition device, an infrared sensor detects that the user's ear has touched the speaker part of the flip recognition voice recognition device. When the use start of the user is detected, the use start end determination unit 11 outputs a signal (= start instruction signal) indicating the use start by the user to the voice input unit 1.
Output to 2. Upon receiving this notification, the voice input unit 12 outputs the noise input before the start of speech to the noise volume determination unit 13. The noise volume determination unit 13 measures the volume of noise (hereinafter abbreviated as background noise) output from the voice input unit 12,
It is determined whether the measured volume of the background noise corresponds to the noise environment A or B, and the result is output to the voice recognition processing unit 21. The result determined by the noise volume determination unit 13 is also sent to the noise adaptive correction unit 19. The noise adaptive correction unit 19 holds two noise models based on the noise environments A and B, and corrects based on the determination result from the noise volume determination unit 13. The correction result of the noise model (the correction result, the corrected noise model itself, or the correction information only) may be output to the voice recognition processing unit 21.
【0034】音声入力部12に入力された入力音声は、
背景雑音の大小に応じて異なる音声分析処理を経て音声
認識処理部21に出力される。この音声分析処理は、例
えば、雑音音量測定部13で測定された背景雑音が小さ
い場合、音声始端検出部18で発話区間が抽出されて音
声認識処理部21に出力される。一方、記背景雑音が大
きいときは、入力音声はフィルタ15、ピッチ抽出部1
7を介してケプストラム解析がかけられて発話区間が抽
出され、その区間音声のデータが音声記憶部16から読
み出されて音声認識処理部21に出力される。The input voice input to the voice input unit 12 is
It is output to the voice recognition processing unit 21 through different voice analysis processing depending on the size of background noise. In this voice analysis process, for example, when the background noise measured by the noise volume measurement unit 13 is small, the voice start edge detection unit 18 extracts the utterance section and outputs the utterance section to the voice recognition processing unit 21. On the other hand, when the background noise is large, the input speech is filtered by the filter 15 and the pitch extraction unit 1.
The cepstral analysis is applied via 7 to extract the utterance section, the data of the section voice is read from the voice storage section 16 and output to the voice recognition processing section 21.
【0035】音声認識処理部21は、上記のようにして
背景雑音の大小ごとに分けられて抽出される入力音声の
発話区間の音声認識を、雑音適応補正部19から出力さ
れる雑音モデルと、音響モデル記憶部20に保持されて
いる音響モデルとを利用して行い、認識結果を得る。上
記のようにして音声認識が行われた後、音声認識処理部
21は、特に背景雑音が小さな場合に限って、話者適応
に必要な教師データを収集し、その収集で得られた教師
データを音声特徴・認識結果記憶部22に出力して記憶
させる。話者適応部23は、音声特徴・認識結果記憶部
22に記憶された教師データに基づいて音響モデル記憶
部20に記憶されている音響モデルをユーザの特徴に合
うよう調節して更新する。すなわち、音声認識処理部2
1では、ユーザによる発話直前の雑音環境の情報によっ
て更新された音響モデルを用いて音声認識を行うことが
できるので、高い認識率を得ることができる。The speech recognition processing section 21 performs speech recognition of the speech section of the input speech, which is divided and extracted according to the magnitude of the background noise as described above, with the noise model output from the noise adaptive correction section 19, The recognition result is obtained by using the acoustic model stored in the acoustic model storage unit 20. After the voice recognition is performed as described above, the voice recognition processing unit 21 collects the teacher data necessary for speaker adaptation only when the background noise is small, and the teacher data obtained by the collection. Is output to and stored in the voice feature / recognition result storage unit 22. The speaker adaptation unit 23 adjusts and updates the acoustic model stored in the acoustic model storage unit 20 based on the teacher data stored in the voice feature / recognition result storage unit 22 so as to match the user's feature. That is, the voice recognition processing unit 2
In No. 1, since voice recognition can be performed using the acoustic model updated by the information of the noise environment immediately before the user speaks, a high recognition rate can be obtained.
【0036】以上の様に構成された音声認識装置につい
て、図2を用いて、具体的な処理例を説明する。図2
は、本発明の音声認識装置における音声認識処理の処理
手順を示すフローチャートである。A specific processing example of the speech recognition apparatus configured as described above will be described with reference to FIG. Figure 2
3 is a flowchart showing a processing procedure of a voice recognition process in the voice recognition device of the present invention.
【0037】上で説明したように、音声認識装置内の音
響モデル記憶部20では、背景雑音の音量に応じて2通
りの雑音モデルが用意され、その雑音モデルで雑音適応
された音響モデルが予め保持される。例えば、小さい背
景雑音(以下、雑音モデルAと略記)と、帯域の広い比
較的大きな背景雑音(以下、雑音モデルBと略記)との
背景雑音に基づいて雑音適応を行った2通りの音響モデ
ルが予め保持される。雑音モデルAは静かなオフィスや
図書館程度の背景雑音環境であり、雑音モデルBは人通
りの多い地下街・商店街の環境での背景雑音でモデリン
グされた雑音モデルである。As described above, in the acoustic model storage unit 20 in the voice recognition device, two types of noise models are prepared according to the volume of background noise, and the noise-adapted acoustic model is preliminarily used as the noise model. Retained. For example, two acoustic models in which noise adaptation is performed based on background noise of small background noise (hereinafter abbreviated as noise model A) and relatively large background noise having a wide band (hereinafter abbreviated as noise model B) Is held in advance. The noise model A is a background noise environment of a quiet office or a library, and the noise model B is a noise model modeled by background noise in an environment of an underground mall / shopping district with a lot of traffic.
【0038】まず、利用開始終了検出部11において、
前述した4つの方法(上記〜)のいずれかによって
ユーザによる利用開始が検出(S1)されると、雑音音
量判定部13にて背景雑音の音量が測定(S2)され
る。雑音音量判定部13は、測定した背景雑音の音量と
予め定められる閾値とを比較(S3)し、背景雑音が低
ければ(S3で低い)雑音モデルA(S4)を、背景雑
音が高ければ(S3で高い)雑音モデルB(S8)を採
用して雑音適応補正部19に出力する。まず、雑音音量
判定部13での判定により雑音モデルAを得た場合の処
理フローについて説明する。First, in the use start / end detection section 11,
When the use start by the user is detected (S1) by any of the above-described four methods (above), the noise volume determination unit 13 measures the volume of the background noise (S2). The noise volume determination unit 13 compares the volume of the measured background noise with a predetermined threshold value (S3), and if the background noise is low (low in S3), the noise model A (S4), and if the background noise is high ( The noise model B (high in S3) (S8) is adopted and output to the noise adaptive correction unit 19. First, the processing flow when the noise model A is obtained by the determination by the noise volume determination unit 13 will be described.
【0039】(雑音モデルA(低雑音モデル)採用時の
処理フロー)雑音音量判定部13での判定により雑音モ
デルAを得た雑音適応補正部19は、ユーザによる発話
直前(音声入力開始前)の背景雑音に基づいて雑音モデ
ルの適応補正(S5)を行う。また雑音音量判定部13
での雑音音量判定が終わったとき、発話開始判定切替部
14内のスイッチが該雑音音量判定部13での判定結果
に応じて切り替えられる。ここでは上記雑音音量判定部
13で、雑音モデルAを採用する旨の判定が下された場
合なので、上記発話開始判定切替部14内のスイッチは
音声始端検出部18側に切り替えられる。音声始端検出
部18では、音声入力部12からの入力音声が入力さ
れ、ユーザの発した音声の開始端が音の大きさ(音のパ
ワー)に基づいて検出(S6)され、検出結果が音声認
識処理部21に出力される。音声認識処理部21は、音
声始端検出部18から出力された音声と、雑音適応補正
部19で発話直前に補正された雑音モデルと、音響モデ
ル記憶部20に保持されている音響モデル(この場合、
低い背景雑音で雑音適応された音響モデル)とを用いて
音声認識(S7)を行い、認識結果を得る。(Processing Flow when Noise Model A (Low Noise Model) is Adopted) The noise adaptive correction unit 19 which has obtained the noise model A by the judgment by the noise volume judgment unit 13 is immediately before the utterance by the user (before the voice input is started). Adaptive correction (S5) of the noise model is performed based on the background noise of. In addition, the noise volume determination unit 13
When the noise volume determination is completed, the switch in the speech start determination switching unit 14 is switched according to the determination result of the noise volume determination unit 13. Here, since the noise volume determination unit 13 determines that the noise model A is adopted, the switch in the speech start determination switching unit 14 is switched to the voice start end detection unit 18 side. In the voice start point detection unit 18, the input voice from the voice input unit 12 is input, the start end of the voice uttered by the user is detected based on the volume of the sound (power of the sound) (S6), and the detection result is the voice. It is output to the recognition processing unit 21. The voice recognition processing unit 21 outputs the voice output from the voice start edge detection unit 18, the noise model corrected immediately before the utterance by the noise adaptation correction unit 19, and the acoustic model stored in the acoustic model storage unit 20 (in this case, ,
A voice recognition (S7) is performed using the noise-adapted acoustic model with low background noise, and a recognition result is obtained.
【0040】音声認識処理部21は、上記のようにして
認識結果を得ると、話者適応(入力されたユーザの音声
を利用して音響モデルを更新する技術)に必要なデー
タ、いわゆる教師データの収集を(S12)〜(S1
3)を経て行う。この話者適応に必要なデータの取得に
際しては、認識の尤もらしさを得点のようなもので表す
認識スコアを使用する。この認識スコアは、ユーザによ
り発声された音声と発話内容を推定して与えられるもの
で、スコアが所定の閾値より高ければ、「上記認識での
認識は正しい」とみなされ、その認識で得られたデータ
が話者適応に必要な教師データとして用いられる。When the speech recognition processing unit 21 obtains the recognition result as described above, the data necessary for speaker adaptation (a technique for updating the acoustic model using the input user's voice), so-called teacher data. (S12) to (S1
It goes through 3). When acquiring the data necessary for speaker adaptation, a recognition score, which is represented by a score like likelihood, is used. This recognition score is given by estimating the voice uttered by the user and the content of the utterance, and if the score is higher than a predetermined threshold value, it is considered that "the recognition in the above recognition is correct" and is obtained by the recognition. This data is used as teacher data necessary for speaker adaptation.
【0041】音声認識処理部21は、音声認識後に算出
された認識スコアを判定(S12)し、そのスコアが所
定の閾値より高く(S12で高い)、かつユーザによる
音声認識処理の中断にかかわる要求がないときに限っ
て、認識後の認識結果と、上記教師データを音声特徴・
認識結果記憶部22に出力して蓄積(S13)させる。
この教師データは、音声の生データではなく、認識に際
して取り出された入力音声の特徴量のうち、話者適応を
行う上で必要なデータで構成されたもの(本例では、音
声特徴量という)をいう。この音声特徴量を表すデータ
は、生の音声データよりはデータ量が少ない。The voice recognition processing unit 21 determines the recognition score calculated after the voice recognition (S12), and the score is higher than a predetermined threshold value (high in S12), and the request relating to the interruption of the voice recognition process by the user. Only when there is no speech feature, the recognition result after recognition and the above teacher data
It is output to the recognition result storage unit 22 and stored (S13).
This teacher data is not raw audio data, but is composed of data that is necessary for speaker adaptation, out of the features of the input voice extracted during recognition (in this example, it is called voice features). Say. The data representing the voice feature amount has a smaller data amount than the raw voice data.
【0042】一方、上記認識スコアが所定値より低いと
判定(S12で低い)された場合は、その音声認識での
認識は教師データとしては妥当でないとみなして処理を
終了する。On the other hand, when it is determined that the recognition score is lower than the predetermined value (low in S12), the recognition by the voice recognition is regarded as invalid as the teacher data, and the process is terminated.
【0043】次に、雑音音量判定部13での判定により
雑音モデルBを得た場合の処理フローについて説明す
る。Next, a processing flow in the case where the noise model B is obtained by the judgment in the noise volume judging section 13 will be described.
【0044】(雑音モデルB(高雑音モデル)採用時の
処理フロー)上記雑音音量判定部13で、雑音モデルB
を採用する旨の判定が下された(S3で高い)場合、雑
音適応補正部19は、ユーザによる発話直前の音に基づ
いて雑音モデルの適応補正(S9)を行う。このとき、
上記発話開始判定切替部14内のスイッチがフィルタ1
5と音声記憶部16側に切り替えられる。音声入力部1
2から出力された入力音声は、フィルタ15と音声記憶
部16の2系統に分かれて入力され、音声記憶部16は
上記入力音声を時刻情報と共にそのまま記憶する。一
方、フィルタ15に入力された入力音声は、ハイパスフ
ィルターによる濾波処理が行われてピッチ抽出部17へ
と出力される。ピッチ抽出部17は、フィルタ15から
出力された入力音声に対して、ケプストラム解析をか
け、該入力音声においてピッチ成分が始まった箇所を発
話開始候補として抽出(S10)する。本例における上
記ケプストラム解析では、LPC分析の予測残差信号の
相関関数が、ある閾値を超え始めた点をもって「ピッチ
成分を持つ音が始まった点」であるとしている。ピッチ
抽出部17は、上記発話開始候補からわずかにさかのぼ
った点を発話開始点とみなし、その点からの音声を認識
処理部に出力するよう音声記憶部16に通知する。音声
認識処理部21は、音声記憶部16から出力された音声
と、雑音適応補正部19で発話直前に補正された雑音モ
デルと、音響モデル記憶部20に保持されている音響モ
デル(この場合、高い背景雑音で雑音適応された音響モ
デル)とを用いて音声認識(S11)を行い、認識結果
を得る。(Processing Flow When Adopting Noise Model B (High Noise Model)) In the noise volume determination unit 13, the noise model B
If it is determined that S. is adopted (high in S3), the noise adaptive correction unit 19 performs adaptive correction of the noise model (S9) based on the sound immediately before the user utters. At this time,
The switch in the utterance start determination switching unit 14 is the filter 1
5 and the voice storage unit 16 side. Voice input unit 1
The input voice output from 2 is separately input into two systems of a filter 15 and a voice storage unit 16, and the voice storage unit 16 stores the input voice as it is together with time information. On the other hand, the input voice input to the filter 15 is filtered by a high-pass filter and output to the pitch extraction unit 17. The pitch extraction unit 17 performs a cepstrum analysis on the input voice output from the filter 15 and extracts a portion where the pitch component starts in the input voice as a utterance start candidate (S10). In the above cepstrum analysis in this example, the point at which the correlation function of the prediction residual signal of the LPC analysis begins to exceed a certain threshold is the "point at which the sound having the pitch component begins". The pitch extraction unit 17 regards a point slightly backward from the utterance start candidate as the utterance start point, and notifies the voice storage unit 16 to output the voice from that point to the recognition processing unit. The voice recognition processing unit 21 outputs the voice output from the voice storage unit 16, the noise model corrected immediately before the utterance by the noise adaptive correction unit 19, and the acoustic model stored in the acoustic model storage unit 20 (in this case, The speech recognition (S11) is performed using the noise-adapted acoustic model with high background noise, and the recognition result is obtained.
【0045】上記のように、音声認識処理部21での音
声認識には、音響モデル記憶部20に保持されている音
響モデルが用いられる。この音響モデルは普遍的なもの
でなく入力されたユーザの音声を利用して更新(話者適
応)される。本発明の音声認識装置では、音声特徴・認
識結果記憶部22から出力される音声認識処理部21で
の認識結果と、その認識の際に抽出された音声特徴
量(以下、とをあわせて話者適応用音声データと略
記)とに基づいて話者適応が行われる。次に、この話者
適応の処理手順について、前処理と後処理に分けて説明
する。図3は話者適応処理における前処理を説明するフ
ローチャートで、図4は話者適応処理における後処理を
説明するフローチャートである。As described above, the acoustic model stored in the acoustic model storage unit 20 is used for the speech recognition in the speech recognition processing unit 21. This acoustic model is not universal and is updated (speaker adaptation) using the input user's voice. In the voice recognition device of the present invention, the recognition result of the voice recognition processing unit 21 output from the voice feature / recognition result storage unit 22 and the voice feature amount extracted at the time of recognition (hereinafter, referred to as Speaker adaptation is performed based on the speaker adaptation voice data (abbreviated). Next, the speaker adaptation processing procedure will be described separately for pre-processing and post-processing. FIG. 3 is a flowchart for explaining preprocessing in the speaker adaptation processing, and FIG. 4 is a flowchart for explaining postprocessing in the speaker adaptation processing.
【0046】まず、図3を参照しながら話者適応処理に
おける前処理を説明する。First, the preprocessing in the speaker adaptation processing will be described with reference to FIG.
【0047】(話者適応処理における前処理)話者適応
部23は、音声特徴・認識結果記憶部22から出力され
る話者適応用音声データを受信すると、新たな話者適応
データの登録(S21)の要求があったものとみなし、
まず該話者適応用音声データの中から音素の偏りがある
かどうかが判定(S22)される。この判定(S22)
で、同じ要素を持つ単語数の偏りがあると判定されれば
(S22であり)、その他の音素とのバランスの点か
ら、偏りのある多い単語が消去(S23)されて、次ス
テップ(S24)に移行する。この次ステップ(S2
4)では、音素の数が閾値を超えていないかどうかが判
定(S24)され、音素数が閾値を超えていれば(S2
4で超えた)、話者適応を行うためのフラグを生成し、
そうでなければ(S24で超えていない)そのまま本処
理を終える。例えば、上記閾値を100と仮定すれば、
話者適応に必要な音素が100語集まった時点で、話者
適応を行うためのフラグが生成される。このことは、そ
の音素数による話者適応が行われることを意味する。(Preprocessing in Speaker Adaptation Processing) Upon receipt of the speaker adaptation voice data output from the voice feature / recognition result storage unit 22, the speaker adaptation unit 23 registers new speaker adaptation data ( Considering that the request of S21) was made,
First, it is determined whether there is a phoneme bias in the speaker adaptation voice data (S22). This determination (S22)
If it is determined that there is a bias in the number of words having the same element (S22), the word having a large bias is deleted (S23) from the point of balance with other phonemes, and the next step (S24). ). This next step (S2
In 4), it is determined whether or not the number of phonemes exceeds the threshold value (S24), and if the number of phonemes exceeds the threshold value (S2).
4)), generate a flag for speaker adaptation,
If not (not exceeded in S24), the present process is terminated. For example, assuming that the threshold is 100,
When 100 phonemes necessary for speaker adaptation have been collected, a flag for speaker adaptation is generated. This means that speaker adaptation is performed according to the number of phonemes.
【0048】一方、上記判定(S22)で、同じ要素を
持つ単語数の偏りがないと判定(S22でなし)された
場合は、そのまま次ステップに移行して、音素数が閾値
を超えているかどうかが判定(S24)される。この
(S24)の処理以降は上記同様の処理が行われる。On the other hand, if it is determined in the above determination (S22) that there is no bias in the number of words having the same element (No in S22), the process directly proceeds to the next step, and the number of phonemes exceeds the threshold. It is determined (S24). After this processing of (S24), processing similar to the above is performed.
【0049】続いて、話者適応処理における後処理につ
いて、図4を用いて説明する。Next, the post-processing in the speaker adaptation processing will be described with reference to FIG.
【0050】(話者適応処理における後処理)話者適応
部23は、話者適応開始条件を満たしたと判断した(S
31)場合、話者適応フラグが立っているかどうかを判
定(S32)し、該判定(S32)で該話者適応フラグ
が立っていると判定(S32であり)したときは、上記
話者適応用音声データを用いて話者適応の処理を実行
(S33)し、実行結果を音響モデル記憶部20に出力
する。音響モデル記憶部20は、話者適応部23から出
力され新たな話者適応モデルと、保持している話者適応
モデルを差し替える。話者適応部23は、音響モデル記
憶部20に対し上記話者適応処理の実行結果を送信した
とき、あるいは音響モデル部20から話者適応モデルの
更新が済んだことを示す旨のメッセージを受取ったとき
に、記憶していた話者適応処理の実行結果を消去(S3
4)して一連の話者適応処理を終える。一方、上記(S
32)で話者適応フラグが立っていないと判定(S32
でなし)された場合は、話者適応処理を実行しないでそ
のまま処理を終える。(Post-Processing in Speaker Adaptation Processing) The speaker adaptation unit 23 judges that the speaker adaptation start condition is satisfied (S).
In the case of 31), it is determined whether or not the speaker adaptation flag is set (S32), and if it is determined that the speaker adaptation flag is set (S32) in the determination (S32), the speaker adaptation is performed. The speaker adaptation process is executed using the voice data for use (S33), and the execution result is output to the acoustic model storage unit 20. The acoustic model storage unit 20 replaces the held speaker adaptation model with the new speaker adaptation model output from the speaker adaptation unit 23. The speaker adaptation unit 23 receives a message indicating that the speaker adaptation model has been updated, when the speaker adaptation unit 23 transmits the execution result of the speaker adaptation process to the acoustic model storage unit 20 or from the acoustic model unit 20. The stored result of the speaker adaptation process is erased (S3
4) Then, a series of speaker adaptation processing is completed. On the other hand, the above (S
32), it is determined that the speaker adaptation flag is not set (S32
If no), the speaker adaptation process is not executed and the process ends.
【0051】なお、上記話者適応の開始条件は、例え
ば、過去の履歴などにより、1日のうちである時間以上
の音声認識装置の利用がないと推定される時間帯となっ
た時点で開始される条件を満たしたものと判断される。
本発明の音声認識装置を備えた通信端末(例:移動通信
に用いられる携帯端末など)であれば、ユーザの帰宅後
就寝時充電中のような時間帯となる。このような状態で
は、通信端末が外部電源に接続されて充電されている状
態である。すなわち、このような状態にある時間帯を話
者適応の開始トリガとすれば、ユーザの就寝中に前述し
た話者適応の処理が実行されて自動的に音響モデルが更
新されるので、ユーザに負担をかけることなく新しい音
響モデルによる音声認識が行えるようになる。また、上
記のような状態であれば、通信端末が外部電源に接続さ
れているので、常に電源の供給を受けることが可能であ
る。このため、通信端末内の制御部(CPU)のクロッ
ク速度を上げることができ、話者適応の処理を高速に実
行して終えることができる。The speaker adaptation start condition is started at a time when it is estimated that the voice recognition device is not used for a certain time or more in one day due to the past history or the like. It is judged that the conditions are met.
In the case of a communication terminal equipped with the voice recognition device of the present invention (for example, a mobile terminal used for mobile communication), the time zone is such that the user is at home and is charging at bedtime. In such a state, the communication terminal is connected to an external power source and is being charged. That is, if a time zone in such a state is used as a speaker adaptation start trigger, the above-described speaker adaptation processing is executed while the user is sleeping and the acoustic model is automatically updated. Speech recognition using a new acoustic model will be possible without burdening the user. In addition, in the above-described state, since the communication terminal is connected to the external power supply, it is possible to always receive the power supply. Therefore, the clock speed of the control unit (CPU) in the communication terminal can be increased, and the speaker adaptation processing can be executed at high speed and completed.
【0052】以上、説明したように、上記実施例によれ
ば、背景雑音の大きさに応じて、2つの雑音モデル(雑
音モデルA、B)を用意し、それぞれの雑音モデルに対
する音響モデルを用意して音声認識を行うので、雑音環
境下での音声認識率を高くすることができ、かつ音声認
識の際のハードウェアリソースを節約することができ
る。As described above, according to the above-described embodiment, two noise models (noise models A and B) are prepared according to the magnitude of the background noise, and the acoustic model for each noise model is prepared. Since the voice recognition is performed by using the voice recognition, it is possible to increase the voice recognition rate in a noisy environment and save the hardware resource for the voice recognition.
【0053】上述の実施例では、背景雑音の大きさに応
じて、2つの雑音モデル(雑音モデルA、B)を用意
し、それぞれの雑音モデルに対する音響モデルを用意す
る必要があったが、本発明の実施形態はこれに限定され
るものでない。例えば、元になる音響モデルと、雑音モ
デルを独立に保持し、使用時にすぐに組合せて使えるの
であれば、1つの音響モデルと、2つの雑音モデルを保
持する形態であってももちろん構わない。また、本例で
は、上記音響モデルは雑音音量の大小に適応して生成さ
れる例を示したが、これに限らず雑音の種類などに適応
して生成されるものであってもよく、本発明を逸脱する
ものではない。In the above embodiment, it was necessary to prepare two noise models (noise models A and B) according to the magnitude of background noise and prepare acoustic models for each noise model. The embodiment of the invention is not limited to this. For example, if the original acoustic model and the noise model are held independently and can be used in combination immediately at the time of use, one acoustic model and two noise models may be held. Further, in this example, the acoustic model is generated by adapting to the magnitude of the noise volume, but the present invention is not limited to this, and may be generated by adapting to the type of noise. It does not depart from the invention.
【0054】また、上記実施例では、該当音声データの
内部表現と認識結果(=話者適応用音声データ)を用い
て話者適応を行う場合を例に取り上げたが、内部表現の
代わりに元の音声データをそのまま保存して用いてもよ
い。In the above embodiment, the case where the speaker adaptation is performed using the internal expression of the corresponding voice data and the recognition result (= speaker adaptation voice data) is taken as an example. The voice data of may be stored and used as it is.
【0055】また、上記実施例では、話者適応の開始
は、自動判定(音声認識装置が充電中のときを自動で判
定)で行ったが、ユーザの指示に基づいて開始してもよ
い。例えば、上記通信端末のような携帯機器であれば、
話者適応の開始を示す所定の操作を行うことで、ユーザ
の希望する時間帯などで話者適応の処理を自由に行わせ
ることが可能である。Further, in the above embodiment, the speaker adaptation is started by automatic determination (automatic determination when the voice recognition device is charging), but it may be started based on a user's instruction. For example, if it is a mobile device such as the communication terminal,
By performing a predetermined operation indicating the start of speaker adaptation, it is possible to freely perform speaker adaptation processing in a time zone desired by the user.
【0056】また、上記実施例では、話者対応の処理を
音声認識装置内で行うローカル型の処理形態であった
が、これに限らずリモート側で話者適応を実行するよう
な形態であってもよい。この場合、本発明の音声認識装
置には、話者適応処理を外部に行わせるために必要なデ
ータを送信する送信部と、外部から話者適応処理実行後
のデータを受信する受信部が備えられる。外部となるリ
モート側には、話者適応処理を実行するサーバなどが設
けられる。ここでは、上記のような送受信部を備えた音
声認識装置を通信端末と定義する。Further, in the above embodiment, the processing corresponding to the speaker is a local type processing mode in the voice recognition device, but the present invention is not limited to this, and the speaker adaptation is executed on the remote side. May be. In this case, the voice recognition device of the present invention is provided with a transmission unit that transmits data necessary for performing the speaker adaptation process to the outside and a reception unit that receives data after the speaker adaptation process has been executed from the outside. To be A server that executes speaker adaptation processing is provided on the remote side that is the outside. Here, a voice recognition device including the above-mentioned transmitting / receiving unit is defined as a communication terminal.
【0057】図5は、話者適応処理を外部で行う場合の
通信形態例を示す図である。FIG. 5 is a diagram showing an example of a communication mode in the case where the speaker adaptation process is performed externally.
【0058】以下、図5を参照しながら、話者適応処理
を外部で行う場合について説明する。The case where the speaker adaptation process is performed externally will be described below with reference to FIG.
【0059】本例において音声特徴・認識結果記憶部2
2には、記憶しているデータを送信するための送信部5
0が接続される。音声特徴・認識結果記憶部22は、話
者適応に必要な話者適応用音声データの蓄積量が所定の
基準に達した時点で、その蓄積された話者適応用音声デ
ータを送信部50に出力する。送信部50は、音声特徴
・認識結果記憶部22から話者適応用音声データを受取
ると、該話者適応用音声データに対し、符号化処理を行
い、無線信号に変換してリモート側のサーバ(本例で
は、サーバ機能付きのノートパソコンと仮定)100に
送信する。サーバは、通信端末から送信されてきた話者
適応用音声データを無線送受信ユニット101で受信
し、その受信した話者適応用音声データを利用して、話
者適応処理を実行する。そして、通信端末側で変更すべ
きパラメータ(以下、パラメータ変更情報と略記)を算
出した後、無線送受信ユニット101によりパラメータ
変更情報が通信端末に送信される。通信端末の受信部6
0では、上記サーバ100から送信されてくるパラメー
タ変更情報を受信して復調した後、復調後のパラメータ
変更情報を話者適応部23に出力する。話者適応部23
では、上記パラメータ変更情報に基づいたパラメータ変
更処理が行われ、話者適応モデルの更新を終える。In this example, the voice feature / recognition result storage unit 2
2 includes a transmitter 5 for transmitting the stored data.
0 is connected. The voice feature / recognition result storage unit 22 sends the stored speaker adaptation voice data to the transmission unit 50 when the accumulated amount of speaker adaptation voice data necessary for speaker adaptation reaches a predetermined reference. Output. Upon receiving the speaker adaptation voice data from the voice feature / recognition result storage unit 22, the transmission unit 50 performs an encoding process on the speaker adaptation voice data, converts the speaker adaptation voice data into a wireless signal, and outputs the converted signal to a server on the remote side. (In this example, it is assumed that the notebook computer has a server function) 100. The server receives the speaker adaptation voice data transmitted from the communication terminal at the wireless transmission / reception unit 101, and executes the speaker adaptation process using the received speaker adaptation voice data. Then, after calculating a parameter to be changed (hereinafter, abbreviated as parameter change information) on the communication terminal side, the wireless transmission / reception unit 101 transmits the parameter change information to the communication terminal. Receiver 6 of communication terminal
At 0, the parameter change information transmitted from the server 100 is received and demodulated, and then the demodulated parameter change information is output to the speaker adaptation unit 23. Speaker adaptation unit 23
Then, the parameter changing process based on the parameter changing information is performed, and the update of the speaker adaptation model is completed.
【0060】このように、上記実施例によれば、話者適
応の処理がリモート側に設けたサーバ100側で実行さ
れ、通信端末側では、サーバから実行結果のみを受取っ
て話者適応モデルを更新するだけなので、通信端末に要
求される計算機資源やメモリ資源などを緩和することが
可能である。上記例の通信形態は、通信端末とサーバ1
00間が無線で接続(例:無線LAN、赤外線通信(I
rDA)、Bluetoothなどの近距離無線)され
る例(図5の参照)であったが、USBなどの有線で
接続される(図5の参照)場合であっても良い。さら
に、図6に示すような、リモート側のサーバ201が通
信ネットワーク200に接続されるような通信形態であ
っても構わない。この場合、通信ネットワーク200
は、公衆網、移動網、IP網などのいずれであってもよ
い。また、通信ネットワークと通信端末間の接続は網形
態に応じて無線(図6の参照)あるいは有線(図6の
参照)が接続される。例えば、通信ネットワーク20
0が移動通信用の移動網であれば、通信端末は、移動網
内の無線アクセスノードに無線接続した後、サーバ20
0と接続される。上記例において、音響モデル記憶部2
0の記憶機能が雑音適応音響モデル保持手段、音声認識
処理部21の音声認識機能が音声認識処理手段に対応
し、音声始端検出部18の音声検出機能が第1の音声分
析手段と、音声パワー検出手段に、フィルタ15と音声
記憶部16とピッチ抽出部17による音声検出機能が第
2の音声分析手段に、音声記憶部16の音声記憶機能が
音声記憶手段に、ピッチ抽出部17の発話開始点検出機
能がピッチ抽出手段に対応する。また、発話開始判定切
替部14の切替機能が発話開始判定切替手段に対応し、
雑音適応補正部19の雑音補正機能が第1の雑音適応補
正手段、第2の雑音適応補正手段に、音声特徴・認識結
果記憶部22の記憶機能が音声特徴認識結果記憶手段
に、話者適応部23の話者適応処理機能が話者適応手
段、外部話者適応手段に対応する。さらに、送信部50
のデータ送信機能が、データ一括送信手段、データ順次
送信手段に、受信部60のデータ受信機能がデータ受信
手段に、サーバ100、201の処理機能がデータ一括
処理型話者適応処理手段、データ−順次蓄積処理型話者
適応処理手段に、サーバ100、201の通信機能がデ
ータ一括処理型変更パラメータ送信手段、データ受信蓄
積手段データ−順次蓄積処理型変更パラメータ送信手段
に対応する。As described above, according to the above-described embodiment, the speaker adaptation process is executed by the server 100 provided on the remote side, and the communication terminal side receives only the execution result from the server to obtain the speaker adaptation model. Since it is only updated, it is possible to relax computer resources and memory resources required for the communication terminal. The communication mode of the above example is the communication terminal and the server 1.
Wireless connection between 00 (eg wireless LAN, infrared communication (I
rDA), Bluetooth and other short-range wireless communication) (see FIG. 5), but a wired connection such as USB (see FIG. 5) may be used. Furthermore, a communication mode in which the server 201 on the remote side is connected to the communication network 200 as shown in FIG. 6 may be used. In this case, the communication network 200
May be a public network, a mobile network, an IP network, or the like. Also, the connection between the communication network and the communication terminal is wireless (see FIG. 6) or wired (see FIG. 6) depending on the network configuration. For example, the communication network 20
If 0 is a mobile network for mobile communication, the communication terminal wirelessly connects to a wireless access node in the mobile network, and then the server 20
Connected with 0. In the above example, the acoustic model storage unit 2
The memory function of 0 corresponds to the noise adaptive acoustic model holding unit, the voice recognition function of the voice recognition processing unit 21 corresponds to the voice recognition processing unit, and the voice detection function of the voice start edge detection unit 18 corresponds to the first voice analysis unit and the voice power. The detection means includes the filter 15, the voice storage unit 16, and the pitch extraction unit 17 for the voice detection function, the voice storage unit 16 for the voice storage function, and the pitch extraction unit 17 for utterance start. The point detection function corresponds to the pitch extraction means. Further, the switching function of the speech start determination switching unit 14 corresponds to the speech start determination switching means,
The noise correction function of the noise adaptive correction unit 19 is applied to the first noise adaptive correction unit and the second noise adaptive correction unit, and the storage function of the voice feature / recognition result storage unit 22 is applied to the voice feature recognition result storage unit, and speaker adaptation is performed. The speaker adaptation processing function of the unit 23 corresponds to the speaker adaptation means and the external speaker adaptation means. Furthermore, the transmission unit 50
Of the data transmission function of the data batch transmission means and the data sequential transmission means, the data reception function of the reception unit 60 is the data reception means, and the processing functions of the servers 100 and 201 are the data batch processing type speaker adaptation processing means and the data- The communication function of the servers 100 and 201 corresponds to the sequential storage processing type speaker adaptation processing means, and corresponds to the data batch processing type change parameter transmission means and the data reception / storage means data-sequential storage processing type change parameter transmission means.
【0061】[0061]
【発明の効果】以上、説明したように、請求項1乃至1
4記載の本願発明によれば、雑音(=背景雑音)の性
質、例えば、背景雑音の音量に対応した複数の音響モデ
ルが予め保持され、ユーザによる音声認識装置の利用が
検出されたときに検出される背景雑音の音量に対応した
音響モデルが該保持された音響モデルのなかかから選択
される。ユーザにより入力された音声の認識は、上記の
ようにして選択された音響モデルを採用して行われるの
で、ユーザの移動に伴って雑音が大きく変わるような携
帯環境下であっても、環境に応じて良好な認識性能を得
ることができる。また、雑音音量に適応した音響モデル
を2通りのみ用意し、それぞれをユーザによる当該音声
認識装置の利用前の雑音環境に応じて切り替えるととも
に、該雑音環境に応じた音声分析処理にて発話開始判定
を行うので、低い処理負荷で良い認識性能を出すことが
できる。さらに、話者適応の処理をリモート側に設けた
サーバなどで実行することで、通信端末側は、話者適応
処理の負担を軽減することができ、自身に要求される計
算機資源やメモリ資源などを緩和させることができる。As described above, according to the first aspect of the present invention.
According to the present invention described in 4, the property of noise (= background noise), for example, a plurality of acoustic models corresponding to the volume of the background noise is held in advance, and is detected when the use of the voice recognition device by the user is detected. The acoustic model corresponding to the volume of the background noise to be generated is selected from the retained acoustic models. Since the voice input by the user is recognized by using the acoustic model selected as described above, even if the mobile environment is such that the noise changes greatly as the user moves, Accordingly, good recognition performance can be obtained. Further, only two acoustic models adapted to the noise volume are prepared, and each of them is switched according to the noise environment before the user uses the speech recognition device, and the speech start processing is determined by the speech analysis processing according to the noise environment. Therefore, good recognition performance can be achieved with a low processing load. Furthermore, by performing speaker adaptation processing on a server or the like provided on the remote side, the communication terminal side can reduce the burden of speaker adaptation processing, and the computer resources and memory resources required by itself can be reduced. Can be alleviated.
【図1】本実施の形態における音声認識装置のブロック
図である。FIG. 1 is a block diagram of a voice recognition device in the present embodiment.
【図2】本発明の音声認識装置における音声認識処理の
処理手順を示すフローチャートである。FIG. 2 is a flowchart showing a processing procedure of a voice recognition process in the voice recognition device of the present invention.
【図3】話者適応処理における前処理を説明するフロー
チャートである。FIG. 3 is a flowchart illustrating preprocessing in speaker adaptation processing.
【図4】話者適応処理における後処理を説明するフロー
チャートである。FIG. 4 is a flowchart illustrating post-processing in speaker adaptation processing.
【図5】話者適応処理を外部で行う場合の通信形態例を
示す図(その1)である。FIG. 5 is a diagram (No. 1) showing an example of a communication mode when the speaker adaptation process is performed externally.
【図6】話者適応処理を外部で行う場合の通信形態例を
示す図(その2)である。FIG. 6 is a diagram (part 2) illustrating an example of a communication mode when the speaker adaptation process is performed externally.
11 利用開始終了判定部 12 音声入力部 13 雑音音量判定部 14 発話開始判定切替部 15 フィルタ 16 音声記憶部 17 ピッチ抽出部 18 音声始端検出部 19 雑音適応補正部 20 音響モデル記憶部 21 音声認識処理部 22 音声特徴・認識結果記憶部 23 話者適応部 50 送信部 60 受信部 100 サーバ機能付きノートパソコン 101 無線送受信ユニット 200 通信ネットワーク 201 サーバ 11 Usage start / end determination unit 12 Voice input section 13 Noise volume determination unit 14 Speech start determination switching unit 15 filters 16 Voice memory 17 Pitch extractor 18 Voice Start Detection Unit 19 Noise adaptive correction unit 20 Acoustic model storage 21 Speech recognition processing unit 22 Voice feature / recognition result storage 23 Speaker adaptation unit 50 transmitter 60 Receiver 100 laptop with server function 101 wireless transceiver unit 200 communication network 201 server
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 531P ─────────────────────────────────────────────────── ─── Continued Front Page (51) Int.Cl. 7 Identification Code FI Theme Coat (Reference) G10L 15/28 G10L 3/00 531P
Claims (14)
ーザの音声を認識する音声認識装置において、 前記ユーザの発声の特徴を、前記複数の異なる雑音の各
々の性質に対応させてモデル化した音響モデルを複数保
持する雑音適応音響モデル保持手段と、 当該音声認識装置の利用開始が検出されたときに、前記
雑音の性質を検出し、その検出された雑音の性質に対応
した音響モデルを、前記雑音適応音響モデル保持手段か
ら取得して、該音響モデルと前記入力されたユーザの音
声を照合して音声認識を行う音声認識処理手段とを有す
ることを特徴とする音声認識装置。1. A voice recognition device for recognizing a user's voice input in an environment of a plurality of different noises, wherein the characteristics of the user's utterance are modeled corresponding to the respective characteristics of the plurality of different noises. Noise adaptive acoustic model holding means for holding a plurality of acoustic models described above, and when the start of use of the speech recognition device is detected, the nature of the noise is detected and an acoustic model corresponding to the detected nature of the noise is detected. A voice recognition device, comprising: a voice recognition processing unit that obtains from the noise adaptive acoustic model holding unit and collates the acoustic model with the input voice of the user to perform voice recognition.
ルは、前記雑音の大きさを表す雑音音量の大小に対応し
て生成されることを特徴とする音声認識装置。2. The speech recognition apparatus according to claim 1, wherein the acoustic model held in the noise adaptive acoustic model holding means is generated in correspondence with the magnitude of noise volume representing the magnitude of the noise. Characteristic voice recognition device.
置がユーザに把持されたとき及び、該音声認識装置がユ
ーザに操作されたとき及び、該音声認識装置がユーザの
一部と接触又は接近したときの少なくとも1つが検出さ
れたときとすることを特徴とする音声認識装置。3. The voice recognition device according to claim 1, wherein the use start detection criterion of the voice recognition device is when the voice recognition device is gripped by a user and when the voice recognition device is operated by the user. The voice recognition device is characterized in that at least one of when the voice recognition device contacts or approaches a part of the user is detected.
の音量が小さければ、その小さい雑音量に対応付けられ
た音響モデルを前記雑音適応音響モデル保持手段から取
得して発話直前の背景雑音で補正する第1の雑音適応補
正手段と、 前記雑音の音量が大きければ、その大きい雑音量に対応
付けられた音響モデルを、前記雑音適応音響モデル保持
手段から取得して発話直前の音で補正する第2の雑音適
応補正手段とを有することを特徴とする音声認識装置。4. The voice recognition apparatus according to claim 1, wherein said voice recognition means, when the noise is measured and the volume of said noise is small, the acoustic model associated with said small noise amount is said. A first noise adaptive correction unit that obtains from the noise adaptive acoustic model holding unit and corrects the background noise immediately before the utterance; and if the volume of the noise is large, the acoustic model associated with the large noise amount is used as the noise. A voice recognition device, comprising: a second noise adaptive correction unit, which is acquired from the adaptive acoustic model holding unit and is corrected by a sound immediately before utterance.
ときに入力された音声を分析する第1の音声分析手段
と、前記測定された雑音音量が大きいときに入力された
音声を分析する第2の音声分析手段とを有し、 前記第1の音声分析手段にて分析された入力音声を前記
第1の雑音適応補正手段にて補正された音響モデルを用
いて認識し、前記第2の音声分析手段にて分析された入
力音声を前記第2の雑音適応補正手段にて補正された音
響モデルを用いて認識することを特徴とする音声認識装
置。5. The voice recognition device according to claim 4, wherein the voice recognition means analyzes a voice input when the measured noise volume is low, and the measured voice recognition means. A second voice analysis unit for analyzing a voice input when the noise volume is high, and the input voice analyzed by the first voice analysis unit is corrected by the first noise adaptive correction unit. And the input voice analyzed by the second voice analysis means is recognized by using the acoustic model corrected by the second noise adaptive correction means. Speech recognizer.
て、入力音声の分析に用いる前記第1の音声分析手段
と、前記第2の音声分析手段とを切り替える発話開始判
定切替手段を有することを特徴とする音声認識装置。6. The voice recognition device according to claim 5, wherein the voice recognition means uses the first voice analysis means and the second voice analysis means, which are used to analyze the input voice, according to the magnitude of the measured noise. A speech recognition apparatus comprising a speech start determination switching unit for switching between the speech analysis unit and the speech analysis unit.
て、 前記第1の音声分析手段は、入力音声のパワー情報を用
いて発話開始を判定する音声パワー検出手段を有し、検
出された発話区間の音声を前記音声認識手段にて出力し
て認識させることを特徴とする音声認識装置。7. The voice recognition device according to claim 5, wherein the first voice analysis unit has a voice power detection unit that determines the start of utterance using power information of the input voice, and is detected. A voice recognition device characterized in that the voice of the utterance section is outputted and recognized by the voice recognition means.
て、 前記第2の音声分析手段は、入力音声を2分割し、 一方の音声を時刻情報と共に記憶する音声記憶手段と、 他方の音声にケプストラム分析をかけ、その分析により
得られるピッチ成分の開始点を発話開始点候補として求
め、該求めた発話開始点候補より以前の点を発話開始点
とみなして決定するピッチ抽出手段と、その決定した発
話開始点からの発話区間の音声を前記音声認識手段にて
出力して認識させることを特徴とする音声認識装置。8. The voice recognition device according to claim 5, wherein the second voice analysis unit divides the input voice into two and stores one voice together with time information, and the other voice. A cepstrum analysis to obtain a starting point of the pitch component obtained by the analysis as a utterance starting point candidate, and a pitch extracting means for determining a point prior to the obtained utterance starting point candidate as an utterance starting point, and A voice recognition device characterized in that the voice recognition means outputs and recognizes the voice in the utterance section from the determined utterance start point.
識装置において、 前記音声認識処理手段は、認識結果として認識の確度を
示す認識スコアを算出し、その算出された認識スコアが
所定の閾値を超えていれば、該認識結果は正解の可能性
が高いとみなし、該認識結果と、該認識で得られる音声
特徴量とを記憶する音声特徴認識結果記憶手段と、 前記音声特徴認識結果記憶手段により記憶されている前
記認識結果と、前記認識で得られる音声特徴量とを用い
て話者固有の音声の特徴を学習する話者適応手段を有す
ることを特徴とする音声認識装置。9. The voice recognition device according to claim 3, wherein the voice recognition processing means calculates a recognition score indicating a recognition accuracy as a recognition result, and the calculated recognition score is predetermined. If the recognition result exceeds the threshold value, it is considered that the recognition result is highly likely to be a correct answer, and a voice feature recognition result storage unit that stores the recognition result and the voice feature amount obtained by the recognition; A voice recognition device comprising a speaker adaptation unit that learns a voice feature peculiar to a speaker by using the recognition result stored by the result storage unit and the voice feature amount obtained by the recognition.
手段により供給されているときに、前記音声特徴認識結
果記憶手段により記憶されている前記認識結果と、前記
認識で得られる音声特徴量とを用いて話者適応行う外部
話者適応手段を有することを特徴とする音声認識装置。10. The voice recognition device according to claim 9, wherein the speaker adaptation unit is stored by the voice feature recognition result storage unit when the voice recognition device is supplied by an external power supply unit. A voice recognition device, comprising: an external speaker adaptation means for performing speaker adaptation using the recognition result and the voice feature amount obtained by the recognition.
信端末とサーバ装置とを含む音声認識システムにおい
て、 前記通信端末は、請求項1乃至10いずれか一項記載の
音声認識装置と、 前記音声認識装置によって得られた入力音声に関する音
声認識の結果と、音声特徴量とを表すデータの量が話者
適用に必要な分蓄積されたときに、該データを前記サー
バ装置に送信するデータ一括送信手段を備え、 前記サーバ装置は、前記通信端末から送信されてくる前
記データを受信するデータ受信手段と、 前記データに基づいて話者適応を実行するデータ一括処
理型話者適応処理手段と、該データ一括処理型話者適応
処理手段により、前記通信端末で変更されるべきパラメ
ータを算出して前記通信端末に送信するデータ一括処理
型変更パラメータ送信手段とを備えたことを特徴とする
音声認識システム。11. A voice recognition system including a communication terminal capable of wireless or wired voice communication and a server device, wherein the communication terminal is the voice recognition device according to claim 1. When the amount of data representing the voice recognition result about the input voice obtained by the recognition device and the voice feature amount is accumulated for the application of the speaker, the data is transmitted to the server device at a time. The server device includes a data receiving unit that receives the data transmitted from the communication terminal, a data batch processing type speaker adaptation processing unit that executes speaker adaptation based on the data, The data batch processing type speaker adaptation processing means calculates a parameter to be changed in the communication terminal and sends it to the communication terminal. A voice recognition system comprising a communication means.
いて、 前記通信端末は、前記音声認識装置によって得られた入
力音声に関する音声認識の結果と、音声特徴量とを表す
データを順次前記サーバ装置に送信するデータ順次送信
手段を備え、 前記サーバ装置は、前記通信端末から送信されてくる前
記データを受信して蓄積するデータ受信蓄積手段と、 該蓄積したデータの量が話者適応に必要な量に達したと
きに、該データに基づいて話者適応を実行するデータ−
順次蓄積処理型話者適応処理手段と、該データ−順次蓄
積処理型話者適応処理手段により、前記通信端末で変更
されるべきパラメータを算出して前記通信端末に送信す
るデータ−順次蓄積処理型変更パラメータ送信手段とを
備えたことを特徴とする音声認識システム。12. The voice recognition system according to claim 11, wherein the communication terminal sequentially sends to the server device data representing a voice recognition result regarding an input voice obtained by the voice recognition device and a voice feature amount. A data receiving / storing means for receiving and storing the data transmitted from the communication terminal, and an amount of the accumulated data required for speaker adaptation. Data for performing speaker adaptation based on the data when
Sequential storage processing type speaker adaptation processing means, and data-sequential storage processing type speaker adaptation processing means calculates data to be changed in the communication terminal and transmits the data to the communication terminal-sequential storage processing type A voice recognition system comprising a change parameter transmission means.
テムにおいて、 前記通信端末は、前記データ一括送信手段又は前記デー
タ順次送信手段による所定データの送信を、前記サーバ
装置と接続される通信ネットワークを介して該サーバ装
置に行うことを特徴とする音声認識システム13. The voice recognition system according to claim 11, wherein the communication terminal transmits the predetermined data by the data batch transmission means or the data sequential transmission means to a communication network connected to the server device. Voice recognition system characterized in that it is performed to the server device via
おいて、 前記通信端末は、移動用通信端末であることを特徴とす
る音声認識システム。14. The voice recognition system according to claim 13, wherein the communication terminal is a mobile communication terminal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002043778A JP2003241788A (en) | 2002-02-20 | 2002-02-20 | Voice recognition device and voice recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002043778A JP2003241788A (en) | 2002-02-20 | 2002-02-20 | Voice recognition device and voice recognition system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003241788A true JP2003241788A (en) | 2003-08-29 |
Family
ID=27783431
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002043778A Pending JP2003241788A (en) | 2002-02-20 | 2002-02-20 | Voice recognition device and voice recognition system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003241788A (en) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006350090A (en) * | 2005-06-17 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods |
| JP2007304582A (en) * | 2006-05-12 | 2007-11-22 | Qnx Software Systems (Wavemakers) Inc | Robust noise estimation |
| JP2008158328A (en) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | Terminal device and determination method |
| WO2009136440A1 (en) * | 2008-05-09 | 2009-11-12 | 富士通株式会社 | Speech recognition dictionary creating support device, processing program, and processing method |
| JP2010237307A (en) * | 2009-03-30 | 2010-10-21 | Nippon Telegr & Teleph Corp <Ntt> | Speech learning / synthesis system and speech learning / synthesis method |
| JP2011064913A (en) * | 2009-09-16 | 2011-03-31 | Ntt Docomo Inc | Telephone system, terminal device, voice model updating device, and voice model updating method |
| JP2014142626A (en) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | Voice identification method and device |
| JP2014142627A (en) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | Voice identification method and device |
| JP2016180915A (en) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | Voice recognition system, client device, voice recognition method, program |
| JP2021015264A (en) * | 2019-07-11 | 2021-02-12 | サウンドハウンド,インコーポレイテッド | Visual support speech processing |
| JP2021529978A (en) * | 2018-05-10 | 2021-11-04 | エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. | Artificial intelligence service method and equipment for it |
| CN114625014A (en) * | 2020-12-09 | 2022-06-14 | 青岛海尔洗衣机有限公司 | Control method for smart home system |
| WO2024252750A1 (en) * | 2023-06-05 | 2024-12-12 | パナソニックIpマネジメント株式会社 | Noise cancellation device, noise cancellation method, and program |
-
2002
- 2002-02-20 JP JP2002043778A patent/JP2003241788A/en active Pending
Cited By (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006350090A (en) * | 2005-06-17 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods |
| JP2007304582A (en) * | 2006-05-12 | 2007-11-22 | Qnx Software Systems (Wavemakers) Inc | Robust noise estimation |
| JP2008158328A (en) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | Terminal device and determination method |
| WO2009136440A1 (en) * | 2008-05-09 | 2009-11-12 | 富士通株式会社 | Speech recognition dictionary creating support device, processing program, and processing method |
| GB2471811A (en) * | 2008-05-09 | 2011-01-12 | Fujitsu Ltd | Speech recognition dictionary creating support device, processing program, and processing method |
| JPWO2009136440A1 (en) * | 2008-05-09 | 2011-09-01 | 富士通株式会社 | Speech recognition dictionary creation support device, processing program, and processing method |
| GB2471811B (en) * | 2008-05-09 | 2012-05-16 | Fujitsu Ltd | Speech recognition dictionary creating support device,computer readable medium storing processing program, and processing method |
| US8423354B2 (en) | 2008-05-09 | 2013-04-16 | Fujitsu Limited | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method |
| JP2010237307A (en) * | 2009-03-30 | 2010-10-21 | Nippon Telegr & Teleph Corp <Ntt> | Speech learning / synthesis system and speech learning / synthesis method |
| JP2011064913A (en) * | 2009-09-16 | 2011-03-31 | Ntt Docomo Inc | Telephone system, terminal device, voice model updating device, and voice model updating method |
| JP2014142626A (en) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | Voice identification method and device |
| JP2014142627A (en) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | Voice identification method and device |
| JP2017058691A (en) * | 2013-01-24 | 2017-03-23 | ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. | Voice identification method and apparatus |
| US9607619B2 (en) | 2013-01-24 | 2017-03-28 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
| US9666186B2 (en) | 2013-01-24 | 2017-05-30 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
| JP2016180915A (en) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | Voice recognition system, client device, voice recognition method, program |
| JP2021529978A (en) * | 2018-05-10 | 2021-11-04 | エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. | Artificial intelligence service method and equipment for it |
| JP2021015264A (en) * | 2019-07-11 | 2021-02-12 | サウンドハウンド,インコーポレイテッド | Visual support speech processing |
| JP7242520B2 (en) | 2019-07-11 | 2023-03-20 | サウンドハウンド,インコーポレイテッド | visually aided speech processing |
| CN114625014A (en) * | 2020-12-09 | 2022-06-14 | 青岛海尔洗衣机有限公司 | Control method for smart home system |
| WO2024252750A1 (en) * | 2023-06-05 | 2024-12-12 | パナソニックIpマネジメント株式会社 | Noise cancellation device, noise cancellation method, and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN105190746B (en) | Method and apparatus for detecting target keywords | |
| CN110310623B (en) | Sample generation method, model training method, device, medium, and electronic apparatus | |
| JP4796309B2 (en) | Method and apparatus for multi-sensor speech improvement on mobile devices | |
| US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
| KR100636317B1 (en) | Distributed speech recognition system and method | |
| US7457750B2 (en) | Systems and methods for dynamic re-configurable speech recognition | |
| US8831939B2 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
| US20030061037A1 (en) | Method and apparatus for identifying noise environments from noisy signals | |
| WO2019213443A1 (en) | Audio analytics for natural language processing | |
| JP2003241788A (en) | Voice recognition device and voice recognition system | |
| CN1708782A (en) | Method for operating a speech recognition system | |
| US11641592B1 (en) | Device management using stored network metrics | |
| JP3969908B2 (en) | Voice input terminal, voice recognition device, voice communication system, and voice communication method | |
| US20060095260A1 (en) | Method and apparatus for vocal-cord signal recognition | |
| US20190304457A1 (en) | Interaction device and program | |
| JP5988077B2 (en) | Utterance section detection apparatus and computer program for detecting an utterance section | |
| WO2012121856A1 (en) | Sound recognition method and system | |
| JP6549009B2 (en) | Communication terminal and speech recognition system | |
| KR102075399B1 (en) | A speech recognition apparatus | |
| CN111739515A (en) | Voice recognition method, device, electronic device, server and related system | |
| CN114005436B (en) | Method, device and storage medium for determining voice endpoint | |
| KR20200109841A (en) | A speech recognition apparatus | |
| KR20200109826A (en) | A computer-readable recording medium on which a program for executing a speech recognition method is recorded | |
| JP2017181667A (en) | Voice recognition apparatus and voice recognition method | |
| JP2000311077A (en) | Voice information input device |