JP5475697B2 - Noise suppressor, method and program thereof - Google Patents
Noise suppressor, method and program thereof Download PDFInfo
- Publication number
- JP5475697B2 JP5475697B2 JP2011008129A JP2011008129A JP5475697B2 JP 5475697 B2 JP5475697 B2 JP 5475697B2 JP 2011008129 A JP2011008129 A JP 2011008129A JP 2011008129 A JP2011008129 A JP 2011008129A JP 5475697 B2 JP5475697 B2 JP 5475697B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- speech
- logarithmic
- noise
- observed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、雑音スペクトルの局所的な推定誤差に影響され難い雑音抑圧装置とその方法と、プログラムに関する。 The present invention relates to a noise suppression apparatus, a method thereof, and a program that are hardly affected by a local estimation error of a noise spectrum.
雑音抑圧装置は、所望の音声信号に重畳されている雑音を取り除く装置である。図13に、典型的な雑音抑圧装置900の機能構成を示し、その動作を簡単に説明する。雑音抑圧装置900は、スペクトル計算部90、雑音推定部91、利得計算部92、フィルタ計算部93、フィルタ適用部94、を具備する。
The noise suppression device is a device that removes noise superimposed on a desired audio signal. FIG. 13 shows a functional configuration of a typical noise suppression apparatus 900, and its operation will be briefly described. The noise suppression apparatus 900 includes a
スペクトル計算部90は、所定時間幅の短時間フレーム毎の観測信号から、観測信号のスペクトルである観測スペクトルを計算する。雑音推定部91は、観測スペクトルに含まれる雑音のスペクトルである雑音スペクトルを計算する。利得計算部92は、雑音抑圧利得を計算する。雑音抑圧利得は、周波数ビン毎に定義される0以上1以下の実数のベクトルであり、これを観測スペクトルに乗算することで雑音が抑圧されたスペクトルである強調スペクトルが得られる。
The
フィルタ計算部93は、周波数領域で定義された雑音抑圧利得を、時間領域の雑音抑圧フィルタに変換する。フィルタ適用部94は、観測信号に雑音抑圧フィルタを適用して雑音を抑圧した強調信号を求める。また、雑音抑圧利得を観測スペクトルに乗算して得られる強調スペクトルから強調信号を求める構成も広く用いられている。
The
利得計算部92については、OMLSA(Optimally Modified Log-Spectral Amplitude Estimator)と称される雑音抑圧利得を計算する方法が知られている(非特許文献1)。その方法を図14を参照して説明する。OMLSAは、音声存在確率計算手段920、第一所望音声推定手段921、第二所望音声推定手段922、利得決定手段923、から成る。
As for the
音声存在確率計算手段920は、音声存在確率ベクトルを計算する。音声存在確率ベクトルは、各周波数ビンについて定義された音声存在確率の全周波数ビンに亘るベクトルである。ある周波数ビンにおける音声存在確率は、当該周波数ビンにおいて観測スペクトル中に音声が存在する確率を表す。第一所望音声推定手段921は、全ての周波数ビンにおいて観測スペクトル中に音声が存在すると仮定した場合の所望音声のスペクトルの推定値を第一強調スペクトルとして計算する。
The voice presence
第二所望音声推定手段922は、全ての周波数ビンにおいて観測スペクトル中に音声が存在しないと仮定した場合の所望音声のスペクトルの推定値を第二強調スペクトルとして計算する。利得決定手段923は、音声存在ベクトルと第一強調スペクトルと第二強調スペクトルとから、雑音抑圧利得を計算する。 The second desired speech estimation means 922 calculates the estimated value of the spectrum of the desired speech as the second enhancement spectrum when it is assumed that there is no speech in the observed spectrum in all frequency bins. Gain determining means 923 calculates a noise suppression gain from the speech presence vector, the first enhancement spectrum, and the second enhancement spectrum.
OMLSAを用いた雑音抑圧装置900は、小さい音声歪と高い雑音抑圧量を両立できる。音声はスパース性をもつため、音声のエネルギーは一部の周波数ビンに集中する傾向があることが知られている。そうした周波数ビンでは音声が存在すると見做せる。一方、音声のエネルギーがほとんど存在しない周波数ビンには音声が存在しないと見做せる。OMLSAでは、音声が存在するか否かを周波数ビン毎に推定しながら雑音抑圧利得を計算するので、所望音声のエネルギーが集中する周波数ビンにおける音声の歪みを小さく保ったまま、所望音声のエネルギーがほとんど存在しない周波数ビンにおいて雑音を大幅に抑圧することが可能である。 The noise suppression apparatus 900 using OMLSA can achieve both a small voice distortion and a high noise suppression amount. Since voice has sparsity, it is known that voice energy tends to concentrate in some frequency bins. In such a frequency bin, it can be considered that sound exists. On the other hand, it can be considered that there is no sound in a frequency bin where there is almost no sound energy. In OMLSA, noise suppression gain is calculated while estimating whether or not speech exists for each frequency bin. Therefore, the energy of the desired speech is kept small while keeping the speech distortion in the frequency bin where the energy of the desired speech is concentrated. Noise can be significantly suppressed in frequency bins that are almost nonexistent.
しかしながら、OMLSAの音声存在確率計算は、雑音が非定常である場合、音声存在確率ベクトルを正しく求められないという課題がある。OMLSAの音声存在確率計算では、各周波数ビンに対して当該周波数ビンに時間的ないし周波数的に近接した周波数ビンにおけるSN比を求め、その大小に基づいて音声存在確率を計算する。 However, the OMLSA speech existence probability calculation has a problem that the speech existence probability vector cannot be obtained correctly when the noise is non-stationary. In the OMLSA speech existence probability calculation, the SN ratio in a frequency bin that is close in time or frequency to the frequency bin is obtained for each frequency bin, and the speech existence probability is calculated based on the magnitude.
雑音が非定常である場合、雑音スペクトルの推定値には局所的な誤差が含まれがちである。このためSN比を正確に求めることが出来ないので、適切な音声存在確率が得られない。すなわち、OMLSAは雑音スペクトルの推定値の局所的な誤差に頑健ではない。 If the noise is non-stationary, the estimate of the noise spectrum tends to include local errors. For this reason, since an S / N ratio cannot be calculated | required correctly, a suitable audio | voice existence probability cannot be obtained. That is, OMLSA is not robust to local errors in noise spectrum estimates.
この発明は、このような課題に鑑みてなされたものであり、音声の大局的な構造上の特徴に着目することで、雑音スペクトルの推定値に誤差が含まれる場合でも音声存在確率を高精度に求めることができる雑音抑圧装置と、その方法とプログラムを提供することを目的とする。この発明で着目する音声の大局的な構造上の特徴とは、対数スペクトル包絡が混合正規分布で精度良くモデル化できること、及び基本周波数に依存した調波構造を持つことである。対数スペクトル包絡と基本周波数は物理的には、それぞれ音韻と声の高さに対応する。 The present invention has been made in view of the above problems, and by focusing on the general structural features of speech, the speech existence probability is highly accurate even when the noise spectrum estimation value includes an error. It is an object of the present invention to provide a noise suppression device, a method thereof, and a program that can be obtained. The general structural features of speech focused on in the present invention are that the logarithmic spectrum envelope can be accurately modeled with a mixed normal distribution and has a harmonic structure depending on the fundamental frequency. The logarithmic spectral envelope and the fundamental frequency physically correspond to phoneme and voice pitch, respectively.
この発明の雑音抑圧装置は、スペクトル計算部と、対数計算部と、雑音統計量推定部と、利得計算部と、フィルタ計算部と、フィルタ適用部とを具備し、その利得計算部が、音声存在確率計算手段と、第一所望音声推定手段と、第二所望音声推定手段と、利得決定手段と、を備えることを特徴とする。 The noise suppression device of the present invention includes a spectrum calculation unit, a logarithm calculation unit, a noise statistic estimation unit, a gain calculation unit, a filter calculation unit, and a filter application unit, and the gain calculation unit An existence probability calculating means, a first desired speech estimating means, a second desired speech estimating means, and a gain determining means are provided.
その音声存在確率計算手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する。第一所望音声推定手段は、観測対数スペクトルと雑音平均対数スペクトルと雑音分散対数スペクトルを入力として、観測対数スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する。第二所望音声推定手段は、観測対数スペクトルを入力として、観測対数スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する。利得決定手段は、観測対数スペクトルと音声存在確率ベクトルと第一強調対数スペクトルと第二強調対数スペクトルを入力として雑音抑圧利得を計算する。 The speech presence probability calculation means receives the observed log spectrum, the noise average log spectrum, and the noise variance log spectrum as inputs, and calculates a speech presence probability vector using a degraded speech log spectrum envelope model and a harmonic structure model. The first desired speech estimation means receives the observed logarithm spectrum, the noise average logarithm spectrum, and the noise variance logarithm spectrum as inputs, and the first emphasized logarithm that is an estimate of the logarithmic spectrum of the desired speech when speech is present in the observed logarithm spectrum. Calculate the spectrum. Second desired speech estimation unit is input with the observation logarithmic spectrum, calculating a second emphasis logarithmic spectrum is an estimate of the log spectrum of a desired sound when the audio during observation log spectrum does not exist. The gain determining means calculates the noise suppression gain with the observed log spectrum, the speech presence probability vector, the first emphasized log spectrum, and the second emphasized log spectrum as inputs.
この発明の雑音抑圧装置の音声存在確率計算手段は、所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を計算する。すなわち、音声存在確率を、所望音声の対数スペクトルの大局的な構造を考慮して計算するため、雑音平均対数スペクトル及び雑音分散対数スペクトルの推定値に含まれる局所的な誤差の影響を受け難くすることができる。 The speech existence probability calculating means of the noise suppression apparatus according to the present invention calculates the speech existence probability in consideration of the logarithmic spectrum envelope and the harmonic structure of the desired speech. That is, since the speech existence probability is calculated in consideration of the global structure of the logarithmic spectrum of the desired speech, it is less likely to be affected by local errors included in the estimated values of the noise average logarithmic spectrum and noise variance logarithmic spectrum. be able to.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
〔この発明の基本的な考え〕
この発明の目的は、音声の大局的な構造上の特徴を考慮して音声存在確率を計算することで、雑音スペクトルの局所的な推定誤差に頑健に音声存在確率を得る方法を提供することである。
[Basic idea of the present invention]
An object of the present invention is to provide a method for obtaining a speech existence probability robust to a local estimation error of a noise spectrum by calculating a speech existence probability in consideration of a general structural feature of speech. is there.
まず、音声存在確率の概念について、図1を参照しながら説明する。図1は、音声の有声区間における所望音声と劣化音声のスペクトルを例示している。矢印で示した範囲に含まれる周波数ビンでは、劣化音声と所望音声の差が極めて小さい。一方、それ以外の周波数ビンでは、その差は極めて大きい。これは音声のスパース性に起因する。スパース性とは、音声のエネルギーが一部の周波数ビンに集中し易いことを意味する。そのような周波数ビンでは劣化音声と所望音声の差は小さくなる。一方、それ以外の周波数ビンでは、劣化音声にはほとんど雑音しか含まれない。したがって、矢印で示した音声のエネルギーが集中している周波数ビンを同定できれば、そのような周波数ビンでの音声歪みを小さく保ったまま、それ以外の周波数ビンで雑音を大きく抑圧できる。音声存在確率は、各周波数ビンに対して定義され、当該周波数ビンに音声のエネルギーが集中している確率を表す。 First, the concept of speech existence probability will be described with reference to FIG. FIG. 1 illustrates the spectrum of desired speech and degraded speech in a voiced section of speech. In the frequency bin included in the range indicated by the arrow, the difference between the deteriorated voice and the desired voice is extremely small. On the other hand, in other frequency bins, the difference is extremely large. This is due to the sparseness of speech. Sparsity means that voice energy tends to concentrate on some frequency bins. In such frequency bins, the difference between degraded speech and desired speech is small. On the other hand, in other frequency bins, the degraded speech contains almost no noise. Therefore, if a frequency bin in which voice energy indicated by an arrow is concentrated can be identified, noise can be greatly suppressed in other frequency bins while keeping the voice distortion in such frequency bins small. The voice presence probability is defined for each frequency bin and represents the probability that the energy of the voice is concentrated in the frequency bin.
この発明では、二種類の音声の大局的な構造上の特徴を利用して、音声存在確率を計算する。一つは、音声のエネルギーが集中する周波数ビンは、基本周波数の整数倍近傍に現れ易いということである。これは音声の調波構造として知られる特徴である。したがって、図2に示すような基本周波数毎の調波構造のプロトタイプを予め用意しておき、何れのプロトタイプが観測スペクトルに適合するかを判断すれば、調波構造を考慮した音声存在確率が得られる。 In the present invention, the speech existence probability is calculated using the general structural features of two types of speech. One is that frequency bins in which voice energy is concentrated tend to appear in the vicinity of an integral multiple of the fundamental frequency. This is a feature known as the harmonic structure of speech. Therefore, if a prototype of a harmonic structure for each fundamental frequency as shown in FIG. 2 is prepared in advance and it is determined which prototype fits the observed spectrum, the probability of speech existence considering the harmonic structure is obtained. It is done.
もう一つの特徴は、音声の対数スペクトル包絡に関する。音声の対数スペクトル包絡は音韻を表現するものである。よって、図3に示すような有限個のプロトタイプで近似的に表現できる。具体的には、以下で説明する実施例では、離散的なプロトタイプの集合の代わりに混合正規分布で表現された音声の対数スペクトル包絡のモデルを用いる。混合正規分布の各要素分布が、対数スペクトル包絡の一つのプロトタイプに相当する。上述した観測スペクトルと調波構造のプロトタイプの適合度合いを計算する際に、更にこの混合正規分布を同時に用いることで、音声の対数スペクトル包絡と調波構造の両方を考慮した音声存在確率が得られる。予め定義された調波構造と対数スペクトル包絡のモデルを用いているため、雑音スペクトルの局所的な推定誤差に対して頑健に音声存在確率を計算することができる。 Another feature relates to the logarithmic spectral envelope of speech. The logarithmic spectral envelope of speech represents phonemes. Therefore, it can be approximately expressed by a finite number of prototypes as shown in FIG. Specifically, in the embodiment described below, a logarithmic envelope model of speech expressed by a mixed normal distribution is used instead of a set of discrete prototypes. Each element distribution of the mixed normal distribution corresponds to one prototype of the logarithmic spectral envelope. When calculating the degree of fit between the observed spectrum and the prototype of the harmonic structure, by using this mixed normal distribution at the same time, it is possible to obtain the speech existence probability considering both the logarithmic spectrum envelope and the harmonic structure of the speech. . Since a pre-defined harmonic structure and logarithmic spectrum envelope model are used, the speech existence probability can be calculated robustly against a local estimation error of the noise spectrum.
図4に、この発明の雑音抑圧装置100の機能構成例を示す。その動作フローを図5に示す。
FIG. 4 shows a functional configuration example of the
雑音抑圧装置100は、スペクトル計算部90と、対数計算部10と、雑音統計量推定部11と、利得計算部12と、フィルタ計算部93と、フィルタ適用部94と、を具備する。スペクトル計算部90と、フィルタ計算部93と、フィルタ適用部94とは、従来技術で説明した雑音抑圧装置900と同じものである。雑音抑圧装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
The
スペクトル計算部90は、短時間フレームの観測信号yT={y(1),…,y(N)}、を入力としてそのパワースペクトルである観測スペクトルY={Y1,…,YL}を計算する(ステップS90)。ここで、Nはフレーム幅、Lは周波数ビンの個数を表す。観測スペクトルYの計算は、観測信号yTを高速フーリエ変換によって周波数ビン毎の成分に分解した後、各周波数成分の振幅の絶対値の自乗をとることで実施される。なお、振幅の絶対値の自乗を取る代わりに振幅の絶対値のζ乗(ζは任意の正の実数)をとっても良い。また、高速フーリエ変換の代わりに、任意のスペクトル分析法を用いても良い。
対数計算部10は、観測スペクトルYを入力として、その対数値である観測対数スペクトルy={y1,…,yL}を計算する(ステップS10)。
The
雑音統計量推定部11は、観測対数スペクトルyを入力として、観測信号yTに含まれる雑音の対数スペクトルの平均の推定値である雑音平均対数スペクトルμN={μ1 N,…,μL N}と、その分散の推定値である雑音分散対数スペクトルσN={σ1 N,…,σL N}を計算する(ステップS11)。雑音平均対数スペクトルμNと雑音分散対数スペクトルσNの具体的な計算方法については後述する。 The noise statistic estimation unit 11 receives the observed logarithmic spectrum y as an input, and the noise average logarithmic spectrum μ N = {μ 1 N ,..., Μ L which is an average estimated value of the logarithmic spectrum of noise included in the observed signal y T. N } and the noise variance logarithm spectrum σ N = {σ 1 N ,..., Σ L N }, which is an estimated value of the variance, is calculated (step S11). A specific method for calculating the noise average logarithmic spectrum μ N and the noise variance logarithmic spectrum σ N will be described later.
利得計算部12は、観測対数スペクトルyと雑音平均対数スペクトルμNと雑音分散対数スペクトルσNを入力として雑音抑圧利得g={g1,…,gL}を計算する(ステップS12)。
The
フィルタ計算部93は、逆離散コサイン変換によって雑音抑圧利得gを雑音抑圧フィルタgT={g(−J),…,g(J)}に変換する(ステップS93)。ここでJは、2J+1が雑音抑圧フィルタの次数であるような整数である。なお、gに対して逆離散コサイン変換を適用する代わりに、gを折り返した{g1,…,gL−1,gL, ̄gL−1,…, ̄g2}に対して逆離散フーリエ変換を適用しても良いし、Parks-McClellanアルゴリズムなどを用いても良い。ここで ̄xはxの複素共役を表し、 ̄は変数の上に記述されるのが正しい表記である。
The
フィルタ適用部94は、観測信号yTと雑音抑圧フィルタgTを入力として、短時間フレームの強調信号uT={u(1),…,u(N)}を式(1)で計算する(ステップS94)。
The
ここで、n≦0及びn>Nに対するy(n)の値は0であると仮定する。なお、フィルタ計算部93とフィルタ適用部94を用いて強調信号uTを求める代わりに、雑音抑圧利得gを観測スペクトルYに乗算して得られる強調スペクトルから強調信号uTを求めても良い。
Here, it is assumed that the value of y (n) for n ≦ 0 and n> N is zero. Instead of obtaining the enhanced signal u T using the
この発明の要部である雑音統計量推定部11と利得計算部12について、より具体的な機能構成例を示して更に詳しく説明する。
The noise statistic estimation unit 11 and the
〔雑音統計量推定部〕
図6に、雑音統計量推定部11の機能構成例を示す。雑音統計量推定部11は、音声区間検出手段110と、雑音対数スペクトル記録手段111と、統計量計算手段112と、を備える。この雑音統計量推定部11の構成では、観測信号のうち音声を含まない無音区間を検出し、当該区間から雑音の統計量を計算する。
[Noise statistics estimation unit]
FIG. 6 shows a functional configuration example of the noise statistic estimation unit 11. The noise statistic estimation unit 11 includes a speech section detection unit 110, a noise logarithmic spectrum recording unit 111, and a statistic calculation unit 112. In the configuration of the noise statistic estimation unit 11, a silence interval that does not include speech is detected from the observed signal, and a noise statistic is calculated from the interval.
音声区間検出手段110は、観測対数スペクトルyを入力として、現在の短時間フレームが音声区間に属するか否かを示す音声区間フラグzを計算する。音声区間フラグzは二値の変数であり、z=1ならば現在の短時間フレームが音声区間に属し、z=0ならば現在の短時間フレームが音声区間に属さないことを表す。音声区間検出手段110には、任意の公知の音声検出区間検出手段を用いることが可能である。よって、その詳しい動作説明は省略する。 The speech section detection means 110 receives the observed log spectrum y as an input and calculates a speech section flag z indicating whether or not the current short time frame belongs to the speech section. The voice section flag z is a binary variable. If z = 1, the current short frame belongs to the voice section, and if z = 0, the current short frame does not belong to the voice section. Any known voice detection section detection means can be used as the voice section detection means 110. Therefore, the detailed operation description is omitted.
雑音対数スペクトル記録手段111は、B個の雑音の対数スペクトルを、その記録時刻と共に記録している。雑音対数スペクトル記録手段111は、観測対数スペクトルyと音声区間フラグzを入力として、z=1ならば何もせず、z=0ならばB個の雑音の対数スペクトルの内、最も古いものを観測対数スペクトルyで置き換える。 The logarithmic spectrum recording means 111 records the logarithmic spectrum of B noises together with the recording time. The logarithmic spectrum recording means 111 receives the observed logarithmic spectrum y and the speech interval flag z, does nothing if z = 1, and observes the oldest logarithmic spectrum of B noises if z = 0. Replace with logarithmic spectrum y.
統計量計算手段112は、雑音対数スペクトル記録手段111からB個の雑音の対数スペクトルを読み出し、その平均である雑音平均対数スペクトルμNと分散である雑音分散対数スペクトルσNを計算する。なお、雑音統計量推定部11の構成は、少なくとも観測対数スペクトルを入力として、雑音平均対数スペクトルμNと雑音分散対数スペクトルσNを計算するという制約の範囲内で任意に変更が可能である。 Statistic calculation unit 112, the noise log spectrum recording unit 111 from the read log spectrum of B-number of the noise, calculating its average and is the mean noise is a logarithmic spectrum mu N and variance noise variance logarithmic spectrum sigma N. Note that the configuration of the noise statistic estimation unit 11 can be arbitrarily changed within the constraint that the noise logarithm spectrum μ N and the noise variance log spectrum σ N are calculated with at least the observed log spectrum as an input.
例えば、雑音統計量推定部11は観測対数スペクトルyに加えて観測信号yTを入力とし、音声区間検出手段110は観測信号yTを入力として用いても良い。或いは、音声区間検出手段110を用いる代わりに、参考文献(”Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging,” IEEE Trans. SAP, vol. 11, no.5, pp.466-475, 2003.)に開示されている雑音推定装置を用いて雑音の対数スペクトルを推定し、その平均と分散を計算する構成にしても良い。 For example, the noise statistics estimator 11 inputs the observed signal y T in addition to the observed log spectrum y, voice activity detection means 110 may be using the observed signal y T as an input. Alternatively, instead of using the speech interval detection means 110, reference literature ("Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging," IEEE Trans. SAP, vol. 11, no. 5, pp.466-475, 2003 .) May be used to estimate the logarithmic spectrum of noise and calculate the mean and variance thereof.
〔利得計算部〕
図7に、利得計算部12の機能構成例を示す。その動作フローを図8に示す。利得計算部12は、音声存在確率計算手段120と、第一所望音声推定手段121と、第二所望音声推定手段122と、利得決定手段123と、を備える。
[Gain calculation section]
FIG. 7 shows a functional configuration example of the
音声存在確率計算手段120は、観測対数スペクトルyと雑音平均対数スペクトルμNと雑音分散対数スペクトルσNを入力として、音声存在確率ベクトルr={r1,…,rL}とKH個の状態事後確確率{w1,1,…,w1,H,…,wK,H}を計算する(ステップS120)。 The speech existence probability calculation means 120 receives the observed logarithmic spectrum y, the noise average logarithmic spectrum μ N, and the noise variance logarithmic spectrum σ N as input, and the speech existence probability vector r = {r 1 ,..., R L } and KH states. A posteriori probability {w 1,1 ,..., W 1, H ,..., W K, H } is calculated (step S120).
第一所望音声推定手段121は、観測対数スペクトルyと、KH個の状態事後確率の集合W={w1,1,…,w1,H,…,wK,H}と、雑音平均対数スペクトルμNと雑音分散対数スペクトルσNと、を入力として第一強調対数スペクトル^x(1)={^x1 (1),…,^xL (1)}を計算する(ステップS121)。Wを状態事後確率集合と称する。第一強調対数スペクトル^x(1)の計算方法は後述する。 First desired speech estimation means 121, observations and log spectrum y, the set of KH number of states posterior probability W = {w 1,1, ..., w 1, H, ..., w K, H} and the noise mean log Using the spectrum μ N and the noise variance logarithmic spectrum σ N as inputs, the first enhanced logarithmic spectrum ^ x (1) = {^ x 1 (1) ,..., ^ L (1) } is calculated (step S121). . W is called a state posterior probability set. A method of calculating the first emphasized logarithmic spectrum ^ x (1) will be described later.
第二所望音声推定手段122は、観測対数スペクトルyを入力として式(2)で第二強調対数スペクトル^x(2)={^x1 (2),…,^xL (2)}を計算する(ステップS122)。 The second desired speech estimation means 122 receives the observed logarithmic spectrum y as an input and uses the expression (2) to obtain the second enhanced logarithmic spectrum ^ x (2) = {^ x 1 (2) , ..., ^ x L (2) }. Calculate (step S122).
ここで、gFLRは、観測対数スペクトルy中に音声が存在しないと仮定した場合の雑音抑圧利得を表す所与の定数である。なお、式(2)を用いて第二強調対数スペクトル^x(2)を計算する代わりに、観測対数スペクトルy中に音声が存在しない場合の所望音声の対数スペクトルを推定するための任意の方法を用いても良い。例えば、参考文献(M. Fujimoto, et al., “Study of integration of statistical model-based voice activity detection and noise suppression,” in Proc. ICSLP, 2008, pp. 2008-2011.)に開示されている方法を用いることもできる。 Here, g FLR is a given constant representing the noise suppression gain when it is assumed that there is no speech in the observed logarithmic spectrum y. Instead of calculating the second enhanced logarithmic spectrum ^ x (2) using equation (2), any method for estimating the logarithmic spectrum of the desired speech when no speech is present in the observed logarithmic spectrum y May be used. For example, the method disclosed in the reference (M. Fujimoto, et al., “Study of integration of statistical model-based voice activity detection and noise suppression,” in Proc. ICSLP, 2008, pp. 2008-2011.) Can also be used.
利得決定手段123は、観測対数スペクトルyと、第一強調対数スペクトル^x(1)と、第二強調対数スペクトル^x(2)と、音声存在確率ベクトルrと、を入力として次式により雑音抑圧利得g={g1,…,gL}を計算する(ステップS123)。
The
図9に、音声存在確率計算手段120のより具体的な機能構成例を示してその動作を更に詳しく説明する。音声存在確率計算手段120の動作フローを図10に示す。音声存在確率計算手段120は、無劣化音声対数スペクトル包絡モデル記録手段1200と、モデル合成手段1201と、劣化音声対数スペクトル包絡モデル記録手段1202と、調波構造モデル記録手段1203と、条件付き音声存在確率計算手段1204と、状態事後確率計算手段1205と、音声存在確率決定手段1206と、を備える。
FIG. 9 shows a more specific functional configuration example of the voice presence probability calculation means 120, and the operation will be described in more detail. The operation flow of the speech existence probability calculation means 120 is shown in FIG. The speech existence
無劣化音声対数スペクトル包絡モデル記録手段1200は、無劣化音声の対数スペクトル包絡のモデルを記録している。具体的には、無劣化音声対数スペクトル包絡のモデルは混合正規分布の形式で表現されると仮定し、各要素分布の重みと平均スペクトル、分散スペクトルが記録される。各要素分布の平均スペクトルを無劣化音声平均対数スペクトル、その分散スペクトルを無劣化音声分散対数スペクトルと称する。この実施例では、要素分布の個数をKとし、k番目の無劣化音声平均対数スペクトル包絡をμk X={μk,1 X,…,μk,L X}、k番目の無劣化音声分散対数スペクトル包絡をσk X={σk,1 X,…,σk,L X}、k番目の重みをπkと表記する。各要素分布の無劣化音声平均対数スペクトル包絡μk Xと無劣化音声分散対数スペクトル包絡σk Xと重みπkとは、無劣化音声のデータベースからEMアルゴリズムによって予め計算されたものが用いられる。 The undegraded speech logarithmic spectrum envelope model recording means 1200 records a logarithmic spectrum envelope model of undegraded speech. Specifically, assuming that the model of the non-degraded speech logarithmic spectrum envelope is expressed in the form of a mixed normal distribution, the weight, average spectrum, and variance spectrum of each element distribution are recorded. The average spectrum of each element distribution is referred to as an undegraded speech average logarithmic spectrum, and its dispersion spectrum is referred to as an undegraded speech distributed logarithmic spectrum. In this embodiment, the number of element distributions is K, and the k-th non-degraded speech average logarithmic spectrum envelope is μ k X = {μ k, 1 X ,..., Μ k, L X }, k-th non-degraded speech. The variance logarithmic spectrum envelope is expressed as σ k X = {σ k, 1 X ,..., Σ k, L X }, and the k-th weight is expressed as π k . The non-degrading speech average logarithmic spectrum envelope μ k X , the non-degrading speech variance logarithmic spectrum envelope σ k X, and the weight π k of each element distribution are calculated in advance from the database of undegraded speech by the EM algorithm.
モデル合成手段1201は、雑音平均対数スペクトルμNと雑音分散対数スペクトルσNとが入力された後に、無劣化音声対数スペクトル包絡モデル記録手段1200から、各要素分布kの無劣化音声平均対数スペクトル包絡μk Xと無劣化音声分散対数スペクトル包絡σk Xと重みπkを読み出し、劣化音声平均対数スペクトル包絡μk Y={μk,1 Y,…,μk,L Y}と劣化音声分散対数スペクトル包絡σk Y={σk,1 Y,…,σk,L Y}を計算する。計算された劣化音声平均対数スペクトル包絡μk Yと劣化音声分散対数スペクトル包絡σk Yは重みπkと共に劣化音声対数スペクトル包絡モデル記録手段1202に記録される。各要素分布の重みと劣化音声平均対数スペクトル包絡、及び劣化音声分散対数スペクトル包絡は、劣化音声の対数スペクトル包絡のモデルを規定する。
After the noise average logarithmic spectrum μ N and the noise variance logarithmic spectrum σ N are input, the
劣化音声平均対数スペクトル包絡μk Yは式(5)、無劣化音声分散対数スペクトル包絡σk Yは式(6)で定義される。 The degraded speech average logarithmic spectrum envelope μ k Y is defined by equation (5), and the non-degraded speech variance logarithmic spectrum envelope σ k Y is defined by equation (6).
なお、式(5)と式(6)は参考文献(A. Acero, L. Deng, T.Kristjansson, and J. Zhang, “HMM adaptation using vector Taylor series for noisy speech recognition,” in Proc. Int’l Conf. Spoken Lang. Process., vol.3, 2000, pp. 869-872.)に開示されたVTS(Vector Taylor Series)に基づいているが、VTSの代わりにPMC(Parallel Model Combination)等の類似のモデル合成方法を用いても良い。 Equations (5) and (6) are based on the reference (A. Acero, L. Deng, T. Kristjansson, and J. Zhang, “HMM adaptation using vector Taylor series for noisy speech recognition,” in Proc. Int '. l Conf. Spoken Lang. Process., vol.3, 2000, pp. 869-872.), but based on VTS (Vector Taylor Series), such as PMC (Parallel Model Combination) A similar model synthesis method may be used.
なお、劣化音声対数スペクトル包絡モデル記録手段1202に記録される各要素分布の劣化音声平均対数スペクトル包絡μk Yと劣化音声分散対数スペクトル包絡σk Yと重みπkの計算方法として、これらを無劣化音声対数スペクトル包絡モデル記録手段1200とモデル合成手段1201を用いて計算する例について説明したが、この例に限定されるものではない。例えば、各要素分布の劣化音声平均対数スペクトル包絡μk Yと劣化音声分散対数スペクトル包絡σk Yと重みπkを、劣化音声のデータベースからEMアルゴリズムによって予め計算しても良い。
As a method for calculating the degraded speech average logarithmic spectrum envelope μ k Y of each element distribution recorded in the degraded speech logarithmic spectrum envelope model recording means 1202, the degraded speech variance logarithmic spectrum envelope σ k Y and the weight π k , these are not used. Although an example of calculation using the degraded speech log spectrum envelope
調波構造モデル記録手段1203は、音声存在確率ベクトルを計算するための事前確率のベクトルである音声存在事前確率ベクトルのモデルを記録している。具体的には、音声存在事前確率ベクトルは符号帳の形式で表現されると仮定し、各符号に対応する音声存在事前確率ベクトルとその重みを記録している。この実施例では、符号帳の大きさをHとし、h番目の符号に対応する音声存在事前確率ベクトルをqh={qh,1,…,qh,L}、重みをθhと表記する。符号帳は、例えばh番目の符号に対応する基本周波数ohを式(7)で計算する。
The harmonic structure
ここで、HLとHHはそれぞれ基本周波数の存在する範囲の下限と上限を表す所与の定数である。この基本周波数を用いて音声存在事前確率ベクトルqhを式(8)で計算する。 Here, H L and H H are given constants representing the lower and upper limits of the range in which the fundamental frequency exists, respectively. Using this fundamental frequency, the speech presence prior probability vector q h is calculated by Equation (8).
ここで、flは周波数ビンlの中心周波数を表し、fl=lfS/2Lによって計算される。fSはサンプリング周波数である。βhは音声存在事前確率ベクトルqhを0〜1の範囲の値に制限するための定数である。また、γ,δは所与の定数、fGは一般化正規分布の確率密度関数である。なお、調波構造モデル記録手段1203に記録されるH個の音声存在事前確率ベクトルの作成方法は、上記した方法に限定されるものではなく、音声存在事前確率ベクトルqhの値を0〜1の範囲にすることができるものであれば何れの方法を用いてもよい。
Here, f l represents the center frequency of the frequency bin l and is calculated by f l = lf S / 2L. f S is a sampling frequency. β h is a constant for limiting the speech presence prior probability vector q h to a value in the range of 0-1. Γ and δ are given constants, and f G is a probability density function of a generalized normal distribution. Note that the method of creating the H speech existence prior probability vectors recorded in the harmonic structure
条件付き音声存在確率計算手段1204は、1種1類〜K種H類まで合計KH個の部分条件付き音声存在確率計算ユニット120411〜1204KHで構成される。部分条件付き音声存在確率計算ユニット1204khは、観測対数スペクトルyを入力として、劣化音声対数スペクトル包絡モデル記録手段1202からk番目の要素分布の劣化音声平均対数スペクトル包絡μk Yと劣化音声分散対数スペクトル包絡σk Yを、調波構造モデル記録手段1203からh番目の符号に対応する音声存在事前確率ベクトルqhを読み出す。そして、観測対数スペクトルyの包絡のモデルとしてk番目の要素分布、観測対数スペクトルyの調波構造のモデルとしてh番目の符号を選択した場合の音声存在確率ベクトルrk,h={rk,h,1,…,rk,h,L}を計算して音声存在確率決定手段1206に出力する(ステップS1204)。rk,hをk種h類条件付き音声存在確率ベクトルと称する。また、KH個の条件付き音声存在確率ベクトルをまとめてR={r1,1,…,rK,H}と書き、これを条件付き音声存在確率ベクトル集合と称する。
Conditional speech presence
k種h類条件付き音声存在確率ベクトルと称するrk,hは式(9)で計算される。 rk , h called k-type h-class conditional speech existence probability vector is calculated by equation (9).
ここで、pN(x)及びpY|K(x|k)は、それぞれ雑音対数スペクトルの正規分布、劣化音声対数スペクトル包絡のモデルのk番目の要素分布に対応する正規分布であり、各々次式で定義される。 Here, p N (x) and p Y | K (x | k) are normal distributions corresponding to the normal distribution of the noise logarithmic spectrum and the kth element distribution of the model of the degraded logarithmic spectrum envelope, respectively. It is defined by the following formula.
ここで、fNは正規分布の確率密度関数である。 Here, f N is the probability density function of the normal distribution.
状態事後確率計算手段1205は、1種1類〜K種H類まで合計KH個の部分的状態事後確率計算ユニット120511〜1205KHで構成される。部分的状態事後確率計算ユニット1205khは、観測対数スペクトルyを入力として、劣化音声対数スペクトル包絡記録手段1202からk番目の要素分布の劣化音声平均対数スペクトル包絡μk Yと劣化音声分散対数スペクトル包絡σk Yと重みπkを、調波構造モデル記録手段1203からh番目の符号に対応する音声存在事前確率ベクトルqhと重みθhを読み出し、観測対数スペクトルyの包絡のモデルがk番目の要素分布であり、かつ観測対数スペクトル包絡の調波構造のモデルがh番目の符号である事後確率wk,hを計算して出力する(ステップS1205)。wk,hをk種h類状態事後確率と称する。k種h類状態事後確率wk,hは次式で計算される。
State posterior
音声存在確率決定手段1206は、1種1類〜K種H類条件付き音声存在確率ベクトル{r1,1,…,r1,H,…,rK,H}と、1種1類〜K種H類状態事後確率{w1,1,…,w1,H,…,wK,H}を入力として音声存在確率ベクトルrl={r1,…,rJ}を式(14)で計算して、利得決定手段123に出力する(ステップS1206)。
Speech presence
図11に、第一所望音声推定手段121のより具体的な機能構成例を示してその動作を説明する。第一所望音声推定手段121は、条件付き所望音声推定手段1210と、所望音声推定値決定手段1211と、を備える。条件付き所望音声推定手段1210は、1種〜K種まで合計K個の部分的条件付き所望音声推定ユニット12101〜1210Kで構成される。
FIG. 11 shows a more specific functional configuration example of the first desired speech estimation means 121 and its operation will be described. The first desired
部分的条件付き所望音声推定ユニット1210kは、観測対数スペクトルyを入力として、音声存在確率計算手段120の無劣化音声対数スペクトル包絡モデル記録手段1200からK番目の要素分布の無劣化音声平均対数スペクトル包絡μk Xと無劣化音声分散対数スペクトル包絡σk Xを読み出して、観測対数スペクトルの包絡のモデルとしてk番目の要素分布を選択した場合の所望音声の対数スペクトルの推定値であるk種強調対数スペクトル^xk={^xk,1,…,^xk,L}を計算し、これを所望音声推定値決定手段1211に出力する。k種強調対数スペクトルは式(15)にしたがって計算される。
The partially conditional desired
所望音声推定値決定手段1211は、第一強調対数スペクトル{^x1 (1),…,^xL (1)}を次式にしたがって計算し、これを利得決定部123に出力する。
Desired speech estimation value determination means 1211 calculates the first enhanced logarithmic spectrum {^ x 1 (1) ,..., ^ X L (1) } according to the following equation, and outputs this to gain
なお、第一所望音声推定手段121において無劣化音声対数スペクトル包絡及び劣化音声対数スペクトル包絡のモデルを用いる例について説明したが、第一所望音声推定手段121の構成方法はこの例に限定されない。例えば、無劣化音声対数スペクトル包絡及び劣化音声対数スペクトル包絡のモデルを用いずに、非特許文献1に開示されている利得計算部の第一所望音声推定手段を用いてもよい。
In addition, although the example using the model of a non-degraded speech logarithmic spectrum envelope and a degraded speech logarithmic spectrum envelope has been described in the first desired
〔評価実験〕
この発明の雑音抑圧装置の効果を確認する目的で、雑音抑圧装置100と非特許文献1に開示された雑音抑圧装置により得られた信号対雑音比を比較する評価実験を行った。その結果を図12に示す。図12の横軸は時間(秒)、縦軸はSN比(dB)である。
[Evaluation experiment]
For the purpose of confirming the effect of the noise suppression device of the present invention, an evaluation experiment was performed to compare the signal-to-noise ratio obtained by the
実験に用いた観測信号には、まず3つの連続した数字を読み上げる一人の女性の約2秒間の所望音声信号を用意し、その信号にバブル雑音をSN比が5dBとなるように重畳することで作成した。バブル雑音は非定常雑音の代表例である。 For the observation signal used in the experiment, first, a desired voice signal of about 2 seconds for one woman who reads out three consecutive numbers is prepared, and bubble noise is superimposed on the signal so that the SN ratio is 5 dB. Created. Bubble noise is a typical example of non-stationary noise.
図12中の一点鎖線は雑音抑圧前のSN比の時系列を示す。太い実線は、この発明の雑音抑圧装置100で雑音抑圧した後のSN比の時系列である。細い実線は、非特許文献1に開示された雑音抑圧装置で雑音抑圧した後のSN比の時系列である。
A one-dot chain line in FIG. 12 indicates a time series of the S / N ratio before noise suppression. A thick solid line is a time series of the S / N ratio after noise suppression by the
この発明の雑音抑圧装置100の方が、従来の装置よりも約5dB、SN比を改善できていることが分かる。この結果は、この発明の雑音抑圧装置100が、従来の雑音抑圧装置と比較して、非定常雑音に対して頑健であることを示唆する。
It can be seen that the
以上述べたように、この発明の雑音抑圧装置100は、所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を計算する。その結果、雑音の非定常性の度合いが大きい場合に生じる雑音スペクトルの局所的な推定誤差に対して頑健に、音声存在確率を求めることができる。よって、非定常雑音に頑健な雑音除去装置を実現することができる。
As described above, the
なお、この発明は、上記した実施例に限定されるものではない。この発明の所望音声の対数スペクトル包絡と調波構造を考慮して音声存在確率を求める技術思想の範囲内において、雑音抑圧装置は様々な変更が可能である。 The present invention is not limited to the above-described embodiments. Various modifications can be made to the noise suppression device within the scope of the technical idea of obtaining the speech existence probability in consideration of the logarithmic spectrum envelope and harmonic structure of the desired speech of the present invention.
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 Further, the processes described in the above method and apparatus are not only executed in time series according to the order of description, but also may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムとして記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described as a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on any computer-readable recording medium. Examples of the computer-readable recording medium include a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. More specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape, etc., and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read) Only Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。 Each unit may be configured by executing a predetermined program on a computer, or at least a part of the processing contents may be realized as hardware.
Claims (5)
上記観測スペクトルを入力としてその対数値である観測対数スペクトルを計算する対数計算部と、
上記観測対数スペクトルを入力として雑音平均対数スペクトルと雑音分散対数スペクトルを計算する雑音統計量推定部と、
上記雑音平均対数スペクトルと上記雑音分散対数スペクトルと上記観測対数スペクトルを入力として雑音抑圧利得を計算する利得計算部と、
上記雑音抑圧利得を入力として雑音抑圧フィルタを計算するフィルタ計算部と、
上記観測信号と上記雑音抑圧フィルタを入力として強調信号を計算するフィルタ適用部とを具備し、
上記利得計算部は、上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する音声存在確率計算手段と、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、上記観測スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する第一所望音声推定手段と、
上記観測対数スペクトルを入力として、上記観測スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する第二所望音声推定手段と、
上記観測対数スペクトルと上記音声存在確率ベクトルと上記第一強調対数スペクトルと上記第二強調対数スペクトルを入力として上記雑音抑圧利得を計算する利得決定手段と、
を備えることを特徴とする雑音抑圧装置。 A spectrum calculation unit that calculates an observation spectrum that is a power spectrum of an observation signal as an input,
A logarithmic calculator for calculating the observed logarithm spectrum as a logarithmic value with the observed spectrum as an input;
A noise statistic estimator that calculates the mean noise logarithm spectrum and the noise variance logarithm spectrum with the observed logarithm spectrum as an input;
A gain calculation unit for calculating a noise suppression gain using the noise average log spectrum, the noise variance log spectrum and the observed log spectrum as inputs;
A filter calculation unit for calculating a noise suppression filter using the noise suppression gain as an input;
A filter application unit that calculates the enhancement signal with the observation signal and the noise suppression filter as inputs; and
The gain calculation unit receives the observed logarithmic spectrum, the noise average logarithmic spectrum, and the noise variance logarithmic spectrum as inputs, and calculates a speech existence probability vector using a degraded speech logarithmic spectrum envelope model and a harmonic structure model. Existence probability calculation means,
First input logarithmic spectrum, which is an estimate of the logarithmic spectrum of a desired speech when speech is present in the observed spectrum, is input using the observed logarithmic spectrum, the noise average logarithmic spectrum, and the noise variance logarithmic spectrum as inputs. A desired speech estimation means;
As input the observed logarithmic spectrum, a second desired speech estimation means for calculating a second emphasis logarithmic spectrum is an estimate of the log spectrum of a desired sound when no speech is present in the observed spectrum,
Gain determining means for calculating the noise suppression gain using the observed log spectrum, the speech presence probability vector, the first emphasized log spectrum, and the second emphasized log spectrum as inputs;
A noise suppression device comprising:
上記音声存在確率計算手段は、
劣化音声の対数スペクトル包絡のモデルである劣化音声混合正規分布を規定する各要素分布の劣化音声平均対数スペクトル包絡と、劣化音声分散対数スペクトル包絡と、重みとを記録する劣化音声対数スペクトル包絡モデル記録手段と、
調波構造のモデルである音声存在事前確率ベクトルの符号帳を記録する調波構造モデル記録手段と、
上記観測対数スペクトルを入力として上記劣化音声混合正規分布の要素分布と上記符号帳の符号の全組み合わせの夫々について、当該要素分布と当該符号が選択された場合の条件付き音声存在確率ベクトルを計算する条件付き音声存在確率計算手段と、
上記観測対数スペクトルを入力として上記全組み合わせの夫々について、当該要素分布と当該符号が選択される状態事後確率を計算する状態事後確率計算手段と、
上記全組み合わせに対する上記条件付き音声存在確率ベクトルと上記状態事後確率とを入力として、上記音声存在確率ベクトルを計算する音声存在確率決定手段と、
を備えることを特徴とする雑音抑圧装置。 The noise suppression device according to claim 1,
The voice existence probability calculating means is:
Degraded speech logarithmic spectrum envelope model record that records the degraded speech average logarithmic envelope, degraded speech variance logarithmic envelope, and weights of each element distribution that defines the degraded speech mixed normal distribution, which is a model of the logarithmic spectrum envelope of degraded speech Means,
Harmonic structure model recording means for recording a codebook of a speech presence prior probability vector that is a harmonic structure model;
For each combination of the element distribution of the degraded speech mixed normal distribution and the codebook code with the observed logarithmic spectrum as an input, the conditional speech existence probability vector when the element distribution and the code are selected is calculated. Conditional speech existence probability calculation means,
State posterior probability calculating means for calculating the state posterior probability that the element distribution and the sign are selected for each of all the combinations using the observed log spectrum as an input;
Speech presence probability determining means for calculating the speech presence probability vector using the conditional speech presence probability vector and the state posterior probability for all the combinations as inputs;
A noise suppression device comprising:
上記観測スペクトルを入力としてその対数値である観測対数スペクトルを計算する対数計算過程と、
上記観測対数スペクトルを入力として雑音平均対数スペクトルと雑音分散対数スペクトルを計算する雑音統計量推定過程と、
上記雑音平均対数スペクトルと上記雑音分散対数スペクトルと上記観測対数スペクトルを入力として雑音抑圧利得を計算する利得計算過程と、
上記雑音抑圧利得を入力として雑音抑圧フィルタを計算するフィルタ計算過程と、
上記観測信号と上記雑音抑圧フィルタを入力として強調信号を計算するフィルタ適用過程とを備え、
上記利得計算過程は、上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、劣化音声対数スペクトル包絡のモデルと調波構造のモデルを用いて音声存在確率ベクトルを計算する音声存在確率計算ステップと、
上記観測対数スペクトルと上記雑音平均対数スペクトルと上記雑音分散対数スペクトルを入力として、上記観測スペクトル中に音声が存在する場合の所望音声の対数スペクトルの推定値である第一強調対数スペクトルを計算する第一所望音声推定ステップと、
上記観測対数スペクトルを入力として、上記観測スペクトル中に音声が存在しない場合の所望音声の対数スペクトルの推定値である第二強調対数スペクトルを計算する第二所望音声推定ステップと、
上記観測対数スペクトルと上記音声存在確率ベクトルと上記第一強調対数スペクトルと上記第二強調対数スペクトルを入力として上記雑音抑圧利得を計算する利得決定ステップと、
を含むことを特徴とする雑音抑圧方法。 A spectrum calculation process for calculating an observation spectrum that is a power spectrum with an observation signal as an input,
A logarithmic calculation process of calculating the observed logarithm spectrum as a logarithmic value with the observed spectrum as an input;
A noise statistic estimation process for calculating a noise average logarithm spectrum and a noise variance logarithm spectrum with the observed logarithm spectrum as an input;
A gain calculation process for calculating a noise suppression gain using the noise average log spectrum, the noise variance log spectrum and the observed log spectrum as inputs;
A filter calculation process for calculating a noise suppression filter using the noise suppression gain as an input;
A filter application process for calculating an enhancement signal using the observation signal and the noise suppression filter as inputs,
The gain calculation process uses the observed logarithmic spectrum, the noise average logarithmic spectrum, and the noise variance logarithmic spectrum as inputs, and calculates a speech existence probability vector using a degraded speech logarithmic spectrum envelope model and a harmonic structure model. An existence probability calculation step;
First input logarithmic spectrum, which is an estimate of the logarithmic spectrum of a desired speech when speech is present in the observed spectrum, is input using the observed logarithmic spectrum, the noise average logarithmic spectrum, and the noise variance logarithmic spectrum as inputs. A desired speech estimation step;
As input the observed logarithmic spectrum, a second desired speech estimation step of calculating a second emphasis logarithmic spectrum is an estimate of the log spectrum of a desired sound when there is no voice in the observed spectrum,
A gain determining step of calculating the noise suppression gain by inputting the observed log spectrum, the speech existence probability vector, the first enhanced log spectrum, and the second enhanced log spectrum;
Including a noise suppression method.
上記音声存在確率計算ステップは、
上記観測対数スペクトルを入力として、劣化音声対数スペクトル包絡モデル記録手段に記録された劣化音声の対数スペクトル包絡のモデルである劣化音声混合正規分布の要素分布と調波構造モデル記録手段に記録された調波構造のモデルである音声存在事前確率ベクトルの符号帳の符号の全組み合わせの夫々について、当該要素分布と当該符号が選択された場合の条件付き音声存在確率ベクトルを計算する条件付き音声存在確率計算ステップと、
上記観測対数スペクトルを入力として、上記全組み合わせの夫々について、当該要素分布と当該符号が選択される状態事後確率を計算する状態事後確率計算ステップと、
上記全組み合わせに対する上記条件付き音声存在確率ベクトルと上記状態事後確率とを入力として上記音声存在確率ベクトルを計算する音声存在確率決定ステップと、
を含むことを特徴とする雑音抑圧方法。 In the noise suppression method according to claim 3,
The speech existence probability calculation step includes
Using the observed logarithmic spectrum as an input, the element distribution of the degraded speech mixed normal distribution, which is a model of the logarithmic spectrum envelope of the degraded speech recorded in the degraded speech logarithmic envelope model recording means, and the modulation recorded in the harmonic structure model recording means. Conditional speech existence probability calculation that calculates a conditional speech presence probability vector when the element distribution and the code are selected for each combination of codes in the codebook of speech presence prior probability vectors that are wave structure models Steps,
A state posterior probability calculation step for calculating a state posterior probability that the element distribution and the code are selected for each of all the combinations, using the observed log spectrum as an input,
A speech presence probability determining step of calculating the speech presence probability vector by inputting the conditional speech presence probability vector and the state posterior probability for all the combinations;
Including a noise suppression method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011008129A JP5475697B2 (en) | 2011-01-18 | 2011-01-18 | Noise suppressor, method and program thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011008129A JP5475697B2 (en) | 2011-01-18 | 2011-01-18 | Noise suppressor, method and program thereof |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012150227A JP2012150227A (en) | 2012-08-09 |
| JP5475697B2 true JP5475697B2 (en) | 2014-04-16 |
Family
ID=46792538
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011008129A Active JP5475697B2 (en) | 2011-01-18 | 2011-01-18 | Noise suppressor, method and program thereof |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5475697B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6707914B2 (en) * | 2016-03-08 | 2020-06-10 | 沖電気工業株式会社 | Gain processing device and program, and acoustic signal processing device and program |
| CN114242095B (en) * | 2021-12-10 | 2024-07-09 | 上海立可芯半导体科技有限公司 | Neural network noise reduction system and method based on OMLSA framework adopting harmonic structure |
-
2011
- 2011-01-18 JP JP2011008129A patent/JP5475697B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012150227A (en) | 2012-08-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5411936B2 (en) | Speech signal section estimation apparatus, speech signal section estimation method, program thereof, and recording medium | |
| JP5842056B2 (en) | Noise estimation device, noise estimation method, noise estimation program, and recording medium | |
| US8615393B2 (en) | Noise suppressor for speech recognition | |
| JP5752324B2 (en) | Single channel suppression of impulsive interference in noisy speech signals. | |
| JP6452591B2 (en) | Synthetic voice quality evaluation device, synthetic voice quality evaluation method, program | |
| Kheder et al. | Additive noise compensation in the i-vector space for speaker recognition | |
| Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
| US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
| JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
| JP5475697B2 (en) | Noise suppressor, method and program thereof | |
| JP5191500B2 (en) | Noise suppression filter calculation method, apparatus, and program | |
| JP5200080B2 (en) | Speech recognition apparatus, speech recognition method, and program thereof | |
| JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
| Actlin Jeeva et al. | Discrete cosine transform‐derived spectrum‐based speech enhancement algorithm using temporal‐domain multiband filtering | |
| JP2007226036A (en) | Signal separation device, signal separation method, signal separation program and recording medium, signal arrival direction estimation device, signal arrival direction estimation method, signal arrival direction estimation program and recording medium | |
| López-Espejo et al. | Unscented transform-based dual-channel noise estimation: Application to speech enhancement on smartphones | |
| JP2007156364A (en) | Speech recognition apparatus, speech recognition method, program thereof, and recording medium thereof | |
| Talbi et al. | A new speech enhancement technique based on stationary bionic wavelet transform and MMSE estimate of spectral amplitude | |
| Astudillo et al. | Propagation of Statistical Information Through Non‐Linear Feature Extractions for Robust Speech Recognition | |
| Loweimi et al. | Channel Compensation in the Generalised Vector Taylor Series Approach to Robust ASR. | |
| Kim et al. | Feature compensation employing variational model composition for robust speech recognition in in-vehicle environment | |
| JP6000094B2 (en) | Speaker adaptation device, speaker adaptation method, and program | |
| JP2020060612A (en) | Audio signal processing program, audio signal processing method, and audio signal processing device | |
| Astudillo et al. | Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments | |
| Wang et al. | Boosting DNN-based speech enhancement via explicit transformations |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130213 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131125 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131203 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140109 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140128 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140206 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5475697 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |