JP5670298B2 - Noise suppression device, method and program - Google Patents
Noise suppression device, method and program Download PDFInfo
- Publication number
- JP5670298B2 JP5670298B2 JP2011261767A JP2011261767A JP5670298B2 JP 5670298 B2 JP5670298 B2 JP 5670298B2 JP 2011261767 A JP2011261767 A JP 2011261767A JP 2011261767 A JP2011261767 A JP 2011261767A JP 5670298 B2 JP5670298 B2 JP 5670298B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- model
- speaker
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。 The present invention relates to a noise suppression technique for extracting a desired signal by suppressing a noise signal included in an input acoustic signal.
処理対象とする音声信号と、音声信号以外の信号(以下「雑音信号」という)とを含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。雑音抑圧に係る従来技術として非特許文献1及び2が知られている。
Conventional techniques for suppressing noise signals are known in order to make it easier to hear audio signals from acoustic signals including audio signals to be processed and signals other than audio signals (hereinafter referred to as “noise signals”). In particular, when the automatic speech recognition technology is used in an actual environment, it is necessary to remove a noise signal from an acoustic signal and extract only a desired speech signal in order to correctly perform speech recognition. The use of automatic speech recognition in the actual environment is highly expected in the information-oriented society in the future, and is a problem that should be solved as soon as possible.
非特許文献1には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、予め推定した音声信号及び雑音信号それぞれの確率モデルから音響信号の確率モデルを生成する。その際、音響信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、音響信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。EMアルゴリズム(以下「期待値最大化法」ともいう)を用いてその差分を推定し、音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
非特許文献2には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、音響信号から雑音信号のみを推定する。推定した雑音信号を用いて、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、予め推定しておいた音声信号の確率モデルと、推定した雑音信号の確率モデルとから、音響信号の最適な確率モデルを生成する。そして、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。
非特許文献1は音響信号に含まれる雑音信号の特徴が定常的であり、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の特徴は非定常的であり、その分布は多峰性であることが多い。そのため、非特許文献1記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、音響信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、非特許文献1記載の技術では音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。
非特許文献2では、音響信号から雑音信号のみを抽出し、抽出された雑音信号のみを用いて多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献2記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、非特許文献2記載の技術には以下の問題が存在する。音響信号から雑音信号のみを抽出する際には、音声信号の確率モデルが必要となる。一般に、音声信号の確率モデルは、多数話者の学習用音声データを用いて学習され、これは話者独立モデルと呼ばれる。しかし、音声信号の統計的な性質は話者によって大きく異なるので、十分な雑音抑圧性能を得るためには、音声信号の確率モデルとして話者独立モデルではなく、特定話者の学習用音声データを用いて学習された話者依存モデルか、もしくは話者独立モデルを特定話者の統計量に適応させた話者依存モデルを用いる必要がある。しかしながら、非特許文献2記載の技術では、このような話者依存モデルについて考慮されておらず、十分な雑音抑圧性能が得られない。
また、雑音信号の確率モデルを推定し、話者独立モデルを特定話者の音声信号の統計量に適応させるためには、それぞれ雑音信号及び音声信号のみの学習データが必要となるが、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された信号のみであり、雑音信号及び音声信号のみを単独で観測することは不可能である。このため、非特許文献1では、音響信号から雑音信号もしくは音声信号のみが存在する時間区間を推定し、雑音信号もしくは音声信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号、もしくは雑音信号が存在する時間区間における音声信号を学習データとして利用することができない。そのため、当該区間で発生した雑音信号及び音声信号の変化や特徴を、雑音信号の確率モデル及び話者依存モデルに反映することができない。よって、非特許文献1では雑音信号の多峰的な分布を正確に推定し、話者独立モデルを特定話者の音声信号の統計量に適応させることが困難となる。一方、非特許文献2では前述の通り話者依存モデルについて考慮されていない。
Also, in order to estimate the stochastic model of the noise signal and adapt the speaker independent model to the statistic of the speech signal of the specific speaker, learning data of only the noise signal and the speech signal is required respectively. The signal that can be observed when performing noise suppression is only a signal in which a noise signal and a voice signal are mixed, and it is impossible to observe only the noise signal and the voice signal alone. For this reason, in Non-Patent
本発明は、音響信号に含まれる雑音信号及び音声信号を推定し、音声信号の存在有無に関わらず雑音信号を学習データとして利用して雑音信号の確率モデルに反映し、かつ雑音信号の存在有無にかかわらず音声信号を学習データとして利用して、話者独立モデルを特定話者の音声信号の統計量に適応させるためのパラメータである話者適応パラメータに反映し、多峰的な分布に基づく雑音信号の確率モデルと話者適応処理により得られた話者依存モデルとを用いて、音響信号から雑音信号を効果的に抑圧することができる雑音抑圧技術を提供することを目的とする。 The present invention estimates a noise signal and a speech signal included in an acoustic signal, uses the noise signal as learning data regardless of the presence or absence of the speech signal, reflects it in the probability model of the noise signal, and the presence or absence of the noise signal Regardless of the system, the speech signal is used as learning data, and the speaker independent model is reflected in the speaker adaptation parameter, which is a parameter for adapting to the statistic of the speech signal of a specific speaker. It is an object of the present invention to provide a noise suppression technique capable of effectively suppressing a noise signal from an acoustic signal by using a noise signal probability model and a speaker dependence model obtained by speaker adaptation processing.
上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成する。第一確率モデルと音響信号の音響特徴とに基づいて、雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習する。音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定する。音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて音響信号に含まれる雑音信号を抑圧する。 In order to solve the above problems, according to the first aspect of the present invention, a noise signal is suppressed from an acoustic signal including a noise signal and a voice signal. Extract the acoustic features of the acoustic signal. This is a stochastic model of speaker-independent speech signals that are defined as non-stationary noise-based signals that follow a multimodal distribution, and that contain many speakers' speech signals as learning data. Using a speaker adaptation parameter for adapting a speaker independent speech model to the speaker of the speech signal included in the acoustic signal, a noise model that is a stochastic model of the noise signal, and a speaker independent speech model A first probability model that is a signal probability model is generated. A noise signal is estimated based on the first probability model and the acoustic features of the acoustic signal, and the noise model is unsupervised and learned using the estimated noise signal as learning data. Using the acoustic features of the acoustic signal, the speaker independent speech model, and the noise model, the speech signal included in the acoustic signal is estimated, and the speaker adaptation parameter is unsupervised by using the estimated speech signal as learning data. The noise signal contained in the acoustic signal is suppressed using the acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter.
本発明に係る雑音抑圧技術は、音響信号に含まれる雑音信号及び音声信号を推定し、推定した雑音信号を利用して多峰的な雑音信号の確率モデルを推定し、推定した音声信号を利用して話者適応パラメータを推定することで、様々な雑音が存在する環境であっても音響信号から雑音信号を効果的に抑圧して目的とする音声信号を取り出すことができるという効果を奏する。 The noise suppression technology according to the present invention estimates a noise signal and a speech signal included in an acoustic signal, estimates a probabilistic model of a multimodal noise signal using the estimated noise signal, and uses the estimated speech signal By estimating the speaker adaptation parameters, it is possible to effectively suppress the noise signal from the acoustic signal and extract the target speech signal even in an environment where various noises exist.
以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の機能を持つ構成部や同一の処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「−」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りがない限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used for the following description, constituent parts having the same function and steps for performing the same processing are denoted by the same reference numerals, and redundant description is omitted. In the following description, the symbols “^”, “ − ”, etc. used in the text should be described immediately above the character that immediately follows, but are described immediately before the character due to restrictions on the text notation. To do. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is assumed to be applied to all elements of the vector or matrix unless otherwise specified.
<第一実施形態>
本実施形態においては、多峰的な分布に基づく雑音信号の確率モデル及び話者依存モデルとして、混合正規分布(Gaussian Mixture Model、以下「GMM」ともいう)を採用する。
<First embodiment>
In the present embodiment, a Gaussian Mixture Model (hereinafter also referred to as “GMM”) is adopted as a noise signal probability model and speaker-dependent model based on a multimodal distribution.
図1に示すように雑音抑圧装置100は、音響特徴抽出部104と、話者独立音声モデルを構成する無音GMMとクリーン音声GMMとが格納されるGMM記憶部107と、パラメータ推定部105と、雑音抑圧部106とを含む。雑音抑圧装置100は、音声信号sτと雑音信号nτとが混合された音響信号oτを収録し、または、入力され、音響信号oτから雑音信号nτを抑圧した雑音抑圧信号^sτを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。
As shown in FIG. 1, the
図2に示すように音響特徴抽出部104は音響信号oτから雑音抑圧を実施するための特徴量である複素数スペクトルSpctと対数メルスペクトルOtとを抽出する(s104)。
Acoustic
パラメータ推定部105は対数メルスペクトルOtと、GMM記憶部107で主記憶上に保持された話者独立(Speaker Independent、以下「SI」という)の音声信号の確率モデル(以下「SI音声モデル」という)であるSIGMMのパラメータセットλSIを用いて、雑音信号の確率モデル(以下「雑音モデル」という)である雑音GMMのパラメータセットλNと、SIGMMを音響信号oτに含まれる音声信号sτの話者に適応させるための話者適応パラメータbとを推定する(s105)。
The
雑音抑圧部106は、複素数スペクトルSpctと対数メルスペクトルOtとSIGMMのパラメータセットλSIと雑音GMMのパラメータセットλNと話者適応パラメータbとを用いて雑音抑圧フィルタを設計し、音響信号oτから雑音信号nτを抑圧して雑音抑圧信号^sτを得る(s106)。以下、各部の詳細を説明する。
The
<音響特徴抽出部104>
音響特徴抽出部104は、音響信号oτを受け取り、音響信号oτの音響特徴を抽出し(s104)、パラメータ推定部105と雑音抑圧部106とに出力する。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
<Acoustic
Acoustic
まず、ある周波数(例えば16,000Hz)で標本化された音響信号oτを時間軸方向に一定時間幅(シフト幅)で始点を移動させながら、一定時間長(フレーム幅)の音響信号をフレームとして切り出す(s201)。例えばフレーム幅Frame=320個のサンプル点(16,000Hz×20ms)の音響信号ot={ot,0,ot,1,…,ot,n,…,ot,Frame−1}を、シフト幅Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wnを掛け合わせて切り出してもよい。 First, while moving the start point at a certain frequency (e.g. 16,000Hz) in the sampled sound signal o tau the time axis direction in a predetermined time width (shift width), the frame acoustic signal for a predetermined time length (frame width) Is cut out (s201). For example acoustic signals of the frame width Frame = 320 samples points (16,000Hz × 20ms) o t = {o t, 0, o t, 1, ..., o t, n, ..., o t, Frame-1} Is cut out while shifting the start point by shift width Shift = 160 sample points (16,000 Hz × 10 ms). Here, t represents the frame number, and n represents the nth sample point in the frame. Note that when an acoustic signal of a plurality of channels is input, a frame may be cut out for each channel. Further, when cutting out the frame, it may be excised for example by multiplying the window function w n, such as the following Hamming window.
次に、音響特徴抽出部104は音響信号ot,nに対してM点の高速フーリエ変換処理を適用して、複素数スペクトルSpct={Spct,0,…,Spct,m,…,Spct,M−1}を得る(s202)。但し、Mは2のべき乗、かつフレーム幅Frame以上の値を設定する必要があり、例えば512とする。またmは周波数ビンの番号である。
Next, the acoustic
次に、音響特徴抽出部104は、Spct,mの絶対値に対してメルフィルタバンク分析を行い(s203)、フィルタバンクの出力に対し、対数化処理を適用する(s204)。このような処理により、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトル(以下、このベクトルを単に「対数メルスペクトル」という)Ot={Ot,0,…,Ot,r,…,Ot,R−1}を算出する。但しrはベクトルの要素番号を示す。すなわち、音響特徴抽出部104の出力は複素数スペクトルSpctと対数メルスペクトルOtである。複素数スペクトルSpctは、雑音抑圧部106の入力となり、対数メルスペクトルOtは、パラメータ推定部105と、雑音抑圧部106との入力となる。
Next, the acoustic
<GMM記憶部107>
図示しない記憶部には、雑音を含まない、多数話者の音声信号を学習データとして学習されたSIGMMが予め記憶される。SIGMMは無音GMMとクリーン音声GMMとからなる。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
SIGMMは次式により与えられる。
<
A storage unit (not shown) stores in advance SIGMMs that are learned using voice signals of many speakers without learning noise as learning data. The SIGMM consists of a silent GMM and a clean voice GMM. The silent GMM is a GMM learned based on an acoustic signal acquired from a silent part of a voice signal that does not include a noise signal, and the clean voice GMM is based on an acoustic signal consisting only of a voice excluding the silent part in a noise-free environment. It is a learned GMM.
SIGMM is given by:
但し、jは無音GMMと、クリーン音声GMMとを識別するインデックスであり、j=0は無音GMMを、j=1はクリーン音声GMMを示す。また、kは無音GMMもしくはクリーン音声GMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=128)。また、Stは雑音を含まない、音声信号の対数メルスペクトルであり、bSI,j(St)はSIGMMの尤度である。wSI,j,kとμSI,j,kとΣSI,j,kとはそれぞれSIGMMの混合重みと平均ベクトルと対角分散行列であり、多数話者の学習用音声データを用いて事前に推定しておく。なお、SIGMMのパラメータセット(以下「SIモデルパラメータセット」ともいう)をλSI={wSI,j,k,μSI,j,k,ΣSI,j,k}と定義する。下付添え字SIは、SIGMMに係る尤度やパラメータであることを示している。関数N(・)は、次式で与えられる多次元正規分布の確率密度関数である。 Here, j is an index for identifying the silent GMM and the clean voice GMM, j = 0 indicates the silent GMM, and j = 1 indicates the clean voice GMM. Further, k is a normal distribution number included in the silent GMM or the clean speech GMM, and K is the total normal distribution number (for example, K = 128). Further, S t is free of noise, the logarithm Mel spectrum of the speech signal, b SI, j (S t ) is the likelihood of SIGMM. w SI, j, k and μ SI, j, k and ΣSI , j, k are the SIGMM mixture weight, average vector and diagonal dispersion matrix, respectively , and are preliminarily used by learning speech data for many speakers. To estimate. A SIGMM parameter set (hereinafter also referred to as “SI model parameter set”) is defined as λ SI = {w SI, j, k , μ SI, j, k , ΣSI , j, k }. The subscript SI indicates a likelihood or parameter related to SIGMM. The function N (•) is a probability density function of a multidimensional normal distribution given by the following equation.
上式において「T」は転置を表す。
以下、本実施形態で用いる話者依存モデルである話者依存GMM(Speaker Dependent GMM、以下「SDGMM」という)と雑音モデルである雑音GMMについて概略を説明する。SDGMMは、特定話者の学習用音声データから推定されたパラメータから構成されるGMMである。前述の通り、話者依存モデルとして、特定話者の学習用音声データを用いて学習されたモデルか、もしくは話者独立モデルを特定話者の統計量に適応させたモデルがある。特定話者の学習用音声データのみからSDGMMを得ることは、実用上、現実的ではないため、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得る。すなわち、次式の話者適応処理によりSIGMMの平均ベクトルμSI,j,kをSDGMMの平均ベクトルμSD,j,kに変換する。
In the above formula, “ T ” represents transposition.
Hereinafter, a speaker-dependent GMM (Speaker Dependent GMM, hereinafter referred to as “SDGMM”), which is a speaker-dependent model used in the present embodiment, and a noise GMM, which is a noise model, will be outlined. The SDGMM is a GMM composed of parameters estimated from voice data for learning of a specific speaker. As described above, the speaker dependence model includes a model learned using speech data for learning of a specific speaker, or a model in which a speaker independent model is adapted to the statistics of the specific speaker. Obtaining an SDGMM from only speech data for learning of a specific speaker is impractical in practice, and in this embodiment, an SDGMM is obtained by performing speaker adaptation processing on the SIGMM. That is, the SIGMM average vector μSI , j, k is converted into the SDGMM average vector μSD , j, k by the speaker adaptation processing of the following equation.
上式においてbはR次元ベクトルで構成される話者適応パラメータであり、j、kに対して独立のパラメータとする。なお、下付添え字SDはSDGMMに係る尤度やパラメータであることを示している。
また、雑音GMMは次式により与えられる。
In the above equation, b is a speaker adaptation parameter composed of an R-dimensional vector, and is an independent parameter for j and k. The subscript SD indicates the likelihood and parameters related to SDGMM.
The noise GMM is given by the following equation.
上式においてl(エル)は雑音GMMに含まれる正規分布の番号、Lは総正規分布数である(例えばL=4)。また、Ntは雑音信号の対数メルスペクトルであり、bN(Nt)は雑音GMMの尤度である。wN,lとμN,lとΣN,lとはそれぞれ雑音GMMの混合重みと平均ベクトルと対角分散行列である。以後、雑音GMMのパラメータセット(以下「雑音モデルパラメータセット」ともいう)をλN={wN,l,μN,l,ΣN,l}と定義する。なお、下付添え字Nは、雑音GMMに係る尤度やパラメータであることを示している。 In the above equation, l is a normal distribution number included in the noise GMM, and L is the total normal distribution number (for example, L = 4). N t is a log mel spectrum of the noise signal, and b N (N t ) is the likelihood of the noise GMM. w N, l and μ N, l and ΣN , l are the noise GMM mixing weight, average vector and diagonal dispersion matrix, respectively. Hereinafter, a noise GMM parameter set (hereinafter also referred to as a “noise model parameter set”) is defined as λ N = {w N, l , μ N, l , Σ N, l }. Note that the subscript N indicates the likelihood or parameter related to the noise GMM.
非特許文献1では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、GMMにて表現している。なお、後述のパラメータ推定部105において、雑音モデルを教師無し学習する。
In
また、非特許文献2では、話者依存モデルを用いない。一方、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得て、雑音抑圧において話者依存モデルを用いる。なお、後述のパラメータ推定部105において、適応パラメータを推定する。
In
<パラメータ推定部105>
パラメータ推定部105は対数メルスペクトルOtとSIモデルパラメータセットλSIとを受け取り、これらの値を用いて、雑音モデルパラメータセットλNと話者適応パラメータbとを最適推定し(s105)、雑音抑圧部106に出力する。
<
The
パラメータ推定部105において,雑音モデルパラメータセットλNと話者適応パラメータbは、入れ子構造となった3種類のEMアルゴリズムにより推定する。以後、第一EMアルゴリズム、第2EMアルゴリズム及び第3EMアルゴリズムと呼ぶ。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E-step)と、コスト関数を最大化するMaximization-step(M-step)とを収束条件を満たすまで繰り返すことによりパラメータを最適推定する。
In the
パラメータ推定部105は、第一初期値推定手段302と第一確率モデル生成手段303と第一期待値計算手段304と雑音モデル推定手段305と話者適応パラメータ推定手段306と第一収束判定手段307とを含む(図4参照)。図5を用いてパラメータ推定部105の処理フローを説明する。
The
(第一初期値推定手段302)
第一初期値推定手段302は第一EMアルゴリズムの繰り返しインデックスiを初期化する(s301)。例えばi=1とする。さらに、第一初期値推定手段302は音響信号otの対数メルスペクトルOtを受け取り、この値を用いて第一EMアルゴリズムにおける雑音モデルパラメータセットλNの初期値λN (i=0)={wN,l (i=0),μN,l (i=0),ΣN,l (i=0)}を以下の式(6)〜(8)により推定し、話者適応パラメータbの初期値を以下の式(9)により設定し(s302)、第一確率モデル生成手段303に出力する。
(First initial value estimation means 302)
The first initial value estimating means 302 initializes the repetition index i of the first EM algorithm (s301). For example, i = 1. Further, the first initial value estimating means 302 receives the logarithmic mel spectrum O t of the acoustic signal o t and uses this value to set the initial value λ N (i = 0) of the noise model parameter set λ N in the first EM algorithm. {W N, l (i = 0) , μ N, l (i = 0) , Σ N, l (i = 0) } are estimated by the following equations (6) to (8), and the speaker adaptation parameters The initial value of b is set by the following equation (9) (s302) and output to the first probability model generation means 303.
上式において、−0は全ての要素が0のベクトル、Uは初期値推定に要するフレーム数である(例えばU=10)。diagはかっこ内を要素とする対角行列を、上付添え字(i)は第一EMアルゴリズムにおける、i回目の繰り返し推定におけるパラメータであることを示す。
In the above formula, - 0 vector of all
(第一確率モデル生成手段303)
第一確率モデル生成手段303は、i−1回目の繰り返し推定における雑音モデルパラメータセットλ(i−1) Nと話者適応パラメータb(i−1)とを後述する第一収束判定手段307から受け取る。但し、i−1回目の雑音モデルパラメータセットλN (i−1)及び話者適応パラメータb(i−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN (i=0)及びb(i=0)を第一初期値推定手段302から受け取る。さらに第一確率モデル生成手段303は、SIモデルパラメータセットλSIを受け取り、これらの値を利用して、音響信号otの対数メルスペクトルOtの確率モデル(以下「第一確率モデル」という)を以下のようなGMMで構成する。
(First probability model generation means 303)
The first probability
上式においてbO1,j(Ot)は対数メルスペクトルOtの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO1,j,k,l (i)とμO1,j,k,l (i)とΣO1,j,k,l (i)とは、i−1回目の繰り返し推定における雑音モデルパラメータセットλN (i−1)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとから生成された、対数メルスペクトルOtの確率モデルの混合重みと平均ベクトルと対角分散行列とであり、以下の式(11)〜(13)で与えられる。 In the above equation, b O1, j (O t ) is the likelihood of the probability model of the log mel spectrum O t , the function N (•) is given by equation (3), and w O1, j, k, l (i ) , Μ O1, j, k, l (i) and ΣO1, j, k, l (i) are the noise model parameter set λ N (i-1) and the speaker in the i− 1th iteration estimation. The mixture weight, average vector, and diagonal dispersion matrix of the probability model of the log mel spectrum O t generated from the adaptive parameter b (i−1) and the SI model parameter set λ SI , and the following equation (11) It is given by (13).
上式において関数log(・)とexp(・)は、ベクトルの要素r毎に演算を行う。また、−1は全ての要素が1のベクトル、Iは単位行列、Hj,k,l (i)は関数h(・)のヤコビ行列である。
In the above equation, the functions log (•) and exp (•) perform an operation for each element r of the vector. Also, - 1 vector of all
第一確率モデルのパラメータセット(以下「第一確率モデルパラメータセット」という)をλO1 (i)={wO1,j,k,l (i),μO1,j,k,l (i),ΣO1,j,k,l (i)}と定義する。 A parameter set of the first probability model (hereinafter referred to as “first probability model parameter set”) is expressed as λ O1 (i) = {w O1, j, k, l (i) , μ O1, j, k, l (i) , ΣO1, j, k, l (i) }.
第一確率モデル生成手段303は、式(11)〜(13)に基づきλO1 (i)を生成し(s303)、第一期待値計算手段304と雑音モデル推定手段305とに出力する。
(第一期待値計算手段304)
第一期待値計算手段304は、第一確率モデルパラメータセットλO1 (i)と音響信号otの対数メルスペクトルOtとを受け取り、i回目の繰り返し推定における対数メルスペクトルOtの確率モデルのコスト関数Q1(・)の期待値を次式により計算する(第一EMアルゴリズムのE−step)(s304)。
The first probability
(First expected value calculation means 304)
First expectation
上式において、O0:T−1={O0,…,Ot,…,OT−1}であり、Tは対数メルスペクトルOtの総フレーム数であり、Pt,j (i)は式(16)で与えられるフレームtにおけるGMM種別jに対する事後確率である。特にPt,j=0 (i)を音声非存在確率、Pt,j=1 (i)を音声存在確率と定義する。Pt,j,k,l (i)は式(17)で与えられるフレームtにおける正規分布番号kとlとに対する事後確率である。λO1 (i)={wO1,j,k,l (i),μO1,j,k,l (i),ΣO1,j,k,l (i)}は式(11)〜(13)で与えられる。 In the above equation, O 0: T−1 = {O 0 ,..., O t ,..., O T−1 }, T is the total number of frames of the log mel spectrum O t , and P t, j (i ) Is a posterior probability for GMM type j in frame t given by equation (16). In particular, P t, j = 0 (i) is defined as a speech non-existence probability, and P t, j = 1 (i) is defined as a speech presence probability. P t, j, k, l (i) is the posterior probability for normal distribution numbers k and l in frame t given by equation (17). λ O1 (i) = {w O1, j, k, l (i) , μO1, j, k, l (i) , ΣO1, j, k, l (i) } 13).
第一期待値計算手段304は、求めた第一期待値Q1を第一収束判定手段307に、事後確率Pt,j (i)、Pt,j,k,l (i)を雑音モデル推定手段305に出力する。
The first expected
なお、第一EMアルゴリズムのM−stepは、以下の雑音モデル推定手段305と話者適応パラメータ推定手段306における処理からなる。雑音モデル推定手段305内の雑音モデルパラメータ推定手段402において第二EMアルゴリズムが実施され、話者適応パラメータ推定手段306内の話者適応パラメータ更新手段503において第三アルゴリズムが実施される。
The M-step of the first EM algorithm includes the following processing in the noise
(雑音モデル推定手段305)
雑音モデル推定手段305は、第一確率モデルパラメータセットλO1 (i)と音響信号otの対数メルスペクトルOtと事後確率Pt,j (i)、Pt,j,k,l (i)を受け取り、これらの値を用いて、雑音信号の対数メルスペクトルNtを推定し、推定した雑音信号^Ntを学習データとして雑音モデルを教師無し学習し(s305)、雑音モデルパラメータセットλN (i)を話者適応パラメータ推定手段306と第一収束判定手段307とに出力する。雑音モデル推定手段305は、雑音信号推定手段401と雑音モデルパラメータ推定手段402とを備える(図6参照)。
(Noise model estimation means 305)
Noise model estimating means 305, logarithmic Mel spectrum O t and the posterior probability P t of the first probabilistic model parameter set λ O1 (i) an acoustic signal o t, j (i), P t, j, k, l (i ) And using these values, the log mel spectrum N t of the noise signal is estimated, and the noise model ^ N t is used as learning data to train the noise model unsupervised (s305), and the noise model parameter set λ N (i) is output to speaker adaptive parameter estimation means 306 and first convergence determination means 307. The noise
[雑音信号推定手段401]
雑音信号推定手段401は、対数メルスペクトルOtを用いて、雑音信号の対数メルスペクトルNtを推定する(図7のs401)。例えば、雑音信号推定手段401は、事後確率Pt,j (i)、Pt,j,k,l (i)と、第一確率モデルパラメータセットλO1 (i)(に含まれる平均ベクトルμO1,j=1,k,l (i))と、対数メルスペクトルOtと、i−1回目の繰り返し推定における雑音モデルパラメータセットλN (i−1)(に含まれる平均ベクトルμN (i−1))とを受け取り、これらの値を用いて、雑音モデルパラメータセットλN (i−1)を更新するために用いる雑音信号の対数メルスペクトルNt (i)を推定し、推定値^Nt (i)を雑音モデルパラメータ推定手段402に出力する。雑音の対数メルスペクトルNt (i)は、次式により推定される。
[Noise signal estimation means 401]
The noise signal estimation means 401 estimates the log mel spectrum N t of the noise signal using the log mel spectrum O t (s401 in FIG. 7). For example, the noise
[雑音モデルパラメータ推定手段402]
雑音モデルパラメータ推定手段402は、雑音信号の対数メルスペクトルの推定値^Nt (i)を受け取り、これを学習データとして、雑音モデルパラメータセットλN (i)を推定し(図7のs402〜s407)、第一収束判定手段307と話者適応パラメータ推定手段306とに出力する。雑音モデルパラメータセットλN (i)の具体的な推定方法(s402〜s407)については後述する。
[Noise model parameter estimation means 402]
The noise
(話者適応パラメータ推定手段306)
話者適応パラメータ推定手段306は、対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλN (i)とを受け取り、これらの値を用いて、音響信号otに含まれる音声信号stを推定し、推定した音声信号^stを学習データとして、話者適応パラメータb(i)を教師無し推定し(図5のs306)、第一収束判定手段307に出力する。
(Speaker adaptive parameter estimation means 306)
Speaker adaptation
話者適応パラメータ推定手段306は、第二確率モデル生成手段501と音声信号推定手段502と話者適応パラメータ更新手段503とを備える(図8参照)。
[第二確率モデル生成手段501]
第二確率モデル生成手段501は、雑音モデルパラメータセットλN (i)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとを受け取り、これらの値を利用して、対数メルスペクトルOtの確率モデル(以下「第二確率モデル」という)を以下のようなGMMで構成する。
The speaker adaptation
[Second probability model generation means 501]
The second probability model generation means 501 receives the noise model parameter set λ N (i) , the speaker adaptation parameter b (i−1), and the SI model parameter set λ SI, and uses these values to calculate the logarithmic mel. A probability model (hereinafter referred to as “second probability model”) of the spectrum O t is configured by the following GMM.
上式において、bO2,j(Ot)は対数メルスペクトルOtの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO2,j,k,l (i)、μO2,j,k,l (i)、ΣO2,j,k,l (i)は、それ第二確率モデルの混合重みと平均ベクトルと対角分散行列とであり、式(20)〜(22)で与えられる。 In the above equation, b O2, j (O t ) is the likelihood of the probability model of the log mel spectrum O t , the function N (•) is given by equation (3), and w O2, j, k, l ( i) , μ O2, j, k, l (i) , ΣO2 , j, k, l (i) are the mixture weight, average vector, and diagonal dispersion matrix of the second probability model, 20) to (22).
第二確率モデルのパラメータセット(以下「第二確率モデルパラメータセット」という)をλO2 (i)={wO2,j,k,l (i),μO2,j,k,l (i),ΣO2,j,k,l (i)}と定義する。
第二確率モデル生成手段501は、式(20)〜(22)に基づき第二確率モデルパラメータセットλO2 (i)を生成し(図9のs501)、λO2 (i)と対数メルスペクトルOtとSIモデルパラメータセットλSIとを音声信号推定手段502に出力する。
A parameter set of the second probability model (hereinafter referred to as “second probability model parameter set”) is expressed as λ O2 (i) = {w O2, j, k, l (i) , μO2, j, k, l (i) , ΣO2 , j, k, l (i) }.
The second probability model generation means 501 generates a second probability model parameter set λ O2 (i) based on the equations (20) to (22) (s501 in FIG. 9), and λ O2 (i) and the log mel spectrum O t and the SI model parameter set λ SI are output to the speech signal estimating means 502.
[音声信号推定手段502]
音声信号推定手段502は、対数メルスペクトルOtとSIモデルパラメータセットλSI(に含まれる平均ベクトルμSI,J,k)と第二確率モデルパラメータセットλO2 (i)とi−1回目の繰り返し推定における話者適応パラメータb(i−1)とを受け取り、これらの値を用いて、話者適応パラメータb(i)を更新するために用いる、音響信号otに含まれるクリーン音声の対数メルスペクトルStを次式により推定し(s502)、推定値^St (i)を話者適応パラメータ更新手段503に出力する。
[Speech signal estimation means 502]
The speech signal estimation means 502 uses the log mel spectrum O t , the SI model parameter set λ SI (the average vector μ SI, J, k ) included in the second probability model parameter set λ O2 (i), and the i−1th time. receiving a speaker adaptation in the repeating estimated parameter b (i-1), using these values, is used to update the speaker adaptation parameter b (i), the clean speech of logarithm contained in the audio signal o t The mel spectrum S t is estimated by the following equation (s502), and the estimated value tS t (i) is output to the speaker adaptive
なお、事後確率Pt,j (i)、Pt,j,k,l (i)は、第一確率モデルパラメータセットλO1 (i)に代えて第二確率モデルパラメータセットλO2 (i)を用いて、式(16)、(17)により与えられる。 Incidentally, the posterior probability P t, j (i), P t, j, k, l (i) , the second probability model parameter set lambda O2 instead of the first probabilistic model parameter set λ O1 (i) (i) Is given by equations (16) and (17).
[話者適応パラメータ更新手段503]
話者適応パラメータ更新手段503は、推定したクリーン音声の対数メルスペクトル^St (i)とSIモデルパラメータセットλSIとを受け取り、これらの値を用いて話者適応パラメータb(i−1)を更新し(図9のs503〜s508)、第一収束判定手段307に出力する。話者適応パラメータb(i)の具体的な更新方法(s503〜s508)については後述する。
[Speaker adaptive parameter update means 503]
The speaker adaptation parameter update means 503 receives the log mel spectrum ^ S t (i) of the estimated clean speech and the SI model parameter set λ SI, and uses these values to determine the speaker adaptation parameter b (i−1). Is updated (s503 to s508 in FIG. 9) and output to the first convergence determination means 307. A specific updating method (s503 to s508) of the speaker adaptation parameter b (i ) will be described later.
(第一収束判定手段307)
第一収束判定手段307は、第一期待値Q1を受け取り、この値を用いて収束条件を満たすか否かを判定し(図5のs307)、満たす場合はλN=λN (i)、b=b(i)とし、λNとbを雑音抑圧部106に出力しパラメータ推定部105の処理を終了する。満たさない場合はλN (i)とb(i)を第一確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q1(O0:T−1,b(i),λN (i))と一つ前の第一期待値Q1(O0:T−1,b(i−1),λN (i−1))との差が所定値η1以下である場合や、繰り返し回数iが所定値I1以上になった場合等とすることができる。例えば次式で表すことができる。
(First convergence determination means 307)
First
であり、例えば、η1=0.0001、I1=100である。
<雑音モデルパラメータ推定手段402の詳細>
雑音モデルパラメータ推定手段402は、第二初期値推定手段403と第二期待値計算手段404とパラメータ更新手段405と第二収束判定手段406とを含む(図6参照)。図7を用いて雑音モデルパラメータ推定手段402の処理内容を説明する。
For example, η 1 = 0.0001 and I 1 = 100.
<Details of Noise Model
The noise model
(第二初期値推定手段403)
第二初期値推定手段403は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスi’を初期化する(s402)。例えば、i’=1とする。次に第二初期値推定手段403は、推定した雑音信号の対数メルスペクトル^Nt (i)を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータセットλN (i’)の初期値λN (i’=0)={wN,l (i’=0),μN,l (i’=0),ΣN,l (i’=0)}を式(26)〜(30)により推定し(s403)、第二期待値計算手段404に出力する。
(Second initial value estimating means 403)
The second initial value estimation means 403 first initializes an index i ′ indicating the number of repetitions of the second EM algorithm (s402). For example, i ′ = 1. Next, the second initial value estimation means 403 receives the logarithmic mel spectrum ^ N t (i) of the estimated noise signal, and uses this value for the noise model parameter set λ N (i ′) in the second EM algorithm. Initial values λ N (i ′ = 0) = {w N, l (i ′ = 0) , μ N, l (i ′ = 0) , Σ N, l (i ′ = 0) } To (30) (s403) and output to the second expected value calculation means 404.
上式において、上付添え字(i’)はi’回目の繰り返し推定におけるパラメータであることを示す。また、GaussRand(a,b)は平均a、分散bの正規乱数の発生器である。 In the above equation, the superscript (i ′) indicates a parameter in the i′-th iteration estimation. GaussRand (a, b) is a generator of normal random numbers having an average a and a variance b.
(第二期待値計算手段404)
第二期待値計算手段404は、推定した雑音信号の対数メルスペクトル^Nt (i)を雑音信号推定手段401から受け取る。また第二EMアルゴリズムにおける雑音モデルパラメータセットλN (i’−1)を第二収束判定手段406から受け取る。但し、i’−1回目の雑音モデルパラメータセットλN (i’−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN (i’=0)を第二初期値推定手段403から受け取る。これらの値を用いて第二期待値計算手段404はi’回目の繰り返し推定における雑音GMMのコスト関数Q2(・)の期待値を式(31)により計算し(第二EMアルゴリズムのE−step)(s404)、第二収束判定手段406に出力する。
(Second expected value calculation means 404)
The second expected
上式において、^N0:T−1 (i)={^N0 (i),…,^Nt (i),…,^NT−1 (i)}であり、
関数N(・)は式(3)で与えられ、Pt,l (i’)は次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。
In the above equation, ^ N 0: T-1 (i) = {^ N 0 (i) , ..., ^ N t (i) , ..., ^ N T-1 (i) },
The function N (•) is given by equation (3), and P t, l (i ′) is the posterior probability for the normal distribution number l in the frame t given by the following equation.
第二期待値計算手段404は、求めたPt,l (i’)をパラメータ更新手段405に出力する。
(パラメータ更新手段405)
パラメータ更新手段405は、事後確率Pt,l (i’)と対数メルスペクトル^Nt (i)とを受け取り、雑音モデルパラメータセットλN (i’−1)を次式により更新し(第二EMアルゴリズムのM−step)(s405)、更新した雑音モデルパラメータセットλN (i’)を第二収束判定手段406に出力する。
The second expected
(Parameter update means 405)
The parameter updating means 405 receives the posterior probability P t, l (i ′) and the log mel spectrum ^ N t (i), and updates the noise model parameter set λ N (i′−1) by the following equation (first The second EM algorithm M-step) (s405) and the updated noise model parameter set λ N (i ′) are output to the second convergence determination means 406.
(第二収束判定手段406)
第二収束判定手段406は、第二期待値Q2を受け取り、この値を用いて収束条件を満たすか否かを判定し(s406)、満たす場合はλN (i)=λN (i’)としλN (i)を、第一収束判定手段307と話者適応パラメータ更新手段503とに出力し雑音モデルパラメータ推定手段402の処理を終了する。満たさない場合はλN (i’)を第二期待値計算手段404に出力し、i’←i’+1(s407)として、繰り返し処理を行うように各部に制御信号を出力し、s404、s405の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q2(^N0:T−1,λN (i’))と一つ前の第二期待値Q2(^N0:T−1,λN (i’−1))との差が所定値η2以下である場合や、繰り返し回数i’が所定値I2以上になった場合等とすることができる。例えば以下の式で表すことができる。
(Second convergence determination means 406)
Second
であり、例えば、η2=0.0001、I2=100である。
<話者適応パラメータ更新手段503の詳細>
話者適応パラメータ更新手段503は、初期値設定手段504と第三期待値計算手段505と話者適応パラメータ算出手段506と第三収束判定手段507とを含む(図8参照)。
For example, η 2 = 0.0001 and I 2 = 100.
<Details of Speaker Adaptive
The speaker adaptation
図9を用いて話者適応パラメータ更新手段503の処理内容を説明する。
(初期値設定手段504)
初期値設定手段504は、まず第三EMアルゴリズムの繰り返し回数を示すインデックスi”を初期化する(s503)。例えば、i”=1とする。次に初期値設定手段504は、第三EMアルゴリズムにおける話者適応パラメータb(i”)の初期値b(i”=0)を次式により設定し(s504)、第三期待値計算手段505に出力する。
The processing contents of the speaker adaptation
(Initial value setting means 504)
The initial value setting means 504 first initializes an index i ″ indicating the number of repetitions of the third EM algorithm (s503). For example, i ″ = 1. Next, the initial value setting means 504 sets the initial value b (i ″ = 0) of the speaker adaptation parameter b (i ″) in the third EM algorithm by the following equation (s504), and the third expected value calculation means 505. Output to.
上式において、上付添え字(i”)は第三EMアルゴリズムにおける、i”回目の繰り返し推定におけるパラメータであることを示す。
(第三期待値計算手段505)
第三期待値計算手段505は、SIモデルパラメータセットλSIと推定したクリーン音声の対数メルスペクトル^St (i)とを受け取る。また第三収束判定手段507からi”−1回目の話者適応パラメータb(i”−1)を受け取る。但し、i”−1回目の話者適応パラメータb(i”−1)が存在しない場合、つまり、0回目の場合、前述の初期値b(i”=0)を初期値設定手段504から受け取る。これらの値を用いて第三期待値計算手段505はi”回目の繰り返し推定におけるSDGMMのコスト関数Q3(・)の期待値を次式により計算し(第三EMアルゴリズムのE−step)(s505)、第三収束判定手段507に出力する。
In the above formula, the superscript (i ″) indicates that it is a parameter in i ″ th iteration estimation in the third EM algorithm.
(Third expected value calculation means 505)
The third expected value calculation means 505 receives the SI model parameter set λ SI and the estimated log mel spectrum S S t (i) of the clean speech. Also, the i "-1th speaker adaptation parameter b (i" -1) is received from the third convergence determination means 507. However, if the i "-1th speaker adaptation parameter b (i" -1) does not exist, that is, if it is the 0th time, the initial value b (i "= 0) is received from the initial value setting means 504. Using these values, the third expected value calculation means 505 calculates the expected value of the cost function Q 3 (•) of the SDGMM in the i ”th iterative estimation by the following equation (E-step of the third EM algorithm): (S505), it outputs to the third convergence determination means 507.
上式において、^S0:T−1 (i)={^S0 (i),…,^St (i),…,^ST−1 (i)}であり、Pt,j (i”)は以下の式(39)で与えられるフレームtにおけるGMM種別jに対する事後確率であり、Pt,j,k (i”)は以下の式(40)で与えられるフレームtにおける正規分布番号kに対する事後確率である。 In the above equation, ^ S 0: T-1 (i) = {^ S 0 (i), ..., ^ S t (i), ..., ^ S T-1 (i)} is, P t, j (I ″) is the posterior probability for GMM type j in frame t given by the following equation (39), and P t, j, k (i ″) is the normality in frame t given by the following equation (40). This is the posterior probability for distribution number k.
第三期待値計算手段505は、求めた事後確率Pt,j (i”)、Pt,j,k (i”)を話者適応パラメータ算出手段506に出力する。
The third expected
(話者適応パラメータ算出手段506)
話者適応パラメータ算出手段506は、事後確率Pt,j (i”)、Pt,j,k (i”)とSIモデルパラメータセットλSIとクリーン音声の対数メルスペクトル^St (i)とを受け取り、以下の式(41)を用いて話者適応パラメータb(i”)を求め、これを新たな話者適応パラメータb(i”)として更新し(第三EMアルゴリズムのM−step)(s506)、第三収束判定手段507に出力する。
(Speaker adaptive parameter calculation means 506)
The speaker adaptive parameter calculation means 506 includes the posterior probabilities P t, j (i ″) , P t, j, k (i ″) , the SI model parameter set λ SI, and the log mel spectrum of clean speech ^ S t (i). The speaker adaptation parameter b (i ″) is obtained using the following equation (41), and is updated as a new speaker adaptation parameter b (i ″) (M-step of the third EM algorithm ). ) (S506), it outputs to the third convergence determination means 507.
(第三収束判定手段507)
第三収束判定手段507は、第三期待値Q3を受け取り、この値を用いて収束条件を満たすか否かを判定し(s507)、満たす場合はb(i)=b(i”)としb(i)を第一収束判定手段307に出力し話者適応パラメータ更新手段503の処理を終了する。満たさない場合はb(i”)を第三期待値計算手段505に出力し、i”←i”+1(s508)として、繰り返し処理を行うように各部に制御信号を出力し、s505、s506の処理を繰り返す。例えば、収束条件は、最新の第三期待値Q3(^S0:T−1 (i),b(i”))と一つ前の第三期待値Q3(^S0:T−1 (i),b(i”−1))との差が所定値η3以下である場合や、繰り返し回数i”が所定値I3以上になった場合等とすることができる。例えば以下の式で表すことができる。
(Third convergence determination means 507)
Third
であり、例えば、η3=0.0001、I3=100である。よって、第三EMアルゴリズムのM−stepにおいて話者適応パラメータ算出手段506で最終的に算出した話者適応パラメータb(i)=b(i”)が、第一EMアルゴリズムのi回目の繰り返しにおけるSDGMMの尤度を最大とするものとなる。 For example, η 3 = 0.0001 and I 3 = 100. Therefore, the speaker adaptation parameter b (i) = b (i ″) finally calculated by the speaker adaptation parameter calculation means 506 in the M-step of the third EM algorithm is the i-th iteration of the first EM algorithm. The likelihood of SDGMM is maximized.
<雑音抑圧部106>
雑音抑圧部106は、音響信号otの音響特徴である対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbと受け取り、これらの値を用いて音響信号otに含まれる雑音信号ntを抑圧し(s106)、雑音抑圧信号^sτを雑音抑圧装置100の出力値として出力する。例えば、図10に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段601と雑音抑圧フィルタ適用手段602を含む。雑音抑圧フィルタ推定手段601は音響信号の対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbとを受け取り、雑音抑圧フィルタWLin t,mを推定する。雑音抑圧フィルタ適用手段602は、複素数スペクトルSpctと雑音抑圧フィルタWLin t,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
<
(雑音抑圧フィルタ推定手段601)
雑音抑圧フィルタ推定手段601は図11に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOtの確率モデルである第三確率モデルのパラメータセット(以下「第三確率モデルパラメータセット」という)λO3={wO3,j,k,l,μO3,j,k,l,ΣO3,j,k,l}を以下のように生成する(s601)。
(Noise suppression filter estimation means 601)
The noise suppression filter estimation means 601 performs processing according to the flow shown in FIG. First, the noise suppression filter estimation means 601 receives the SI model parameter set λ SI , the noise model parameter set λ N, and the speaker adaptation parameter b, and uses these values to create a probability model of the log mel spectrum O t of the acoustic signal. Λ O3 = {w O3, j, k, l , μO3, j, k, l , ΣO3, j, k, λ O3 = {w O3, j, k, l , μ O3, j, k, l l } is generated as follows (s601).
上式において関数h(・)、g(・)は、式(12)、(13)により与えられる。 In the above equation, the functions h (•) and g (•) are given by equations (12) and (13).
次に、雑音抑圧フィルタ推定手段601は、求めた第三確率モデルパラメータセットλO3と対数メルスペクトルOtとを用いて、式(48)、(49)により事後確率Pt,j、Pt,j,k,lを計算する(s602)。 Next, the noise suppression filter estimation means 601 uses the obtained third probability model parameter set λ O3 and the log mel spectrum O t and uses the posterior probabilities P t, j , P t according to equations (48) and (49). , J, k, l are calculated (s602).
次に、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと事後確率Pt,j、Pt,j,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタWMel t,rを次式のように推定する(s603)。
Next, the noise suppression
上式はベクトルの要素r毎の表記である。 The above expression is a notation for each element r of the vector.
次に、雑音抑圧フィルタ推定手段601は、メル周波数軸上での雑音抑圧フィルタWMel t,rを線形周波数軸上での雑音抑圧フィルタWLin t,mに変換し(s604)、雑音抑圧フィルタ適用手段602に出力する。なお、変換は3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。
(雑音抑圧フィルタ適用手段602)
雑音抑圧フィルタ適用手段602は図12に示す流れで処理を行う。雑音抑圧フィルタ適用手段602は、雑音抑圧フィルタWLin t,mと複素数スペクトルSpctとを受け取り、複素数スペクトルSpctに対して雑音抑圧フィルタWLin t,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
Next, the noise suppression filter estimation means 601 converts the noise suppression filter W Mel t, r on the mel frequency axis into the noise suppression filter W Lin t, m on the linear frequency axis (s604), and the noise suppression filter. The data is output to the application unit 602. Note that the conversion is performed by estimating the value of the noise suppression filter on the linear frequency axis by applying cubic spline interpolation to the mel frequency axis.
(Noise suppression filter applying means 602)
The noise suppression filter application unit 602 performs processing according to the flow shown in FIG. The noise suppression filter application unit 602 receives the noise suppression filter W Lin t, m and the complex spectrum Spc t, and multiplies the complex spectrum Spct t by the noise suppression filter W Lin t, m as follows: A noise-suppressed complex spectrum {circumflex over (S)} t, m is obtained (s701).
上式はベクトルの要素m毎の表記である。 The above expression is a notation for each element m of the vector.
次に、雑音抑圧フィルタ適用手段602は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧信号^st,nを得る(s702)。 Next, the noise suppression filter application unit 602 obtains the complex spectrum ^ S t, by applying the inverse fast Fourier transform on m, the noise suppression signal ^ s t in frame t, the n (s702).
次に、雑音抑圧フィルタ適用手段602は、各フレームの雑音抑圧信号^st,nを次式のように窓関数wnを解除しながら連結して連続した雑音抑圧信号^sτを得て(s703)、これを雑音抑圧装置100の出力値として出力する。
Next, the noise suppression filter application unit 602 obtains a noise suppression signal ^ s tau continuous noise suppression signal ^ s t of each frame, the n linked with releasing the window function w n by the following equation (S703), this is output as the output value of the
<効果>
本実施形態では、多峰的な雑音信号の確率モデルのパラメータを推定する雑音信号モデルパラメータ推定手段と、話者独立の音声信号のモデルを話者依存の音声信号の確率モデルに適応させるためのパラメータを推定する話者適応パラメータ推定手段を具備し、それぞれを同時に実施しながらパラメータの更新を行う。このような構成により、話者の特徴を反映して、予め分かっていない非定常雑音をより高精度に抑圧することができる。また、信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、非線形問題を解くことなく確率モデルパラメータ(雑音モデルパラメータ及び話者適応パラメータ)を容易に最適化することができ、最適な雑音抑圧フィルタを設計し、高品質に目的音声信号を得ることができる。
<Effect>
In the present embodiment, a noise signal model parameter estimating means for estimating parameters of a multimodal noise signal probability model, and a speaker independent speech signal model for adapting to a speaker dependent speech signal probability model Speaker adaptive parameter estimation means for estimating the parameters is provided, and the parameters are updated while simultaneously executing the parameters. With such a configuration, unsteady noise that is not known in advance can be suppressed with higher accuracy by reflecting speaker characteristics. Moreover, even if the noise signal included in the signal is nonstationary noise that follows a multimodal distribution, the stochastic model parameters (noise model parameters and speaker adaptation parameters) can be easily optimized without solving the nonlinear problem. It is possible to design an optimal noise suppression filter and obtain a target speech signal with high quality.
なお、推定された雑音信号、及び音声信号には誤差が含まれる可能性があるが、雑音信号の確率モデルの推定、及び話者適応においては、学習データの統計的な性質を推定して処理を行っているため、誤差の問題は致命的な問題とならない。
<その他の変形例>
第一実施形態において、各部及び各手段が、図示しない記憶部に各信号や、処理途中の信号、各種パラメータ等が記憶し、記憶部を介して各データの読み書きを行ってもよい。
Note that the estimated noise signal and speech signal may contain errors, but in the estimation of the noise signal probability model and speaker adaptation, the statistical properties of the training data are estimated and processed. Therefore, the problem of error does not become a fatal problem.
<Other variations>
In the first embodiment, each unit and each unit may store each signal, a signal in the middle of processing, various parameters, and the like in a storage unit (not shown), and read / write each data via the storage unit.
第一実施形態において、フレーム化処理(図3のs201)にて窓関数wnにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。 In a first embodiment, the frame processing rectangular window besides Hamming window in the window function w n in (s201 in Fig. 3), a Hanning window may be used a window function, such as Blackman windows.
第一実施形態において、音声信号の確率モデルとして、無音GMM、クリーン音声GMMの代わりに、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。 In the first embodiment, other probability models such as a Hidden Markov Model (HMM) may be used instead of the silent GMM and the clean speech GMM as the probability model of the sound signal.
第一実施形態において、無音GMM、クリーン音声GMMの2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや、音素毎のGMMを用いてもよい。 In the first embodiment, not only two GMMs, the silent GMM and the clean voice GMM, but more GMMs may be used. For example, a silent GMM, an unvoiced sound GMM, a voiced sound GMM, or a GMM for each phoneme may be used.
第一実施形態において、雑音GMMの代わりに、雑音信号の確率モデルとしてHMM等の他の確率モデルを用いてもよい。 In the first embodiment, instead of the noise GMM, another probability model such as an HMM may be used as a noise signal probability model.
第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aを用いて実施してもよい。 In the first embodiment, speaker adaptation processing may be performed using an R × R dimensional affine transformation matrix A as shown in the following equation.
第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aと、ベクトルbを用いて実施してもよい。 In the first embodiment, the speaker adaptation process may be performed using an R × R dimensional affine transformation matrix A and a vector b as shown in the following equation.
第一実施形態において、話者適応処理のパラメータであるアフィン変換行列Aと、ベクトルbを、次式のように無音GMMと、クリーン音声GMMとを識別するインデックスj、及び無音GMM、もしくはクリーン音声GMMに含まれる正規分布の番号kに依存するパラメータとしてもよい。 In the first embodiment, the affine transformation matrix A, which is a parameter for speaker adaptation processing, and the vector b, the index j for identifying the silence GMM and the clean speech GMM, and the silence GMM or the clean speech as shown in the following equation: It may be a parameter depending on the number k of the normal distribution included in the GMM.
もしくは、 Or
もしくは、 Or
第一実施形態において、雑音抑圧フィルタ推定処理(図11のs603)にて、重み付け平均ではなく、最大の重み、すなわち最大の音声非存在/存在確率Pt,jと、事後確率Pt,j,k,lとの積を持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。 In the first embodiment, in the noise suppression filter estimation process (s603 in FIG. 11), not the weighted average but the maximum weight, that is, the maximum speech non-existence / existence probability P t, j and the posterior probability P t, j , K, l may be used as they are. In this case, it is desirable to have a sufficiently large weight compared to the weights of other estimation results.
第一実施形態において、式(26)、(29)、(30)に代えて、以下の式により初期値を設定してもよい。 In the first embodiment, instead of the formulas (26), (29), and (30), the initial value may be set by the following formula.
第一実施形態において、式(37)に代えて、以下の式により初期値を設定してもよい。 In the first embodiment, the initial value may be set by the following equation instead of the equation (37).
第一実施形態において、各EMアルゴリズムにおいて、M−stepを実施した後にE−stepを実施する構成としてもよい。また、M−stepを実施直後に収束判定を行い、収束していない場合にE−stepを実施する構成としてもよい。このような構成とすることで、収束している場合にM−stepを実施する処理を省略することができる。 In 1st embodiment, it is good also as a structure which implements E-step after implementing M-step in each EM algorithm. Moreover, it is good also as a structure which performs convergence determination immediately after implementing M-step, and implements E-step when it has not converged. By setting it as such a structure, the process which implements M-step when it has converged can be skipped.
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<シミュレーション結果>
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を第一実施形態の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<Simulation results>
In order to show the effect of the present invention, an example is shown in which an acoustic signal in which a voice signal and a noise signal are mixed is input to the noise suppression device of the first embodiment and noise suppression is performed. The experimental method and results will be described below.
本実験では、評価用データには、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれS/N比(信号対雑音比)0dB、5dB、10dBにて計算機上で重畳した。すなわち、雑音3種類×S/N比3種類の合計9種類の評価データを作成した。それぞれの音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(Frame=320サンプル点)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて、音響特徴抽出部104を適用した。
In this experiment, the evaluation data uses 100 sentences spoken by 23 men from IPA (Information-technology promotion agency, Japan) -98-TestSet. Noise separately recorded in the lobby, station platform, and street was superimposed on the computer at S / N ratios (signal to noise ratio) of 0 dB, 5 dB, and 10 dB, respectively. That is, a total of nine types of evaluation data of three types of noise × three types of S / N ratios were created. Each audio data is a monaural signal discretely sampled at a sampling frequency of 16,000 Hz and a quantization bit number of 16 bits. The acoustic
無音GMM、クリーン音声GMMには、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用い、それぞれ多数話者の学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。 As the silent GMM and the clean speech GMM, GMMs having a mixed distribution number K = 128 having an R = 24-dimensional logarithmic mel spectrum as acoustic features are used, and learning is performed using speech data for learning of a large number of speakers. L = 4 was given to the number of mixed distributions of the noise GMM.
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率(Word error rate: WER)で行った。 The performance was evaluated by speech recognition, and the evaluation scale was the word error rate (WER) of the following formula.
上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。 In the above equation, N is the total number of words, D is the number of dropped error words, S is the number of replacement error words, I is the number of insertion error words, and the smaller the WER value, the higher the speech recognition performance.
音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365)により行い、音響モデルには話者独立のTriphone HMMを用いており、各HMMの構造は3状態のLeft−to−right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frame=320)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は20,000単語である。 Speech recognition is based on a finite state transducer based recognizer (T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365), and the speaker model is a speaker-independent Triphone HMM, and each HMM has a three-state Left-to- It is a right type HMM, and each state has 16 normal distributions. The number of states of the entire HMM is 2,000. The acoustic feature of speech recognition is a 12-dimensional MFCC (Mel-frequency cepstral) in which the time length of one frame is 20 ms (Frame = 320) and the start point of the frame is moved every 10 ms (Shift = 160 sample points). coefficient), the logarithmic power value, and a 39-dimensional vector in total including the first and second order regression coefficients. The language model uses Tri-gram and the number of vocabulary is 20,000 words.
図13は、雑音抑圧の結果であり、雑音抑圧処理を行わない場合と、非特許文献1に開示された方法と、非特許文献2に開示された方法と、第一実施形態とによる音声認識の評価結果を示している。図13の結果からも、第一実施形態により従来技術に比べて高い性能を得られることが明らかである。
<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現してもよい。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
FIG. 13 shows the result of noise suppression. Speech recognition according to the case where noise suppression processing is not performed, the method disclosed in
<Program and recording medium>
The noise suppression device described above may be realized by causing a computer to execute a program described by a computer-readable code. These programs are stored in a computer-readable storage medium such as a magnetic disk or a CD-ROM, and installed in the computer from the storage medium or installed through a communication line and executed.
本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、TV会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。 The present invention can be used for automatic speech recognition using a noise suppression signal by suppressing noise from an acoustic signal before the automatic speech recognition. In addition, it can be used when a noise signal is suppressed from a received or recorded sound signal in a call system such as a TV conference system or a recording system.
Claims (7)
前記音響信号の音響特徴を抽出する音響特徴抽出手段と、
雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルが記憶される記憶手段と、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成手段と、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧手段と、
を含む雑音抑圧装置。 A noise suppression device that suppresses a noise signal from an acoustic signal including a noise signal and a voice signal,
Acoustic feature extraction means for extracting acoustic features of the acoustic signal;
Storage means for storing a speaker independent speech model that is a probability model of a speaker independent speech signal learned using speech signals of a large number of speakers without learning as noise.
Speaker adaptation for defining the noise signal as a signal based on non-stationary noise following a multimodal distribution, and adapting the speaker independent speech model to a speaker of the speech signal included in the acoustic signal A first probability model generating means for generating a first probability model that is a probability model of the acoustic signal using a parameter, a noise model that is a probability model of the noise signal, and the speaker independent speech model;
Noise model estimation means for estimating the noise signal based on the first probability model and the acoustic characteristics of the acoustic signal, and unsupervised learning of the noise model using the estimated noise signal as learning data;
Using the acoustic characteristics of the acoustic signal, the speaker independent speech model, and the noise model, the speech signal included in the acoustic signal is estimated, and the estimated speech signal is used as learning data to determine the speaker adaptation parameter. Speaker adaptive parameter estimating means for unsupervised estimation,
Noise suppression means for suppressing a noise signal included in the acoustic signal using an acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter;
Including a noise suppression device.
前記話者適応パラメータ推定手段は、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成手段と、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定手段と、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出手段とを含む、
雑音抑圧装置。 The noise suppression device according to claim 1,
The speaker adaptation parameter estimation means includes:
Second probability model generation means for generating a second probability model that is a probability model of the acoustic signal using the acoustic features of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter; ,
Voice signal estimation means for estimating the voice signal included in the acoustic signal using the acoustic characteristics of the acoustic signal, the second probability model, the speaker independent voice model, and the speaker adaptation parameter;
Based on the speech signal included in the estimated acoustic signal and the speaker independent speech model, the likelihood of the speaker dependent speech model that is the speaker independent speech model adapted by the speaker adaptation parameter is Including speaker adaptation parameter calculation means for calculating the speaker adaptation parameter that is maximized,
Noise suppression device.
前記話者適応パラメータ推定手段は、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出手段の処理を繰り返し、
当該雑音抑圧装置は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成手段と前記雑音モデル推定手段と前記話者適応パラメータ推定手段の処理を繰り返す、
雑音抑圧装置。 The noise suppression device according to claim 2,
The speaker adaptation parameter estimation means calculates the speaker adaptation parameter using the estimated speech signal until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the speaker-dependent speech model is maximized. Repeat the process of means,
The noise suppression device uses the acoustic signal and the first probability model generation unit and the noise model estimation until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the first probability model is maximized. Repeating the process of the means and the speaker adaptation parameter estimation means,
Noise suppression device.
音響特徴抽出手段が、前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
第一確率モデル生成手段が、前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成ステップと、
雑音モデル推定手段が、前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定ステップと、
話者適応パラメータ推定手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定ステップと、
雑音抑圧手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。 A noise suppression method for suppressing a noise signal from an acoustic signal including a noise signal and a voice signal,
An acoustic feature extracting means for extracting an acoustic feature of the acoustic signal;
The first probability model generation means defines that the noise signal is a signal based on non-stationary noise that follows a multimodal distribution, and a speech that has been learned using speech signals of many speakers that do not include noise as learning data. A speaker adaptation parameter for adapting a speaker independent speech model which is a probability model of a speech signal independent to a speaker of the speech signal included in the acoustic signal, and a noise model which is a probability model of the noise signal; Generating a first probability model that is a probability model of the acoustic signal using the speaker independent speech model; and
A noise model estimation unit, wherein the noise model estimation means estimates the noise signal based on the first probability model and the acoustic features of the acoustic signal, and performs unsupervised learning of the noise model using the estimated noise signal as learning data. When,
Speaker adaptation parameter estimation means estimates the speech signal included in the acoustic signal using the acoustic features of the acoustic signal, the speaker independent speech model, and the noise model, and learns the estimated speech signal As the data, a speaker adaptation parameter estimation step for estimating the speaker adaptation parameter without teacher,
A noise suppression step, wherein the noise suppression means suppresses a noise signal included in the acoustic signal using an acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter;
Including a noise suppression method.
前記話者適応パラメータ推定ステップは、
第二確率モデル生成手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成ステップと、
音声信号推定手段が、前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定ステップと、
話者適応パラメータ算出手段が、推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出ステップとを含む、
雑音抑圧方法。 The noise suppression method according to claim 4,
The speaker adaptation parameter estimation step includes:
Second probability model generation means generates a second probability model, which is a probability model of the acoustic signal, using the acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter. A second probability model generation step,
An audio signal for estimating the audio signal included in the audio signal by using an audio feature of the audio signal, the second probability model, the speaker independent audio model, and the speaker adaptation parameter. An estimation step;
A speaker adaptation parameter calculation means is a speaker which is the speaker independent speech model adapted by the speaker adaptation parameter based on the speech signal included in the estimated acoustic signal and the speaker independent speech model. A speaker adaptation parameter calculation step for calculating the speaker adaptation parameter that maximizes the likelihood of the person-dependent speech model,
Noise suppression method.
前記話者適応パラメータ推定ステップは、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出ステップの処理を繰り返し、
当該雑音抑圧方法は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成ステップと前記雑音モデル推定ステップと前記話者適応パラメータ推定ステップの処理を繰り返す、
雑音抑圧方法。 The noise suppression method according to claim 5,
The speaker adaptation parameter estimation step uses the estimated speech signal to calculate the speaker adaptation parameter until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the speaker-dependent speech model is maximized. Repeat the process of steps,
The noise suppression method uses the acoustic signal to generate the first probability model and the noise model estimation until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the first probability model is maximized. Repeating steps and the speaker adaptation parameter estimation step,
Noise suppression method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011261767A JP5670298B2 (en) | 2011-11-30 | 2011-11-30 | Noise suppression device, method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011261767A JP5670298B2 (en) | 2011-11-30 | 2011-11-30 | Noise suppression device, method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013114151A JP2013114151A (en) | 2013-06-10 |
| JP5670298B2 true JP5670298B2 (en) | 2015-02-18 |
Family
ID=48709714
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011261767A Active JP5670298B2 (en) | 2011-11-30 | 2011-11-30 | Noise suppression device, method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5670298B2 (en) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3010017A1 (en) * | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
| JP6243858B2 (en) * | 2015-02-05 | 2017-12-06 | 日本電信電話株式会社 | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program |
| JP6588936B2 (en) * | 2017-03-22 | 2019-10-09 | 日本電信電話株式会社 | Noise suppression apparatus, method thereof, and program |
| CN111402922B (en) * | 2020-03-06 | 2023-06-30 | 武汉轻工大学 | Audio signal classification method, device, equipment and storage medium based on small samples |
| EP4233051B1 (en) | 2020-10-20 | 2024-07-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters |
| GB202104280D0 (en) * | 2021-03-26 | 2021-05-12 | Samsung Electronics Co Ltd | Method and apparatus for real-time sound enhancement |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4275353B2 (en) * | 2002-05-17 | 2009-06-10 | パイオニア株式会社 | Speech recognition apparatus and speech recognition method |
| US8296135B2 (en) * | 2008-04-22 | 2012-10-23 | Electronics And Telecommunications Research Institute | Noise cancellation system and method |
-
2011
- 2011-11-30 JP JP2011261767A patent/JP5670298B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2013114151A (en) | 2013-06-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6243858B2 (en) | Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program | |
| Li et al. | An overview of noise-robust automatic speech recognition | |
| CN112435654B (en) | Data enhancement of speech data by frame insertion | |
| JP3457431B2 (en) | Signal identification method | |
| JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
| JP5670298B2 (en) | Noise suppression device, method and program | |
| Liao et al. | Uncertainty decoding for noise robust speech recognition | |
| JP5997114B2 (en) | Noise suppression device, noise suppression method, and program | |
| JP5713818B2 (en) | Noise suppression device, method and program | |
| JP5740362B2 (en) | Noise suppression apparatus, method, and program | |
| CN101432799A (en) | Soft alignment in Gaussian mixture model based transformation | |
| WO2006033044A2 (en) | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system | |
| Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
| JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
| JP2006349723A (en) | Acoustic model creation device, speech recognition device, acoustic model creation method, speech recognition method, acoustic model creation program, speech recognition program, and recording medium | |
| Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
| JP5457999B2 (en) | Noise suppressor, method and program thereof | |
| JP4779239B2 (en) | Acoustic model learning apparatus, acoustic model learning method, and program thereof | |
| Ramya et al. | Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition | |
| Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
| JP7754428B2 (en) | Speech recognition device, speech recognition method, and program | |
| Tatarnikova et al. | Building acoustic models for a large vocabulary continuous speech recognizer for Russian | |
| JP5885686B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, and program | |
| Munteanu et al. | Robust Romanian language automatic speech recognizer based on multistyle training | |
| Mishra et al. | Isolated Hindi digits recognition: a comparative study |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141029 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141216 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141217 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5670298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |