[go: up one dir, main page]

JP5670298B2 - Noise suppression device, method and program - Google Patents

Noise suppression device, method and program Download PDF

Info

Publication number
JP5670298B2
JP5670298B2 JP2011261767A JP2011261767A JP5670298B2 JP 5670298 B2 JP5670298 B2 JP 5670298B2 JP 2011261767 A JP2011261767 A JP 2011261767A JP 2011261767 A JP2011261767 A JP 2011261767A JP 5670298 B2 JP5670298 B2 JP 5670298B2
Authority
JP
Japan
Prior art keywords
noise
signal
model
speaker
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011261767A
Other languages
Japanese (ja)
Other versions
JP2013114151A (en
Inventor
雅清 藤本
雅清 藤本
渡部 晋治
晋治 渡部
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011261767A priority Critical patent/JP5670298B2/en
Publication of JP2013114151A publication Critical patent/JP2013114151A/en
Application granted granted Critical
Publication of JP5670298B2 publication Critical patent/JP5670298B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。   The present invention relates to a noise suppression technique for extracting a desired signal by suppressing a noise signal included in an input acoustic signal.

処理対象とする音声信号と、音声信号以外の信号(以下「雑音信号」という)とを含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。雑音抑圧に係る従来技術として非特許文献1及び2が知られている。   Conventional techniques for suppressing noise signals are known in order to make it easier to hear audio signals from acoustic signals including audio signals to be processed and signals other than audio signals (hereinafter referred to as “noise signals”). In particular, when the automatic speech recognition technology is used in an actual environment, it is necessary to remove a noise signal from an acoustic signal and extract only a desired speech signal in order to correctly perform speech recognition. The use of automatic speech recognition in the actual environment is highly expected in the information-oriented society in the future, and is a problem that should be solved as soon as possible. Non-Patent Documents 1 and 2 are known as conventional techniques related to noise suppression.

非特許文献1には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、予め推定した音声信号及び雑音信号それぞれの確率モデルから音響信号の確率モデルを生成する。その際、音響信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、音響信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。EMアルゴリズム(以下「期待値最大化法」ともいう)を用いてその差分を推定し、音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。   Non-Patent Document 1 discloses the following noise suppression method. The acoustic signal is input, and a probability model of the acoustic signal is generated from the probability models of the speech signal and the noise signal estimated in advance. At this time, the difference between the probability model of each of the speech signal and the noise signal constituting the probability model of the acoustic signal and the statistics of each of the speech signal and the noise signal included in the acoustic signal is expressed by Taylor series approximation. The difference is estimated using an EM algorithm (hereinafter also referred to as “expected value maximization method”), and the probability model of the acoustic signal is optimized. After that, noise is suppressed using the optimized acoustic signal probability model and speech signal probability model parameters.

非特許文献2には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、音響信号から雑音信号のみを推定する。推定した雑音信号を用いて、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、予め推定しておいた音声信号の確率モデルと、推定した雑音信号の確率モデルとから、音響信号の最適な確率モデルを生成する。そして、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。   Non-Patent Document 2 discloses the following noise suppression method. In order to deal with a noise signal having an acoustic signal as an input and a statistical property following a multimodal distribution, only the noise signal is estimated from the acoustic signal. Using the estimated noise signal, a stochastic model of the noise signal following the multimodal distribution is estimated by the EM algorithm. Thereafter, an optimal probability model of the acoustic signal is generated from the previously estimated probability model of the speech signal and the estimated probability model of the noise signal. Then, noise is suppressed using the optimized parameters of the acoustic signal probability model and the speech signal probability model.

P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736 藤本雅清、中谷智広、渡部晋治、「雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討」、電子情報通信学会技術研究報告、2011年5月、SP-2011−2、pp.7−12Masayoshi Fujimoto, Tomohiro Nakatani, Shinji Watanabe, “Examination of noise suppression based on robust online estimation of noise model”, IEICE Technical Report, May 2011, SP-2011-2, pp.7-12

非特許文献1は音響信号に含まれる雑音信号の特徴が定常的であり、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の特徴は非定常的であり、その分布は多峰性であることが多い。そのため、非特許文献1記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、音響信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、非特許文献1記載の技術では音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。   Non-Patent Document 1 is a technique for performing noise suppression on the premise that the characteristics of a noise signal included in an acoustic signal are stationary and the distribution (frequency distribution or probability distribution) is unimodal. However, the characteristics of noise signals in the real environment are non-stationary, and their distribution is often multimodal. For this reason, the technique described in Non-Patent Document 1 cannot cope with non-stationary noise signals, and sufficient noise suppression performance cannot be obtained. In addition, since the relationship between the audio signal and the noise signal included in the acoustic signal is expressed by a nonlinear function, an analytical solution can be obtained when estimating the parameters of the probabilistic models of the audio signal and the noise signal even if Taylor series approximation is used. I can't. For this reason, the technique described in Non-Patent Document 1 cannot obtain the optimal solution of the probability model parameters of each of the speech signal and the noise signal, and cannot obtain sufficient noise suppression performance.

非特許文献2では、音響信号から雑音信号のみを抽出し、抽出された雑音信号のみを用いて多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献2記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、非特許文献2記載の技術には以下の問題が存在する。音響信号から雑音信号のみを抽出する際には、音声信号の確率モデルが必要となる。一般に、音声信号の確率モデルは、多数話者の学習用音声データを用いて学習され、これは話者独立モデルと呼ばれる。しかし、音声信号の統計的な性質は話者によって大きく異なるので、十分な雑音抑圧性能を得るためには、音声信号の確率モデルとして話者独立モデルではなく、特定話者の学習用音声データを用いて学習された話者依存モデルか、もしくは話者独立モデルを特定話者の統計量に適応させた話者依存モデルを用いる必要がある。しかしながら、非特許文献2記載の技術では、このような話者依存モデルについて考慮されておらず、十分な雑音抑圧性能が得られない。   Non-Patent Document 2 discloses a method of extracting only a noise signal from an acoustic signal and estimating a probability model of a noise signal according to a multimodal distribution using only the extracted noise signal. Therefore, the technique described in Non-Patent Document 2 can deal with non-stationary noise signals. However, the technique described in Non-Patent Document 2 has the following problems. When extracting only a noise signal from an acoustic signal, a stochastic model of an audio signal is required. Generally, a probability model of a speech signal is learned using speech data for learning of a large number of speakers, and this is called a speaker independent model. However, since the statistical properties of speech signals vary greatly depending on the speaker, in order to obtain sufficient noise suppression performance, the speech data for learning of a specific speaker is not used as the probability model of the speech signal. It is necessary to use a speaker-dependent model learned by using the speaker-dependent model or a speaker-dependent model in which the speaker-independent model is adapted to the statistics of a specific speaker. However, the technique described in Non-Patent Document 2 does not consider such a speaker dependence model, and does not provide sufficient noise suppression performance.

また、雑音信号の確率モデルを推定し、話者独立モデルを特定話者の音声信号の統計量に適応させるためには、それぞれ雑音信号及び音声信号のみの学習データが必要となるが、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された信号のみであり、雑音信号及び音声信号のみを単独で観測することは不可能である。このため、非特許文献1では、音響信号から雑音信号もしくは音声信号のみが存在する時間区間を推定し、雑音信号もしくは音声信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号、もしくは雑音信号が存在する時間区間における音声信号を学習データとして利用することができない。そのため、当該区間で発生した雑音信号及び音声信号の変化や特徴を、雑音信号の確率モデル及び話者依存モデルに反映することができない。よって、非特許文献1では雑音信号の多峰的な分布を正確に推定し、話者独立モデルを特定話者の音声信号の統計量に適応させることが困難となる。一方、非特許文献2では前述の通り話者依存モデルについて考慮されていない。   Also, in order to estimate the stochastic model of the noise signal and adapt the speaker independent model to the statistic of the speech signal of the specific speaker, learning data of only the noise signal and the speech signal is required respectively. The signal that can be observed when performing noise suppression is only a signal in which a noise signal and a voice signal are mixed, and it is impossible to observe only the noise signal and the voice signal alone. For this reason, in Non-Patent Document 1, a time interval in which only a noise signal or a voice signal exists is estimated from an acoustic signal, and learning data of only the noise signal or the voice signal is obtained. However, in such a method, a noise signal in a time interval in which a sound signal exists or a sound signal in a time interval in which a noise signal exists cannot be used as learning data. For this reason, changes and characteristics of the noise signal and the voice signal generated in the section cannot be reflected in the noise signal probability model and the speaker dependence model. Therefore, in Non-Patent Document 1, it is difficult to accurately estimate the multimodal distribution of noise signals and adapt the speaker independent model to the statistic of the speech signal of a specific speaker. On the other hand, Non-Patent Document 2 does not consider the speaker dependence model as described above.

本発明は、音響信号に含まれる雑音信号及び音声信号を推定し、音声信号の存在有無に関わらず雑音信号を学習データとして利用して雑音信号の確率モデルに反映し、かつ雑音信号の存在有無にかかわらず音声信号を学習データとして利用して、話者独立モデルを特定話者の音声信号の統計量に適応させるためのパラメータである話者適応パラメータに反映し、多峰的な分布に基づく雑音信号の確率モデルと話者適応処理により得られた話者依存モデルとを用いて、音響信号から雑音信号を効果的に抑圧することができる雑音抑圧技術を提供することを目的とする。   The present invention estimates a noise signal and a speech signal included in an acoustic signal, uses the noise signal as learning data regardless of the presence or absence of the speech signal, reflects it in the probability model of the noise signal, and the presence or absence of the noise signal Regardless of the system, the speech signal is used as learning data, and the speaker independent model is reflected in the speaker adaptation parameter, which is a parameter for adapting to the statistic of the speech signal of a specific speaker. It is an object of the present invention to provide a noise suppression technique capable of effectively suppressing a noise signal from an acoustic signal by using a noise signal probability model and a speaker dependence model obtained by speaker adaptation processing.

上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成する。第一確率モデルと音響信号の音響特徴とに基づいて、雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習する。音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定する。音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて音響信号に含まれる雑音信号を抑圧する。   In order to solve the above problems, according to the first aspect of the present invention, a noise signal is suppressed from an acoustic signal including a noise signal and a voice signal. Extract the acoustic features of the acoustic signal. This is a stochastic model of speaker-independent speech signals that are defined as non-stationary noise-based signals that follow a multimodal distribution, and that contain many speakers' speech signals as learning data. Using a speaker adaptation parameter for adapting a speaker independent speech model to the speaker of the speech signal included in the acoustic signal, a noise model that is a stochastic model of the noise signal, and a speaker independent speech model A first probability model that is a signal probability model is generated. A noise signal is estimated based on the first probability model and the acoustic features of the acoustic signal, and the noise model is unsupervised and learned using the estimated noise signal as learning data. Using the acoustic features of the acoustic signal, the speaker independent speech model, and the noise model, the speech signal included in the acoustic signal is estimated, and the speaker adaptation parameter is unsupervised by using the estimated speech signal as learning data. The noise signal contained in the acoustic signal is suppressed using the acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter.

本発明に係る雑音抑圧技術は、音響信号に含まれる雑音信号及び音声信号を推定し、推定した雑音信号を利用して多峰的な雑音信号の確率モデルを推定し、推定した音声信号を利用して話者適応パラメータを推定することで、様々な雑音が存在する環境であっても音響信号から雑音信号を効果的に抑圧して目的とする音声信号を取り出すことができるという効果を奏する。   The noise suppression technology according to the present invention estimates a noise signal and a speech signal included in an acoustic signal, estimates a probabilistic model of a multimodal noise signal using the estimated noise signal, and uses the estimated speech signal By estimating the speaker adaptation parameters, it is possible to effectively suppress the noise signal from the acoustic signal and extract the target speech signal even in an environment where various noises exist.

第一実施形態の雑音抑圧装置の機能ブロック図。The functional block diagram of the noise suppression apparatus of 1st embodiment. 第一実施形態の雑音抑圧装置の処理フローを示す図。The figure which shows the processing flow of the noise suppression apparatus of 1st embodiment. 音響特徴量抽出部の処理フローを示す図。The figure which shows the processing flow of an acoustic feature-value extraction part. パラメータ推定部の機能ブロック図。The functional block diagram of a parameter estimation part. パラメータ推定部の処理フローを示す図。The figure which shows the processing flow of a parameter estimation part. 雑音モデル推定部の機能ブロック図。The functional block diagram of a noise model estimation part. 雑音モデル推定部の処理フローを示す図。The figure which shows the processing flow of a noise model estimation part. 話者適応パラメータ推定部の機能ブロック図。The functional block diagram of a speaker adaptive parameter estimation part. 話者適応パラメータ推定部の処理フローを示す図。The figure which shows the processing flow of a speaker adaptive parameter estimation part. 雑音抑圧部の機能ブロック図。The functional block diagram of a noise suppression part. 雑音抑圧フィルタ推定手段の処理フローを示す図。The figure which shows the processing flow of a noise suppression filter estimation means. 雑音抑圧フィルタ適用手段の処理フローを示す図。The figure which shows the processing flow of a noise suppression filter application means. 第一実施形態の雑音抑圧装置のシミュレーション結果を示す図。The figure which shows the simulation result of the noise suppression apparatus of 1st embodiment.

以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の機能を持つ構成部や同一の処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りがない限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used for the following description, constituent parts having the same function and steps for performing the same processing are denoted by the same reference numerals, and redundant description is omitted. In the following description, the symbols “^”, “ ”, etc. used in the text should be described immediately above the character that immediately follows, but are described immediately before the character due to restrictions on the text notation. To do. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is assumed to be applied to all elements of the vector or matrix unless otherwise specified.

<第一実施形態>
本実施形態においては、多峰的な分布に基づく雑音信号の確率モデル及び話者依存モデルとして、混合正規分布(Gaussian Mixture Model、以下「GMM」ともいう)を採用する。
<First embodiment>
In the present embodiment, a Gaussian Mixture Model (hereinafter also referred to as “GMM”) is adopted as a noise signal probability model and speaker-dependent model based on a multimodal distribution.

図1に示すように雑音抑圧装置100は、音響特徴抽出部104と、話者独立音声モデルを構成する無音GMMとクリーン音声GMMとが格納されるGMM記憶部107と、パラメータ推定部105と、雑音抑圧部106とを含む。雑音抑圧装置100は、音声信号sτと雑音信号nτとが混合された音響信号oτを収録し、または、入力され、音響信号oτから雑音信号nτを抑圧した雑音抑圧信号^sτを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。 As shown in FIG. 1, the noise suppression apparatus 100 includes an acoustic feature extraction unit 104, a GMM storage unit 107 that stores a silence GMM and a clean speech GMM that constitute a speaker independent speech model, a parameter estimation unit 105, Noise suppression unit 106. The noise suppression apparatus 100 records or inputs an acoustic signal o τ obtained by mixing the audio signal s τ and the noise signal n τ, and a noise suppression signal ^ s obtained by suppressing the noise signal n τ from the acoustic signal o τ. τ is output. However, (tau) represents the sample point of a discrete signal. Hereinafter, an outline of the present embodiment will be described.

図2に示すように音響特徴抽出部104は音響信号oτから雑音抑圧を実施するための特徴量である複素数スペクトルSpcと対数メルスペクトルOとを抽出する(s104)。 Acoustic feature extraction unit 104 as shown in FIG. 2 extracts the complex spectrum Spc t and logarithmic Mel spectrum O t is a feature amount for performing noise suppression of acoustic signals o τ (s104).

パラメータ推定部105は対数メルスペクトルOと、GMM記憶部107で主記憶上に保持された話者独立(Speaker Independent、以下「SI」という)の音声信号の確率モデル(以下「SI音声モデル」という)であるSIGMMのパラメータセットλSIを用いて、雑音信号の確率モデル(以下「雑音モデル」という)である雑音GMMのパラメータセットλと、SIGMMを音響信号oτに含まれる音声信号sτの話者に適応させるための話者適応パラメータbとを推定する(s105)。 The parameter estimation unit 105 includes a logarithmic mel spectrum O t and a speaker independent (Speaker Independent, hereinafter referred to as “SI”) speech signal probability model (hereinafter referred to as “SI speech model”) held in the main memory by the GMM storage unit 107. SIGMM parameter set λ SI is used, noise signal probability model (hereinafter referred to as “noise model”) noise GMM parameter set λ N , and SIGMM is the audio signal s included in the acoustic signal o τ. The speaker adaptation parameter b for adapting to the speaker of τ is estimated (s105).

雑音抑圧部106は、複素数スペクトルSpcと対数メルスペクトルOとSIGMMのパラメータセットλSIと雑音GMMのパラメータセットλと話者適応パラメータbとを用いて雑音抑圧フィルタを設計し、音響信号oτから雑音信号nτを抑圧して雑音抑圧信号^sτを得る(s106)。以下、各部の詳細を説明する。 The noise suppression unit 106 designs a noise suppression filter using the complex spectrum Spc t , the log mel spectrum O t , the SIGMM parameter set λ SI , the noise GMM parameter set λ N, and the speaker adaptation parameter b, The noise signal n τ is suppressed from o τ to obtain a noise suppression signal ^ s τ (s106). Details of each part will be described below.

<音響特徴抽出部104>
音響特徴抽出部104は、音響信号oτを受け取り、音響信号oτの音響特徴を抽出し(s104)、パラメータ推定部105と雑音抑圧部106とに出力する。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
<Acoustic Feature Extraction Unit 104>
Acoustic feature extraction unit 104 receives the acoustic signal o tau, extracted acoustic features of the audio signal o tau (s104), and outputs to the parameter estimation unit 105 and the noise suppression unit 106. The extracted acoustic features are used when a noise signal is suppressed from an acoustic signal, and are, for example, a complex spectrum and a log mel spectrum. For example, the acoustic feature extraction unit 104 performs processing according to the flow shown in FIG.

まず、ある周波数(例えば16,000Hz)で標本化された音響信号oτを時間軸方向に一定時間幅(シフト幅)で始点を移動させながら、一定時間長(フレーム幅)の音響信号をフレームとして切り出す(s201)。例えばフレーム幅Frame=320個のサンプル点(16,000Hz×20ms)の音響信号o={ot,0,ot,1,…,ot,n,…,ot,Frame−1}を、シフト幅Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wを掛け合わせて切り出してもよい。 First, while moving the start point at a certain frequency (e.g. 16,000Hz) in the sampled sound signal o tau the time axis direction in a predetermined time width (shift width), the frame acoustic signal for a predetermined time length (frame width) Is cut out (s201). For example acoustic signals of the frame width Frame = 320 samples points (16,000Hz × 20ms) o t = {o t, 0, o t, 1, ..., o t, n, ..., o t, Frame-1} Is cut out while shifting the start point by shift width Shift = 160 sample points (16,000 Hz × 10 ms). Here, t represents the frame number, and n represents the nth sample point in the frame. Note that when an acoustic signal of a plurality of channels is input, a frame may be cut out for each channel. Further, when cutting out the frame, it may be excised for example by multiplying the window function w n, such as the following Hamming window.

Figure 0005670298
Figure 0005670298

次に、音響特徴抽出部104は音響信号ot,nに対してM点の高速フーリエ変換処理を適用して、複素数スペクトルSpc={Spct,0,…,Spct,m,…,Spct,M−1}を得る(s202)。但し、Mは2のべき乗、かつフレーム幅Frame以上の値を設定する必要があり、例えば512とする。またmは周波数ビンの番号である。 Next, the acoustic feature extraction unit 104 applies an M-point fast Fourier transform process to the acoustic signal ot , n to thereby calculate a complex spectrum Spc t = {Spc t, 0 ,..., Spc t, m ,. Spc t, M-1 } is obtained (s202). However, M must be set to a power of 2 and a value equal to or larger than the frame width Frame, for example, 512. M is the frequency bin number.

次に、音響特徴抽出部104は、Spct,mの絶対値に対してメルフィルタバンク分析を行い(s203)、フィルタバンクの出力に対し、対数化処理を適用する(s204)。このような処理により、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトル(以下、このベクトルを単に「対数メルスペクトル」という)O={Ot,0,…,Ot,r,…,Ot,R−1}を算出する。但しrはベクトルの要素番号を示す。すなわち、音響特徴抽出部104の出力は複素数スペクトルSpcと対数メルスペクトルOである。複素数スペクトルSpcは、雑音抑圧部106の入力となり、対数メルスペクトルOは、パラメータ推定部105と、雑音抑圧部106との入力となる。 Next, the acoustic feature extraction unit 104 performs mel filter bank analysis on the absolute value of Spct , m (s203), and applies logarithmic processing to the output of the filter bank (s204). By such processing, a vector having an R-dimensional (for example, R = 24) log mel spectrum as an element (hereinafter, this vector is simply referred to as “log mel spectrum”) O t = {O t, 0 ,..., O t , R 1 ,..., O t, R−1 } is calculated. However, r shows the element number of a vector. That is, the output of the acoustic feature extraction unit 104 is the complex spectrum Spt t and the log mel spectrum O t . Complex spectrum Spc t becomes the input of the noise suppressor 106, logarithmic Mel spectrum O t is a parameter estimation unit 105, the input of the noise suppressor 106.

<GMM記憶部107>
図示しない記憶部には、雑音を含まない、多数話者の音声信号を学習データとして学習されたSIGMMが予め記憶される。SIGMMは無音GMMとクリーン音声GMMとからなる。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
SIGMMは次式により与えられる。
<GMM storage unit 107>
A storage unit (not shown) stores in advance SIGMMs that are learned using voice signals of many speakers without learning noise as learning data. The SIGMM consists of a silent GMM and a clean voice GMM. The silent GMM is a GMM learned based on an acoustic signal acquired from a silent part of a voice signal that does not include a noise signal, and the clean voice GMM is based on an acoustic signal consisting only of a voice excluding the silent part in a noise-free environment. It is a learned GMM.
SIGMM is given by:

Figure 0005670298
Figure 0005670298

但し、jは無音GMMと、クリーン音声GMMとを識別するインデックスであり、j=0は無音GMMを、j=1はクリーン音声GMMを示す。また、kは無音GMMもしくはクリーン音声GMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=128)。また、Sは雑音を含まない、音声信号の対数メルスペクトルであり、bSI,j(S)はSIGMMの尤度である。wSI,j,kとμSI,j,kとΣSI,j,kとはそれぞれSIGMMの混合重みと平均ベクトルと対角分散行列であり、多数話者の学習用音声データを用いて事前に推定しておく。なお、SIGMMのパラメータセット(以下「SIモデルパラメータセット」ともいう)をλSI={wSI,j,k,μSI,j,k,ΣSI,j,k}と定義する。下付添え字SIは、SIGMMに係る尤度やパラメータであることを示している。関数N(・)は、次式で与えられる多次元正規分布の確率密度関数である。 Here, j is an index for identifying the silent GMM and the clean voice GMM, j = 0 indicates the silent GMM, and j = 1 indicates the clean voice GMM. Further, k is a normal distribution number included in the silent GMM or the clean speech GMM, and K is the total normal distribution number (for example, K = 128). Further, S t is free of noise, the logarithm Mel spectrum of the speech signal, b SI, j (S t ) is the likelihood of SIGMM. w SI, j, k and μ SI, j, k and ΣSI , j, k are the SIGMM mixture weight, average vector and diagonal dispersion matrix, respectively , and are preliminarily used by learning speech data for many speakers. To estimate. A SIGMM parameter set (hereinafter also referred to as “SI model parameter set”) is defined as λ SI = {w SI, j, k , μ SI, j, k , ΣSI , j, k }. The subscript SI indicates a likelihood or parameter related to SIGMM. The function N (•) is a probability density function of a multidimensional normal distribution given by the following equation.

Figure 0005670298
Figure 0005670298

上式において「」は転置を表す。
以下、本実施形態で用いる話者依存モデルである話者依存GMM(Speaker Dependent GMM、以下「SDGMM」という)と雑音モデルである雑音GMMについて概略を説明する。SDGMMは、特定話者の学習用音声データから推定されたパラメータから構成されるGMMである。前述の通り、話者依存モデルとして、特定話者の学習用音声データを用いて学習されたモデルか、もしくは話者独立モデルを特定話者の統計量に適応させたモデルがある。特定話者の学習用音声データのみからSDGMMを得ることは、実用上、現実的ではないため、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得る。すなわち、次式の話者適応処理によりSIGMMの平均ベクトルμSI,j,kをSDGMMの平均ベクトルμSD,j,kに変換する。
In the above formula, “ T ” represents transposition.
Hereinafter, a speaker-dependent GMM (Speaker Dependent GMM, hereinafter referred to as “SDGMM”), which is a speaker-dependent model used in the present embodiment, and a noise GMM, which is a noise model, will be outlined. The SDGMM is a GMM composed of parameters estimated from voice data for learning of a specific speaker. As described above, the speaker dependence model includes a model learned using speech data for learning of a specific speaker, or a model in which a speaker independent model is adapted to the statistics of the specific speaker. Obtaining an SDGMM from only speech data for learning of a specific speaker is impractical in practice, and in this embodiment, an SDGMM is obtained by performing speaker adaptation processing on the SIGMM. That is, the SIGMM average vector μSI , j, k is converted into the SDGMM average vector μSD , j, k by the speaker adaptation processing of the following equation.

Figure 0005670298
Figure 0005670298

上式においてbはR次元ベクトルで構成される話者適応パラメータであり、j、kに対して独立のパラメータとする。なお、下付添え字SDはSDGMMに係る尤度やパラメータであることを示している。
また、雑音GMMは次式により与えられる。
In the above equation, b is a speaker adaptation parameter composed of an R-dimensional vector, and is an independent parameter for j and k. The subscript SD indicates the likelihood and parameters related to SDGMM.
The noise GMM is given by the following equation.

Figure 0005670298
Figure 0005670298

上式においてl(エル)は雑音GMMに含まれる正規分布の番号、Lは総正規分布数である(例えばL=4)。また、Nは雑音信号の対数メルスペクトルであり、b(N)は雑音GMMの尤度である。wN,lとμN,lとΣN,lとはそれぞれ雑音GMMの混合重みと平均ベクトルと対角分散行列である。以後、雑音GMMのパラメータセット(以下「雑音モデルパラメータセット」ともいう)をλ={wN,l,μN,l,ΣN,l}と定義する。なお、下付添え字Nは、雑音GMMに係る尤度やパラメータであることを示している。 In the above equation, l is a normal distribution number included in the noise GMM, and L is the total normal distribution number (for example, L = 4). N t is a log mel spectrum of the noise signal, and b N (N t ) is the likelihood of the noise GMM. w N, l and μ N, l and ΣN , l are the noise GMM mixing weight, average vector and diagonal dispersion matrix, respectively. Hereinafter, a noise GMM parameter set (hereinafter also referred to as a “noise model parameter set”) is defined as λ N = {w N, l , μ N, l , Σ N, l }. Note that the subscript N indicates the likelihood or parameter related to the noise GMM.

非特許文献1では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、GMMにて表現している。なお、後述のパラメータ推定部105において、雑音モデルを教師無し学習する。   In Non-Patent Document 1, noise suppression is performed on the assumption that the characteristics of a noise signal are stationary and the distribution is unimodal. On the other hand, in the present embodiment, the noise signal is defined as a signal based on non-stationary noise following a multimodal distribution, and the noise model is expressed by GMM instead of a single normal distribution. The parameter estimation unit 105 described later performs unsupervised learning of the noise model.

また、非特許文献2では、話者依存モデルを用いない。一方、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得て、雑音抑圧において話者依存モデルを用いる。なお、後述のパラメータ推定部105において、適応パラメータを推定する。   In Non-Patent Document 2, the speaker dependence model is not used. On the other hand, in this embodiment, speaker adaptation processing is performed on the SIGMM to obtain an SDGMM, and a speaker dependence model is used in noise suppression. Note that an adaptive parameter is estimated by a parameter estimation unit 105 described later.

<パラメータ推定部105>
パラメータ推定部105は対数メルスペクトルOとSIモデルパラメータセットλSIとを受け取り、これらの値を用いて、雑音モデルパラメータセットλと話者適応パラメータbとを最適推定し(s105)、雑音抑圧部106に出力する。
<Parameter estimation unit 105>
The parameter estimation unit 105 receives the log mel spectrum O t and the SI model parameter set λ SI, and uses these values to optimally estimate the noise model parameter set λ N and the speaker adaptation parameter b (s105), and noise. The result is output to the suppression unit 106.

パラメータ推定部105において,雑音モデルパラメータセットλと話者適応パラメータbは、入れ子構造となった3種類のEMアルゴリズムにより推定する。以後、第一EMアルゴリズム、第2EMアルゴリズム及び第3EMアルゴリズムと呼ぶ。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E-step)と、コスト関数を最大化するMaximization-step(M-step)とを収束条件を満たすまで繰り返すことによりパラメータを最適推定する。 In the parameter estimation unit 105, the noise model parameter set λ N and the speaker adaptation parameter b are estimated by three types of nested EM algorithms. Hereinafter, they are referred to as a first EM algorithm, a second EM algorithm, and a third EM algorithm. The EM algorithm is a method used for parameter estimation of a certain probability model, and expectation-step (E-step) for calculating the expected value of the cost function (log likelihood function) of the probability model and maximizing the cost function. The parameter is optimally estimated by repeating Maximization-step (M-step) to satisfy the convergence condition.

パラメータ推定部105は、第一初期値推定手段302と第一確率モデル生成手段303と第一期待値計算手段304と雑音モデル推定手段305と話者適応パラメータ推定手段306と第一収束判定手段307とを含む(図4参照)。図5を用いてパラメータ推定部105の処理フローを説明する。   The parameter estimation unit 105 includes a first initial value estimation unit 302, a first probability model generation unit 303, a first expected value calculation unit 304, a noise model estimation unit 305, a speaker adaptive parameter estimation unit 306, and a first convergence determination unit 307. (See FIG. 4). The processing flow of the parameter estimation unit 105 will be described with reference to FIG.

(第一初期値推定手段302)
第一初期値推定手段302は第一EMアルゴリズムの繰り返しインデックスiを初期化する(s301)。例えばi=1とする。さらに、第一初期値推定手段302は音響信号oの対数メルスペクトルOを受け取り、この値を用いて第一EMアルゴリズムにおける雑音モデルパラメータセットλの初期値λ (i=0)={wN,l (i=0),μN,l (i=0),ΣN,l (i=0)}を以下の式(6)〜(8)により推定し、話者適応パラメータbの初期値を以下の式(9)により設定し(s302)、第一確率モデル生成手段303に出力する。
(First initial value estimation means 302)
The first initial value estimating means 302 initializes the repetition index i of the first EM algorithm (s301). For example, i = 1. Further, the first initial value estimating means 302 receives the logarithmic mel spectrum O t of the acoustic signal o t and uses this value to set the initial value λ N (i = 0) of the noise model parameter set λ N in the first EM algorithm. {W N, l (i = 0) , μ N, l (i = 0) , Σ N, l (i = 0) } are estimated by the following equations (6) to (8), and the speaker adaptation parameters The initial value of b is set by the following equation (9) (s302) and output to the first probability model generation means 303.

Figure 0005670298
Figure 0005670298

上式において、0は全ての要素が0のベクトル、Uは初期値推定に要するフレーム数である(例えばU=10)。diagはかっこ内を要素とする対角行列を、上付添え字(i)は第一EMアルゴリズムにおける、i回目の繰り返し推定におけるパラメータであることを示す。 In the above formula, - 0 vector of all elements 0, U is the number of frames required for the initial value estimation (e.g. U = 10). “diag” indicates a diagonal matrix having elements in parentheses, and the superscript (i) indicates a parameter in the i-th iteration estimation in the first EM algorithm.

(第一確率モデル生成手段303)
第一確率モデル生成手段303は、i−1回目の繰り返し推定における雑音モデルパラメータセットλ(i−1) と話者適応パラメータb(i−1)とを後述する第一収束判定手段307から受け取る。但し、i−1回目の雑音モデルパラメータセットλ (i−1)及び話者適応パラメータb(i−1)が存在しない場合、つまり、0回目の場合、前述の初期値λ (i=0)及びb(i=0)を第一初期値推定手段302から受け取る。さらに第一確率モデル生成手段303は、SIモデルパラメータセットλSIを受け取り、これらの値を利用して、音響信号oの対数メルスペクトルOの確率モデル(以下「第一確率モデル」という)を以下のようなGMMで構成する。
(First probability model generation means 303)
The first probability model generation unit 303 obtains the noise model parameter set λ (i−1) N and the speaker adaptation parameter b (i−1) in the i− 1th iterative estimation from the first convergence determination unit 307 described later. receive. However, if the i−1th noise model parameter set λ N (i−1) and the speaker adaptation parameter b (i−1) do not exist, that is, in the 0th time, the initial value λ N (i = 0) and b (i = 0) are received from the first initial value estimating means 302. Further first probability model generation unit 303 receives the SI model parameter set lambda SI, using these values, the probability model of the logarithmic Mel spectrum O t of the audio signal o t (hereinafter referred to as "first probability model") Is composed of the following GMM.

Figure 0005670298
Figure 0005670298

上式においてbO1,j(O)は対数メルスペクトルOの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO1,j,k,l (i)とμO1,j,k,l (i)とΣO1,j,k,l (i)とは、i−1回目の繰り返し推定における雑音モデルパラメータセットλ (i−1)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとから生成された、対数メルスペクトルOの確率モデルの混合重みと平均ベクトルと対角分散行列とであり、以下の式(11)〜(13)で与えられる。 In the above equation, b O1, j (O t ) is the likelihood of the probability model of the log mel spectrum O t , the function N (•) is given by equation (3), and w O1, j, k, l (i ) , Μ O1, j, k, l (i) and ΣO1, j, k, l (i) are the noise model parameter set λ N (i-1) and the speaker in the i− 1th iteration estimation. The mixture weight, average vector, and diagonal dispersion matrix of the probability model of the log mel spectrum O t generated from the adaptive parameter b (i−1) and the SI model parameter set λ SI , and the following equation (11) It is given by (13).

Figure 0005670298
Figure 0005670298

上式において関数log(・)とexp(・)は、ベクトルの要素r毎に演算を行う。また、1は全ての要素が1のベクトル、Iは単位行列、Hj,k,l (i)は関数h(・)のヤコビ行列である。 In the above equation, the functions log (•) and exp (•) perform an operation for each element r of the vector. Also, - 1 vector of all elements 1, I is the identity matrix, H j, k, l ( i) is the Jacobian matrix of the function h (·).

第一確率モデルのパラメータセット(以下「第一確率モデルパラメータセット」という)をλO1 (i)={wO1,j,k,l (i),μO1,j,k,l (i),ΣO1,j,k,l (i)}と定義する。 A parameter set of the first probability model (hereinafter referred to as “first probability model parameter set”) is expressed as λ O1 (i) = {w O1, j, k, l (i) , μ O1, j, k, l (i) , ΣO1, j, k, l (i) }.

第一確率モデル生成手段303は、式(11)〜(13)に基づきλO1 (i)を生成し(s303)、第一期待値計算手段304と雑音モデル推定手段305とに出力する。
(第一期待値計算手段304)
第一期待値計算手段304は、第一確率モデルパラメータセットλO1 (i)と音響信号oの対数メルスペクトルOとを受け取り、i回目の繰り返し推定における対数メルスペクトルOの確率モデルのコスト関数Q(・)の期待値を次式により計算する(第一EMアルゴリズムのE−step)(s304)。
The first probability model generation unit 303 generates λ O1 (i) based on the equations (11) to (13) (s303), and outputs it to the first expected value calculation unit 304 and the noise model estimation unit 305.
(First expected value calculation means 304)
First expectation value calculation unit 304 receives the first probabilistic model parameter set lambda O1 (i) and a logarithmic Mel spectrum O t of the audio signal o t, the probability model of the logarithmic Mel spectral O t in the i-th repetition estimate The expected value of the cost function Q 1 (•) is calculated by the following equation (E-step of the first EM algorithm) (s304).

Figure 0005670298
Figure 0005670298

上式において、O0:T−1={O,…,O,…,OT−1}であり、Tは対数メルスペクトルOの総フレーム数であり、Pt,j (i)は式(16)で与えられるフレームtにおけるGMM種別jに対する事後確率である。特にPt,j=0 (i)を音声非存在確率、Pt,j=1 (i)を音声存在確率と定義する。Pt,j,k,l (i)は式(17)で与えられるフレームtにおける正規分布番号kとlとに対する事後確率である。λO1 (i)={wO1,j,k,l (i),μO1,j,k,l (i),ΣO1,j,k,l (i)}は式(11)〜(13)で与えられる。 In the above equation, O 0: T−1 = {O 0 ,..., O t ,..., O T−1 }, T is the total number of frames of the log mel spectrum O t , and P t, j (i ) Is a posterior probability for GMM type j in frame t given by equation (16). In particular, P t, j = 0 (i) is defined as a speech non-existence probability, and P t, j = 1 (i) is defined as a speech presence probability. P t, j, k, l (i) is the posterior probability for normal distribution numbers k and l in frame t given by equation (17). λ O1 (i) = {w O1, j, k, l (i) , μO1, j, k, l (i) , ΣO1, j, k, l (i) } 13).

Figure 0005670298
Figure 0005670298

第一期待値計算手段304は、求めた第一期待値Qを第一収束判定手段307に、事後確率Pt,j (i)、Pt,j,k,l (i)を雑音モデル推定手段305に出力する。 The first expected value calculation unit 304 uses the obtained first expected value Q 1 as the first convergence determination unit 307 and the posterior probabilities P t, j (i) and P t, j, k, l (i) as noise models. It outputs to the estimation means 305.

なお、第一EMアルゴリズムのM−stepは、以下の雑音モデル推定手段305と話者適応パラメータ推定手段306における処理からなる。雑音モデル推定手段305内の雑音モデルパラメータ推定手段402において第二EMアルゴリズムが実施され、話者適応パラメータ推定手段306内の話者適応パラメータ更新手段503において第三アルゴリズムが実施される。   The M-step of the first EM algorithm includes the following processing in the noise model estimation unit 305 and the speaker adaptive parameter estimation unit 306. The second EM algorithm is implemented in the noise model parameter estimation means 402 in the noise model estimation means 305, and the third algorithm is implemented in the speaker adaptation parameter update means 503 in the speaker adaptation parameter estimation means 306.

(雑音モデル推定手段305)
雑音モデル推定手段305は、第一確率モデルパラメータセットλO1 (i)と音響信号oの対数メルスペクトルOと事後確率Pt,j (i)、Pt,j,k,l (i)を受け取り、これらの値を用いて、雑音信号の対数メルスペクトルNを推定し、推定した雑音信号^Nを学習データとして雑音モデルを教師無し学習し(s305)、雑音モデルパラメータセットλ (i)を話者適応パラメータ推定手段306と第一収束判定手段307とに出力する。雑音モデル推定手段305は、雑音信号推定手段401と雑音モデルパラメータ推定手段402とを備える(図6参照)。
(Noise model estimation means 305)
Noise model estimating means 305, logarithmic Mel spectrum O t and the posterior probability P t of the first probabilistic model parameter set λ O1 (i) an acoustic signal o t, j (i), P t, j, k, l (i ) And using these values, the log mel spectrum N t of the noise signal is estimated, and the noise model ^ N t is used as learning data to train the noise model unsupervised (s305), and the noise model parameter set λ N (i) is output to speaker adaptive parameter estimation means 306 and first convergence determination means 307. The noise model estimation unit 305 includes a noise signal estimation unit 401 and a noise model parameter estimation unit 402 (see FIG. 6).

[雑音信号推定手段401]
雑音信号推定手段401は、対数メルスペクトルOを用いて、雑音信号の対数メルスペクトルNを推定する(図7のs401)。例えば、雑音信号推定手段401は、事後確率Pt,j (i)、Pt,j,k,l (i)と、第一確率モデルパラメータセットλO1 (i)(に含まれる平均ベクトルμO1,j=1,k,l (i))と、対数メルスペクトルOと、i−1回目の繰り返し推定における雑音モデルパラメータセットλ (i−1)(に含まれる平均ベクトルμ (i−1))とを受け取り、これらの値を用いて、雑音モデルパラメータセットλ (i−1)を更新するために用いる雑音信号の対数メルスペクトルN (i)を推定し、推定値^N (i)を雑音モデルパラメータ推定手段402に出力する。雑音の対数メルスペクトルN (i)は、次式により推定される。
[Noise signal estimation means 401]
The noise signal estimation means 401 estimates the log mel spectrum N t of the noise signal using the log mel spectrum O t (s401 in FIG. 7). For example, the noise signal estimation unit 401 uses the posterior probabilities P t, j (i) , P t, j, k, l (i) and the average vector μ included in the first probability model parameter set λ O1 (i) ( O1, j = 1, k, l (i) ), the log mel spectrum O t, and the noise vector parameter set λ N (i−1) (in the i− 1th iteration estimation, the average vector μ N ( i-1) ) and using these values, the log mel spectrum N t (i) of the noise signal used to update the noise model parameter set λ N (i-1 ) is estimated, and the estimated value ^ N t (i) is output to the noise model parameter estimation means 402. The log mel spectrum N t (i) of noise is estimated by the following equation.

Figure 0005670298
Figure 0005670298

[雑音モデルパラメータ推定手段402]
雑音モデルパラメータ推定手段402は、雑音信号の対数メルスペクトルの推定値^N (i)を受け取り、これを学習データとして、雑音モデルパラメータセットλ (i)を推定し(図7のs402〜s407)、第一収束判定手段307と話者適応パラメータ推定手段306とに出力する。雑音モデルパラメータセットλ (i)の具体的な推定方法(s402〜s407)については後述する。
[Noise model parameter estimation means 402]
The noise model parameter estimator 402 receives the estimated log mel spectrum value {circumflex over ( N ) } t (i) of the noise signal, and estimates the noise model parameter set λ N (i) as learning data (from s402 to s402 in FIG. 7 ) . s407), and outputs the result to the first convergence determination unit 307 and the speaker adaptation parameter estimation unit 306. A specific estimation method (s402 to s407) of the noise model parameter set λ N (i ) will be described later.

(話者適応パラメータ推定手段306)
話者適応パラメータ推定手段306は、対数メルスペクトルOとSIモデルパラメータセットλSIと雑音モデルパラメータセットλ (i)とを受け取り、これらの値を用いて、音響信号oに含まれる音声信号sを推定し、推定した音声信号^sを学習データとして、話者適応パラメータb(i)を教師無し推定し(図5のs306)、第一収束判定手段307に出力する。
(Speaker adaptive parameter estimation means 306)
Speaker adaptation parameter estimation section 306 receives the log-Mel spectrum O t and SI model parameter set lambda SI and noise model parameter set λ N (i), using these values, the speech contained in the audio signal o t estimating the signal s t, as learning data the estimated speech signal ^ s t, speaker adaptation parameter b (i) and the estimated unsupervised (s306 in Fig. 5) to the first convergence determining means 307.

話者適応パラメータ推定手段306は、第二確率モデル生成手段501と音声信号推定手段502と話者適応パラメータ更新手段503とを備える(図8参照)。
[第二確率モデル生成手段501]
第二確率モデル生成手段501は、雑音モデルパラメータセットλ (i)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとを受け取り、これらの値を利用して、対数メルスペクトルOの確率モデル(以下「第二確率モデル」という)を以下のようなGMMで構成する。
The speaker adaptation parameter estimation unit 306 includes second probability model generation unit 501, speech signal estimation unit 502, and speaker adaptation parameter update unit 503 (see FIG. 8).
[Second probability model generation means 501]
The second probability model generation means 501 receives the noise model parameter set λ N (i) , the speaker adaptation parameter b (i−1), and the SI model parameter set λ SI, and uses these values to calculate the logarithmic mel. A probability model (hereinafter referred to as “second probability model”) of the spectrum O t is configured by the following GMM.

Figure 0005670298
Figure 0005670298

上式において、bO2,j(O)は対数メルスペクトルOの確率モデルの尤度であり、関数N(・)は式(3)で与えられ、wO2,j,k,l (i)、μO2,j,k,l (i)、ΣO2,j,k,l (i)は、それ第二確率モデルの混合重みと平均ベクトルと対角分散行列とであり、式(20)〜(22)で与えられる。 In the above equation, b O2, j (O t ) is the likelihood of the probability model of the log mel spectrum O t , the function N (•) is given by equation (3), and w O2, j, k, l ( i) , μ O2, j, k, l (i) , ΣO2 , j, k, l (i) are the mixture weight, average vector, and diagonal dispersion matrix of the second probability model, 20) to (22).

Figure 0005670298
Figure 0005670298

第二確率モデルのパラメータセット(以下「第二確率モデルパラメータセット」という)をλO2 (i)={wO2,j,k,l (i),μO2,j,k,l (i),ΣO2,j,k,l (i)}と定義する。
第二確率モデル生成手段501は、式(20)〜(22)に基づき第二確率モデルパラメータセットλO2 (i)を生成し(図9のs501)、λO2 (i)と対数メルスペクトルOとSIモデルパラメータセットλSIとを音声信号推定手段502に出力する。
A parameter set of the second probability model (hereinafter referred to as “second probability model parameter set”) is expressed as λ O2 (i) = {w O2, j, k, l (i) , μO2, j, k, l (i) , ΣO2 , j, k, l (i) }.
The second probability model generation means 501 generates a second probability model parameter set λ O2 (i) based on the equations (20) to (22) (s501 in FIG. 9), and λ O2 (i) and the log mel spectrum O t and the SI model parameter set λ SI are output to the speech signal estimating means 502.

[音声信号推定手段502]
音声信号推定手段502は、対数メルスペクトルOとSIモデルパラメータセットλSI(に含まれる平均ベクトルμSI,J,k)と第二確率モデルパラメータセットλO2 (i)とi−1回目の繰り返し推定における話者適応パラメータb(i−1)とを受け取り、これらの値を用いて、話者適応パラメータb(i)を更新するために用いる、音響信号oに含まれるクリーン音声の対数メルスペクトルSを次式により推定し(s502)、推定値^S (i)を話者適応パラメータ更新手段503に出力する。
[Speech signal estimation means 502]
The speech signal estimation means 502 uses the log mel spectrum O t , the SI model parameter set λ SI (the average vector μ SI, J, k ) included in the second probability model parameter set λ O2 (i), and the i−1th time. receiving a speaker adaptation in the repeating estimated parameter b (i-1), using these values, is used to update the speaker adaptation parameter b (i), the clean speech of logarithm contained in the audio signal o t The mel spectrum S t is estimated by the following equation (s502), and the estimated value tS t (i) is output to the speaker adaptive parameter updating unit 503.

Figure 0005670298
Figure 0005670298

なお、事後確率Pt,j (i)、Pt,j,k,l (i)は、第一確率モデルパラメータセットλO1 (i)に代えて第二確率モデルパラメータセットλO2 (i)を用いて、式(16)、(17)により与えられる。 Incidentally, the posterior probability P t, j (i), P t, j, k, l (i) , the second probability model parameter set lambda O2 instead of the first probabilistic model parameter set λ O1 (i) (i) Is given by equations (16) and (17).

[話者適応パラメータ更新手段503]
話者適応パラメータ更新手段503は、推定したクリーン音声の対数メルスペクトル^S (i)とSIモデルパラメータセットλSIとを受け取り、これらの値を用いて話者適応パラメータb(i−1)を更新し(図9のs503〜s508)、第一収束判定手段307に出力する。話者適応パラメータb(i)の具体的な更新方法(s503〜s508)については後述する。
[Speaker adaptive parameter update means 503]
The speaker adaptation parameter update means 503 receives the log mel spectrum ^ S t (i) of the estimated clean speech and the SI model parameter set λ SI, and uses these values to determine the speaker adaptation parameter b (i−1). Is updated (s503 to s508 in FIG. 9) and output to the first convergence determination means 307. A specific updating method (s503 to s508) of the speaker adaptation parameter b (i ) will be described later.

(第一収束判定手段307)
第一収束判定手段307は、第一期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(図5のs307)、満たす場合はλ=λ (i)、b=b(i)とし、λとbを雑音抑圧部106に出力しパラメータ推定部105の処理を終了する。満たさない場合はλ (i)とb(i)を第一確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q(O0:T−1,b(i),λ (i))と一つ前の第一期待値Q(O0:T−1,b(i−1),λ (i−1))との差が所定値η以下である場合や、繰り返し回数iが所定値I以上になった場合等とすることができる。例えば次式で表すことができる。
(First convergence determination means 307)
First convergence determining means 307 receives the first expected value Q 1, to determine the convergence condition is satisfied whether using this value (s307 in Fig. 5), if it meets λ N = λ N (i) , B = b (i) , λ N and b are output to the noise suppression unit 106, and the processing of the parameter estimation unit 105 ends. If not satisfied, λ N (i) and b (i) are output to the first probability model generation means 303, and as i ← i + 1 (s308), a control signal is output to each unit so that iterative processing is performed. The process of s306 is repeated. For example, the convergence condition includes the latest first expected value Q 1 (O 0: T−1 , b (i) , λ N (i) ) and the previous first expected value Q 1 (O 0: T− 1 , b (i−1) , λ N (i−1) ) is less than or equal to a predetermined value η 1, or the number of repetitions i is greater than or equal to a predetermined value I 1. . For example, it can be expressed by the following formula.

Figure 0005670298
Figure 0005670298

であり、例えば、η=0.0001、I=100である。
<雑音モデルパラメータ推定手段402の詳細>
雑音モデルパラメータ推定手段402は、第二初期値推定手段403と第二期待値計算手段404とパラメータ更新手段405と第二収束判定手段406とを含む(図6参照)。図7を用いて雑音モデルパラメータ推定手段402の処理内容を説明する。
For example, η 1 = 0.0001 and I 1 = 100.
<Details of Noise Model Parameter Estimation Unit 402>
The noise model parameter estimation unit 402 includes a second initial value estimation unit 403, a second expected value calculation unit 404, a parameter update unit 405, and a second convergence determination unit 406 (see FIG. 6). The processing contents of the noise model parameter estimation unit 402 will be described with reference to FIG.

(第二初期値推定手段403)
第二初期値推定手段403は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスi’を初期化する(s402)。例えば、i’=1とする。次に第二初期値推定手段403は、推定した雑音信号の対数メルスペクトル^N (i)を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータセットλ (i’)の初期値λ (i’=0)={wN,l (i’=0),μN,l (i’=0),ΣN,l (i’=0)}を式(26)〜(30)により推定し(s403)、第二期待値計算手段404に出力する。
(Second initial value estimating means 403)
The second initial value estimation means 403 first initializes an index i ′ indicating the number of repetitions of the second EM algorithm (s402). For example, i ′ = 1. Next, the second initial value estimation means 403 receives the logarithmic mel spectrum ^ N t (i) of the estimated noise signal, and uses this value for the noise model parameter set λ N (i ′) in the second EM algorithm. Initial values λ N (i ′ = 0) = {w N, l (i ′ = 0) , μ N, l (i ′ = 0) , Σ N, l (i ′ = 0) } To (30) (s403) and output to the second expected value calculation means 404.

Figure 0005670298
Figure 0005670298

上式において、上付添え字(i’)はi’回目の繰り返し推定におけるパラメータであることを示す。また、GaussRand(a,b)は平均a、分散bの正規乱数の発生器である。 In the above equation, the superscript (i ′) indicates a parameter in the i′-th iteration estimation. GaussRand (a, b) is a generator of normal random numbers having an average a and a variance b.

(第二期待値計算手段404)
第二期待値計算手段404は、推定した雑音信号の対数メルスペクトル^N (i)を雑音信号推定手段401から受け取る。また第二EMアルゴリズムにおける雑音モデルパラメータセットλ (i’−1)を第二収束判定手段406から受け取る。但し、i’−1回目の雑音モデルパラメータセットλ (i’−1)が存在しない場合、つまり、0回目の場合、前述の初期値λ (i’=0)を第二初期値推定手段403から受け取る。これらの値を用いて第二期待値計算手段404はi’回目の繰り返し推定における雑音GMMのコスト関数Q(・)の期待値を式(31)により計算し(第二EMアルゴリズムのE−step)(s404)、第二収束判定手段406に出力する。
(Second expected value calculation means 404)
The second expected value calculation unit 404 receives the logarithmic mel spectrum ^ N t (i) of the estimated noise signal from the noise signal estimation unit 401. Also, the noise model parameter set λ N (i′−1) in the second EM algorithm is received from the second convergence determination means 406. However, if the i′-1th noise model parameter set λ N (i′−1) does not exist, that is, in the 0th time, the above-mentioned initial value λ N (i ′ = 0) is used as the second initial value estimation. Receive from means 403. Using these values, the second expected value calculation means 404 calculates the expected value of the cost function Q 2 (•) of the noise GMM in the i′-th iterative estimation according to the equation (31) (E− of the second EM algorithm). step) (s404) and output to the second convergence determination means 406.

Figure 0005670298
Figure 0005670298

上式において、^N0:T−1 (i)={^N (i),…,^N (i),…,^NT−1 (i)}であり、
関数N(・)は式(3)で与えられ、Pt,l (i’)は次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。
In the above equation, ^ N 0: T-1 (i) = {^ N 0 (i) , ..., ^ N t (i) , ..., ^ N T-1 (i) },
The function N (•) is given by equation (3), and P t, l (i ′) is the posterior probability for the normal distribution number l in the frame t given by the following equation.

Figure 0005670298
Figure 0005670298

第二期待値計算手段404は、求めたPt,l (i’)をパラメータ更新手段405に出力する。
(パラメータ更新手段405)
パラメータ更新手段405は、事後確率Pt,l (i’)と対数メルスペクトル^N (i)とを受け取り、雑音モデルパラメータセットλ (i’−1)を次式により更新し(第二EMアルゴリズムのM−step)(s405)、更新した雑音モデルパラメータセットλ (i’)を第二収束判定手段406に出力する。
The second expected value calculation unit 404 outputs the obtained P t, l (i ′) to the parameter update unit 405.
(Parameter update means 405)
The parameter updating means 405 receives the posterior probability P t, l (i ′) and the log mel spectrum ^ N t (i), and updates the noise model parameter set λ N (i′−1) by the following equation (first The second EM algorithm M-step) (s405) and the updated noise model parameter set λ N (i ′) are output to the second convergence determination means 406.

Figure 0005670298
Figure 0005670298

(第二収束判定手段406)
第二収束判定手段406は、第二期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(s406)、満たす場合はλ (i)=λ (i’)としλ (i)を、第一収束判定手段307と話者適応パラメータ更新手段503とに出力し雑音モデルパラメータ推定手段402の処理を終了する。満たさない場合はλ (i’)を第二期待値計算手段404に出力し、i’←i’+1(s407)として、繰り返し処理を行うように各部に制御信号を出力し、s404、s405の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q(^N0:T−1,λ (i’))と一つ前の第二期待値Q(^N0:T−1,λ (i’−1))との差が所定値η以下である場合や、繰り返し回数i’が所定値I以上になった場合等とすることができる。例えば以下の式で表すことができる。
(Second convergence determination means 406)
Second convergence determining means 406 receives the second expected value Q 2, to determine the convergence condition is satisfied whether using this value (s406), if it meets λ N (i) = λ N (i ' ) And λ N (i) are output to the first convergence determination unit 307 and the speaker adaptation parameter update unit 503, and the process of the noise model parameter estimation unit 402 is terminated. If not satisfied, λ N (i ′) is output to the second expected value calculation means 404, and as i ′ ← i ′ + 1 (s407), a control signal is output to each part so as to perform repeated processing, and s404, s405 Repeat the process. For example, the convergence condition includes the latest second expected value Q 2 (^ N 0: T−1 , λ N (i ′) ) and the previous second expected value Q 2 (^ N 0: T−1 , The difference from λ N (i′−1) ) may be a predetermined value η 2 or less, or the number of repetitions i ′ may be a predetermined value I 2 or more. For example, it can be expressed by the following formula.

Figure 0005670298
Figure 0005670298

であり、例えば、η=0.0001、I=100である。
<話者適応パラメータ更新手段503の詳細>
話者適応パラメータ更新手段503は、初期値設定手段504と第三期待値計算手段505と話者適応パラメータ算出手段506と第三収束判定手段507とを含む(図8参照)。
For example, η 2 = 0.0001 and I 2 = 100.
<Details of Speaker Adaptive Parameter Update Unit 503>
The speaker adaptation parameter update unit 503 includes an initial value setting unit 504, a third expected value calculation unit 505, a speaker adaptation parameter calculation unit 506, and a third convergence determination unit 507 (see FIG. 8).

図9を用いて話者適応パラメータ更新手段503の処理内容を説明する。
(初期値設定手段504)
初期値設定手段504は、まず第三EMアルゴリズムの繰り返し回数を示すインデックスi”を初期化する(s503)。例えば、i”=1とする。次に初期値設定手段504は、第三EMアルゴリズムにおける話者適応パラメータb(i”)の初期値b(i”=0)を次式により設定し(s504)、第三期待値計算手段505に出力する。
The processing contents of the speaker adaptation parameter update unit 503 will be described with reference to FIG.
(Initial value setting means 504)
The initial value setting means 504 first initializes an index i ″ indicating the number of repetitions of the third EM algorithm (s503). For example, i ″ = 1. Next, the initial value setting means 504 sets the initial value b (i ″ = 0) of the speaker adaptation parameter b (i ″) in the third EM algorithm by the following equation (s504), and the third expected value calculation means 505. Output to.

Figure 0005670298
Figure 0005670298

上式において、上付添え字(i”)は第三EMアルゴリズムにおける、i”回目の繰り返し推定におけるパラメータであることを示す。
(第三期待値計算手段505)
第三期待値計算手段505は、SIモデルパラメータセットλSIと推定したクリーン音声の対数メルスペクトル^S (i)とを受け取る。また第三収束判定手段507からi”−1回目の話者適応パラメータb(i”−1)を受け取る。但し、i”−1回目の話者適応パラメータb(i”−1)が存在しない場合、つまり、0回目の場合、前述の初期値b(i”=0)を初期値設定手段504から受け取る。これらの値を用いて第三期待値計算手段505はi”回目の繰り返し推定におけるSDGMMのコスト関数Q(・)の期待値を次式により計算し(第三EMアルゴリズムのE−step)(s505)、第三収束判定手段507に出力する。
In the above formula, the superscript (i ″) indicates that it is a parameter in i ″ th iteration estimation in the third EM algorithm.
(Third expected value calculation means 505)
The third expected value calculation means 505 receives the SI model parameter set λ SI and the estimated log mel spectrum S S t (i) of the clean speech. Also, the i "-1th speaker adaptation parameter b (i" -1) is received from the third convergence determination means 507. However, if the i "-1th speaker adaptation parameter b (i" -1) does not exist, that is, if it is the 0th time, the initial value b (i "= 0) is received from the initial value setting means 504. Using these values, the third expected value calculation means 505 calculates the expected value of the cost function Q 3 (•) of the SDGMM in the i ”th iterative estimation by the following equation (E-step of the third EM algorithm): (S505), it outputs to the third convergence determination means 507.

Figure 0005670298
Figure 0005670298

上式において、^S0:T−1 (i)={^S (i),…,^S (i),…,^ST−1 (i)}であり、Pt,j (i”)は以下の式(39)で与えられるフレームtにおけるGMM種別jに対する事後確率であり、Pt,j,k (i”)は以下の式(40)で与えられるフレームtにおける正規分布番号kに対する事後確率である。 In the above equation, ^ S 0: T-1 (i) = {^ S 0 (i), ..., ^ S t (i), ..., ^ S T-1 (i)} is, P t, j (I ″) is the posterior probability for GMM type j in frame t given by the following equation (39), and P t, j, k (i ″) is the normality in frame t given by the following equation (40). This is the posterior probability for distribution number k.

Figure 0005670298
Figure 0005670298

第三期待値計算手段505は、求めた事後確率Pt,j (i”)、Pt,j,k (i”)を話者適応パラメータ算出手段506に出力する。 The third expected value calculation unit 505 outputs the obtained posterior probabilities P t, j (i ″) and P t, j, k (i ″) to the speaker adaptive parameter calculation unit 506.

(話者適応パラメータ算出手段506)
話者適応パラメータ算出手段506は、事後確率Pt,j (i”)、Pt,j,k (i”)とSIモデルパラメータセットλSIとクリーン音声の対数メルスペクトル^S (i)とを受け取り、以下の式(41)を用いて話者適応パラメータb(i”)を求め、これを新たな話者適応パラメータb(i”)として更新し(第三EMアルゴリズムのM−step)(s506)、第三収束判定手段507に出力する。
(Speaker adaptive parameter calculation means 506)
The speaker adaptive parameter calculation means 506 includes the posterior probabilities P t, j (i ″) , P t, j, k (i ″) , the SI model parameter set λ SI, and the log mel spectrum of clean speech ^ S t (i). The speaker adaptation parameter b (i ″) is obtained using the following equation (41), and is updated as a new speaker adaptation parameter b (i ″) (M-step of the third EM algorithm ). ) (S506), it outputs to the third convergence determination means 507.

Figure 0005670298
Figure 0005670298

(第三収束判定手段507)
第三収束判定手段507は、第三期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(s507)、満たす場合はb(i)=b(i”)としb(i)を第一収束判定手段307に出力し話者適応パラメータ更新手段503の処理を終了する。満たさない場合はb(i”)を第三期待値計算手段505に出力し、i”←i”+1(s508)として、繰り返し処理を行うように各部に制御信号を出力し、s505、s506の処理を繰り返す。例えば、収束条件は、最新の第三期待値Q(^S0:T−1 (i),b(i”))と一つ前の第三期待値Q(^S0:T−1 (i),b(i”−1))との差が所定値η以下である場合や、繰り返し回数i”が所定値I以上になった場合等とすることができる。例えば以下の式で表すことができる。
(Third convergence determination means 507)
Third convergence determining unit 507 receives the third expected value Q 3, to determine the convergence condition is satisfied whether using this value (s 507), if it meets the b (i) = b (i ") b (i) is output to the first convergence determination unit 307, and the processing of the speaker adaptive parameter update unit 503 is terminated. If not satisfied, b (i ") is output to the third expected value calculation unit 505, and i" As i ″ +1 (s508), a control signal is output to each unit so as to repeat the process, and the processes of s505 and s506 are repeated. For example, the convergence condition includes the latest third expected value Q 3 (^ S 0: T−1 (i) , b (i ″) ) and the previous third expected value Q 3 (^ S 0: T− 1 (i) , b (i ″ −1) ) is a predetermined value η 3 or less, or the number of repetitions i ″ is a predetermined value I 3 or more. It can be expressed by the following formula.

Figure 0005670298
Figure 0005670298

であり、例えば、η=0.0001、I=100である。よって、第三EMアルゴリズムのM−stepにおいて話者適応パラメータ算出手段506で最終的に算出した話者適応パラメータb(i)=b(i”)が、第一EMアルゴリズムのi回目の繰り返しにおけるSDGMMの尤度を最大とするものとなる。 For example, η 3 = 0.0001 and I 3 = 100. Therefore, the speaker adaptation parameter b (i) = b (i ″) finally calculated by the speaker adaptation parameter calculation means 506 in the M-step of the third EM algorithm is the i-th iteration of the first EM algorithm. The likelihood of SDGMM is maximized.

<雑音抑圧部106>
雑音抑圧部106は、音響信号oの音響特徴である対数メルスペクトルOとSIモデルパラメータセットλSIと雑音モデルパラメータセットλと話者適応パラメータbと受け取り、これらの値を用いて音響信号oに含まれる雑音信号nを抑圧し(s106)、雑音抑圧信号^sτを雑音抑圧装置100の出力値として出力する。例えば、図10に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段601と雑音抑圧フィルタ適用手段602を含む。雑音抑圧フィルタ推定手段601は音響信号の対数メルスペクトルOとSIモデルパラメータセットλSIと雑音モデルパラメータセットλと話者適応パラメータbとを受け取り、雑音抑圧フィルタWLin t,mを推定する。雑音抑圧フィルタ適用手段602は、複素数スペクトルSpcと雑音抑圧フィルタWLin t,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
<Noise Suppression Unit 106>
Noise suppressor 106 receives the acoustic signal o logarithmic Mel spectrum is an acoustic characteristic of t O t and SI model parameter set lambda SI and noise model parameter set lambda N and speaker adaptation parameters b, using these values sound signal o t and suppressing noise signals n t contained in (s106), and outputs a noise suppressed signal ^ s tau as an output value of the noise suppression apparatus 100. For example, as shown in FIG. 10, the noise suppression unit 106 includes a noise suppression filter estimation unit 601 and a noise suppression filter application unit 602. The noise suppression filter estimation means 601 receives the log mel spectrum O t of the acoustic signal, the SI model parameter set λ SI , the noise model parameter set λ N and the speaker adaptation parameter b, and estimates the noise suppression filter W Lin t, m . . Noise suppression filter application unit 602 receives the complex spectrum Spc t and the noise suppression filter W Lin t, and m, to obtain a noise suppression signal ^ s tau to suppress noise. Details of each means will be described below.

(雑音抑圧フィルタ推定手段601)
雑音抑圧フィルタ推定手段601は図11に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλと話者適応パラメータbを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOの確率モデルである第三確率モデルのパラメータセット(以下「第三確率モデルパラメータセット」という)λO3={wO3,j,k,l,μO3,j,k,l,ΣO3,j,k,l}を以下のように生成する(s601)。
(Noise suppression filter estimation means 601)
The noise suppression filter estimation means 601 performs processing according to the flow shown in FIG. First, the noise suppression filter estimation means 601 receives the SI model parameter set λ SI , the noise model parameter set λ N, and the speaker adaptation parameter b, and uses these values to create a probability model of the log mel spectrum O t of the acoustic signal. Λ O3 = {w O3, j, k, l , μO3, j, k, l , ΣO3, j, k, λ O3 = {w O3, j, k, l , μ O3, j, k, l l } is generated as follows (s601).

Figure 0005670298
Figure 0005670298

上式において関数h(・)、g(・)は、式(12)、(13)により与えられる。 In the above equation, the functions h (•) and g (•) are given by equations (12) and (13).

次に、雑音抑圧フィルタ推定手段601は、求めた第三確率モデルパラメータセットλO3と対数メルスペクトルOとを用いて、式(48)、(49)により事後確率Pt,j、Pt,j,k,lを計算する(s602)。 Next, the noise suppression filter estimation means 601 uses the obtained third probability model parameter set λ O3 and the log mel spectrum O t and uses the posterior probabilities P t, j , P t according to equations (48) and (49). , J, k, l are calculated (s602).

Figure 0005670298
Figure 0005670298

次に、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλと事後確率Pt,j、Pt,j,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタWMel t,rを次式のように推定する(s603)。 Next, the noise suppression filter estimation unit 601 uses the SI model parameter set λ SI , the noise model parameter set λ N, and the posterior probabilities P t, j , P t, j, k, l on the mel frequency axis. The noise suppression filter W Mel t, r is estimated as in the following equation (s603).

Figure 0005670298
Figure 0005670298

上式はベクトルの要素r毎の表記である。 The above expression is a notation for each element r of the vector.

次に、雑音抑圧フィルタ推定手段601は、メル周波数軸上での雑音抑圧フィルタWMel t,rを線形周波数軸上での雑音抑圧フィルタWLin t,mに変換し(s604)、雑音抑圧フィルタ適用手段602に出力する。なお、変換は3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。
(雑音抑圧フィルタ適用手段602)
雑音抑圧フィルタ適用手段602は図12に示す流れで処理を行う。雑音抑圧フィルタ適用手段602は、雑音抑圧フィルタWLin t,mと複素数スペクトルSpcとを受け取り、複素数スペクトルSpcに対して雑音抑圧フィルタWLin t,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
Next, the noise suppression filter estimation means 601 converts the noise suppression filter W Mel t, r on the mel frequency axis into the noise suppression filter W Lin t, m on the linear frequency axis (s604), and the noise suppression filter. The data is output to the application unit 602. Note that the conversion is performed by estimating the value of the noise suppression filter on the linear frequency axis by applying cubic spline interpolation to the mel frequency axis.
(Noise suppression filter applying means 602)
The noise suppression filter application unit 602 performs processing according to the flow shown in FIG. The noise suppression filter application unit 602 receives the noise suppression filter W Lin t, m and the complex spectrum Spc t, and multiplies the complex spectrum Spct t by the noise suppression filter W Lin t, m as follows: A noise-suppressed complex spectrum {circumflex over (S)} t, m is obtained (s701).

Figure 0005670298
Figure 0005670298

上式はベクトルの要素m毎の表記である。 The above expression is a notation for each element m of the vector.

次に、雑音抑圧フィルタ適用手段602は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧信号^st,nを得る(s702)。 Next, the noise suppression filter application unit 602 obtains the complex spectrum ^ S t, by applying the inverse fast Fourier transform on m, the noise suppression signal ^ s t in frame t, the n (s702).

次に、雑音抑圧フィルタ適用手段602は、各フレームの雑音抑圧信号^st,nを次式のように窓関数wを解除しながら連結して連続した雑音抑圧信号^sτを得て(s703)、これを雑音抑圧装置100の出力値として出力する。 Next, the noise suppression filter application unit 602 obtains a noise suppression signal ^ s tau continuous noise suppression signal ^ s t of each frame, the n linked with releasing the window function w n by the following equation (S703), this is output as the output value of the noise suppression apparatus 100.

Figure 0005670298
Figure 0005670298

<効果>
本実施形態では、多峰的な雑音信号の確率モデルのパラメータを推定する雑音信号モデルパラメータ推定手段と、話者独立の音声信号のモデルを話者依存の音声信号の確率モデルに適応させるためのパラメータを推定する話者適応パラメータ推定手段を具備し、それぞれを同時に実施しながらパラメータの更新を行う。このような構成により、話者の特徴を反映して、予め分かっていない非定常雑音をより高精度に抑圧することができる。また、信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、非線形問題を解くことなく確率モデルパラメータ(雑音モデルパラメータ及び話者適応パラメータ)を容易に最適化することができ、最適な雑音抑圧フィルタを設計し、高品質に目的音声信号を得ることができる。
<Effect>
In the present embodiment, a noise signal model parameter estimating means for estimating parameters of a multimodal noise signal probability model, and a speaker independent speech signal model for adapting to a speaker dependent speech signal probability model Speaker adaptive parameter estimation means for estimating the parameters is provided, and the parameters are updated while simultaneously executing the parameters. With such a configuration, unsteady noise that is not known in advance can be suppressed with higher accuracy by reflecting speaker characteristics. Moreover, even if the noise signal included in the signal is nonstationary noise that follows a multimodal distribution, the stochastic model parameters (noise model parameters and speaker adaptation parameters) can be easily optimized without solving the nonlinear problem. It is possible to design an optimal noise suppression filter and obtain a target speech signal with high quality.

なお、推定された雑音信号、及び音声信号には誤差が含まれる可能性があるが、雑音信号の確率モデルの推定、及び話者適応においては、学習データの統計的な性質を推定して処理を行っているため、誤差の問題は致命的な問題とならない。
<その他の変形例>
第一実施形態において、各部及び各手段が、図示しない記憶部に各信号や、処理途中の信号、各種パラメータ等が記憶し、記憶部を介して各データの読み書きを行ってもよい。
Note that the estimated noise signal and speech signal may contain errors, but in the estimation of the noise signal probability model and speaker adaptation, the statistical properties of the training data are estimated and processed. Therefore, the problem of error does not become a fatal problem.
<Other variations>
In the first embodiment, each unit and each unit may store each signal, a signal in the middle of processing, various parameters, and the like in a storage unit (not shown), and read / write each data via the storage unit.

第一実施形態において、フレーム化処理(図3のs201)にて窓関数wにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。 In a first embodiment, the frame processing rectangular window besides Hamming window in the window function w n in (s201 in Fig. 3), a Hanning window may be used a window function, such as Blackman windows.

第一実施形態において、音声信号の確率モデルとして、無音GMM、クリーン音声GMMの代わりに、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。   In the first embodiment, other probability models such as a Hidden Markov Model (HMM) may be used instead of the silent GMM and the clean speech GMM as the probability model of the sound signal.

第一実施形態において、無音GMM、クリーン音声GMMの2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや、音素毎のGMMを用いてもよい。   In the first embodiment, not only two GMMs, the silent GMM and the clean voice GMM, but more GMMs may be used. For example, a silent GMM, an unvoiced sound GMM, a voiced sound GMM, or a GMM for each phoneme may be used.

第一実施形態において、雑音GMMの代わりに、雑音信号の確率モデルとしてHMM等の他の確率モデルを用いてもよい。   In the first embodiment, instead of the noise GMM, another probability model such as an HMM may be used as a noise signal probability model.

第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aを用いて実施してもよい。   In the first embodiment, speaker adaptation processing may be performed using an R × R dimensional affine transformation matrix A as shown in the following equation.

Figure 0005670298
Figure 0005670298

第一実施形態において、話者適応処理を次式のようなR×R次元のアフィン変換行列Aと、ベクトルbを用いて実施してもよい。   In the first embodiment, the speaker adaptation process may be performed using an R × R dimensional affine transformation matrix A and a vector b as shown in the following equation.

Figure 0005670298
Figure 0005670298

第一実施形態において、話者適応処理のパラメータであるアフィン変換行列Aと、ベクトルbを、次式のように無音GMMと、クリーン音声GMMとを識別するインデックスj、及び無音GMM、もしくはクリーン音声GMMに含まれる正規分布の番号kに依存するパラメータとしてもよい。   In the first embodiment, the affine transformation matrix A, which is a parameter for speaker adaptation processing, and the vector b, the index j for identifying the silence GMM and the clean speech GMM, and the silence GMM or the clean speech as shown in the following equation: It may be a parameter depending on the number k of the normal distribution included in the GMM.

Figure 0005670298
Figure 0005670298

もしくは、 Or

Figure 0005670298
Figure 0005670298

もしくは、 Or

Figure 0005670298
Figure 0005670298

第一実施形態において、雑音抑圧フィルタ推定処理(図11のs603)にて、重み付け平均ではなく、最大の重み、すなわち最大の音声非存在/存在確率Pt,jと、事後確率Pt,j,k,lとの積を持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。 In the first embodiment, in the noise suppression filter estimation process (s603 in FIG. 11), not the weighted average but the maximum weight, that is, the maximum speech non-existence / existence probability P t, j and the posterior probability P t, j , K, l may be used as they are. In this case, it is desirable to have a sufficiently large weight compared to the weights of other estimation results.

第一実施形態において、式(26)、(29)、(30)に代えて、以下の式により初期値を設定してもよい。   In the first embodiment, instead of the formulas (26), (29), and (30), the initial value may be set by the following formula.

Figure 0005670298
Figure 0005670298

第一実施形態において、式(37)に代えて、以下の式により初期値を設定してもよい。 In the first embodiment, the initial value may be set by the following equation instead of the equation (37).

Figure 0005670298
Figure 0005670298

第一実施形態において、各EMアルゴリズムにおいて、M−stepを実施した後にE−stepを実施する構成としてもよい。また、M−stepを実施直後に収束判定を行い、収束していない場合にE−stepを実施する構成としてもよい。このような構成とすることで、収束している場合にM−stepを実施する処理を省略することができる。   In 1st embodiment, it is good also as a structure which implements E-step after implementing M-step in each EM algorithm. Moreover, it is good also as a structure which performs convergence determination immediately after implementing M-step, and implements E-step when it has not converged. By setting it as such a structure, the process which implements M-step when it has converged can be skipped.

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<シミュレーション結果>
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を第一実施形態の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<Simulation results>
In order to show the effect of the present invention, an example is shown in which an acoustic signal in which a voice signal and a noise signal are mixed is input to the noise suppression device of the first embodiment and noise suppression is performed. The experimental method and results will be described below.

本実験では、評価用データには、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれS/N比(信号対雑音比)0dB、5dB、10dBにて計算機上で重畳した。すなわち、雑音3種類×S/N比3種類の合計9種類の評価データを作成した。それぞれの音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(Frame=320サンプル点)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて、音響特徴抽出部104を適用した。   In this experiment, the evaluation data uses 100 sentences spoken by 23 men from IPA (Information-technology promotion agency, Japan) -98-TestSet. Noise separately recorded in the lobby, station platform, and street was superimposed on the computer at S / N ratios (signal to noise ratio) of 0 dB, 5 dB, and 10 dB, respectively. That is, a total of nine types of evaluation data of three types of noise × three types of S / N ratios were created. Each audio data is a monaural signal discretely sampled at a sampling frequency of 16,000 Hz and a quantization bit number of 16 bits. The acoustic feature extraction unit 104 was applied to this acoustic signal by setting the time length of one frame to 20 ms (Frame = 320 sample points) and moving the start point of the frame every 10 ms (Shift = 160 sample points).

無音GMM、クリーン音声GMMには、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用い、それぞれ多数話者の学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。   As the silent GMM and the clean speech GMM, GMMs having a mixed distribution number K = 128 having an R = 24-dimensional logarithmic mel spectrum as acoustic features are used, and learning is performed using speech data for learning of a large number of speakers. L = 4 was given to the number of mixed distributions of the noise GMM.

性能の評価は音声認識により行い、評価尺度は次式の単語誤り率(Word error rate: WER)で行った。   The performance was evaluated by speech recognition, and the evaluation scale was the word error rate (WER) of the following formula.

Figure 0005670298
Figure 0005670298

上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。 In the above equation, N is the total number of words, D is the number of dropped error words, S is the number of replacement error words, I is the number of insertion error words, and the smaller the WER value, the higher the speech recognition performance.

音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365)により行い、音響モデルには話者独立のTriphone HMMを用いており、各HMMの構造は3状態のLeft−to−right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frame=320)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は20,000単語である。   Speech recognition is based on a finite state transducer based recognizer (T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365), and the speaker model is a speaker-independent Triphone HMM, and each HMM has a three-state Left-to- It is a right type HMM, and each state has 16 normal distributions. The number of states of the entire HMM is 2,000. The acoustic feature of speech recognition is a 12-dimensional MFCC (Mel-frequency cepstral) in which the time length of one frame is 20 ms (Frame = 320) and the start point of the frame is moved every 10 ms (Shift = 160 sample points). coefficient), the logarithmic power value, and a 39-dimensional vector in total including the first and second order regression coefficients. The language model uses Tri-gram and the number of vocabulary is 20,000 words.

図13は、雑音抑圧の結果であり、雑音抑圧処理を行わない場合と、非特許文献1に開示された方法と、非特許文献2に開示された方法と、第一実施形態とによる音声認識の評価結果を示している。図13の結果からも、第一実施形態により従来技術に比べて高い性能を得られることが明らかである。
<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現してもよい。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
FIG. 13 shows the result of noise suppression. Speech recognition according to the case where noise suppression processing is not performed, the method disclosed in Non-Patent Document 1, the method disclosed in Non-Patent Document 2, and the first embodiment. The evaluation results are shown. From the results of FIG. 13, it is clear that higher performance can be obtained by the first embodiment than in the prior art.
<Program and recording medium>
The noise suppression device described above may be realized by causing a computer to execute a program described by a computer-readable code. These programs are stored in a computer-readable storage medium such as a magnetic disk or a CD-ROM, and installed in the computer from the storage medium or installed through a communication line and executed.

本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、TV会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。   The present invention can be used for automatic speech recognition using a noise suppression signal by suppressing noise from an acoustic signal before the automatic speech recognition. In addition, it can be used when a noise signal is suppressed from a received or recorded sound signal in a call system such as a TV conference system or a recording system.

Claims (7)

雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
前記音響信号の音響特徴を抽出する音響特徴抽出手段と、
雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルが記憶される記憶手段と、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成手段と、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧手段と、
を含む雑音抑圧装置。
A noise suppression device that suppresses a noise signal from an acoustic signal including a noise signal and a voice signal,
Acoustic feature extraction means for extracting acoustic features of the acoustic signal;
Storage means for storing a speaker independent speech model that is a probability model of a speaker independent speech signal learned using speech signals of a large number of speakers without learning as noise.
Speaker adaptation for defining the noise signal as a signal based on non-stationary noise following a multimodal distribution, and adapting the speaker independent speech model to a speaker of the speech signal included in the acoustic signal A first probability model generating means for generating a first probability model that is a probability model of the acoustic signal using a parameter, a noise model that is a probability model of the noise signal, and the speaker independent speech model;
Noise model estimation means for estimating the noise signal based on the first probability model and the acoustic characteristics of the acoustic signal, and unsupervised learning of the noise model using the estimated noise signal as learning data;
Using the acoustic characteristics of the acoustic signal, the speaker independent speech model, and the noise model, the speech signal included in the acoustic signal is estimated, and the estimated speech signal is used as learning data to determine the speaker adaptation parameter. Speaker adaptive parameter estimating means for unsupervised estimation,
Noise suppression means for suppressing a noise signal included in the acoustic signal using an acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter;
Including a noise suppression device.
請求項1記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成手段と、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定手段と、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出手段とを含む、
雑音抑圧装置。
The noise suppression device according to claim 1,
The speaker adaptation parameter estimation means includes:
Second probability model generation means for generating a second probability model that is a probability model of the acoustic signal using the acoustic features of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter; ,
Voice signal estimation means for estimating the voice signal included in the acoustic signal using the acoustic characteristics of the acoustic signal, the second probability model, the speaker independent voice model, and the speaker adaptation parameter;
Based on the speech signal included in the estimated acoustic signal and the speaker independent speech model, the likelihood of the speaker dependent speech model that is the speaker independent speech model adapted by the speaker adaptation parameter is Including speaker adaptation parameter calculation means for calculating the speaker adaptation parameter that is maximized,
Noise suppression device.
請求項2記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出手段の処理を繰り返し、
当該雑音抑圧装置は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成手段と前記雑音モデル推定手段と前記話者適応パラメータ推定手段の処理を繰り返す、
雑音抑圧装置。
The noise suppression device according to claim 2,
The speaker adaptation parameter estimation means calculates the speaker adaptation parameter using the estimated speech signal until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the speaker-dependent speech model is maximized. Repeat the process of means,
The noise suppression device uses the acoustic signal and the first probability model generation unit and the noise model estimation until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the first probability model is maximized. Repeating the process of the means and the speaker adaptation parameter estimation means,
Noise suppression device.
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
音響特徴抽出手段が、前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
第一確率モデル生成手段が、前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成ステップと、
雑音モデル推定手段が、前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定ステップと、
話者適応パラメータ推定手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定ステップと、
雑音抑圧手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。
A noise suppression method for suppressing a noise signal from an acoustic signal including a noise signal and a voice signal,
An acoustic feature extracting means for extracting an acoustic feature of the acoustic signal;
The first probability model generation means defines that the noise signal is a signal based on non-stationary noise that follows a multimodal distribution, and a speech that has been learned using speech signals of many speakers that do not include noise as learning data. A speaker adaptation parameter for adapting a speaker independent speech model which is a probability model of a speech signal independent to a speaker of the speech signal included in the acoustic signal, and a noise model which is a probability model of the noise signal; Generating a first probability model that is a probability model of the acoustic signal using the speaker independent speech model; and
A noise model estimation unit, wherein the noise model estimation means estimates the noise signal based on the first probability model and the acoustic features of the acoustic signal, and performs unsupervised learning of the noise model using the estimated noise signal as learning data. When,
Speaker adaptation parameter estimation means estimates the speech signal included in the acoustic signal using the acoustic features of the acoustic signal, the speaker independent speech model, and the noise model, and learns the estimated speech signal As the data, a speaker adaptation parameter estimation step for estimating the speaker adaptation parameter without teacher,
A noise suppression step, wherein the noise suppression means suppresses a noise signal included in the acoustic signal using an acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter;
Including a noise suppression method.
請求項4記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、
第二確率モデル生成手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成ステップと、
音声信号推定手段が、前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定ステップと、
話者適応パラメータ算出手段が、推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出ステップとを含む、
雑音抑圧方法。
The noise suppression method according to claim 4,
The speaker adaptation parameter estimation step includes:
Second probability model generation means generates a second probability model, which is a probability model of the acoustic signal, using the acoustic feature of the acoustic signal, the speaker independent speech model, the noise model, and the speaker adaptation parameter. A second probability model generation step,
An audio signal for estimating the audio signal included in the audio signal by using an audio feature of the audio signal, the second probability model, the speaker independent audio model, and the speaker adaptation parameter. An estimation step;
A speaker adaptation parameter calculation means is a speaker which is the speaker independent speech model adapted by the speaker adaptation parameter based on the speech signal included in the estimated acoustic signal and the speaker independent speech model. A speaker adaptation parameter calculation step for calculating the speaker adaptation parameter that maximizes the likelihood of the person-dependent speech model,
Noise suppression method.
請求項5記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出ステップの処理を繰り返し、
当該雑音抑圧方法は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成ステップと前記雑音モデル推定ステップと前記話者適応パラメータ推定ステップの処理を繰り返す、
雑音抑圧方法。
The noise suppression method according to claim 5,
The speaker adaptation parameter estimation step uses the estimated speech signal to calculate the speaker adaptation parameter until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the speaker-dependent speech model is maximized. Repeat the process of steps,
The noise suppression method uses the acoustic signal to generate the first probability model and the noise model estimation until a convergence condition is satisfied by an expected value maximization method so that the likelihood of the first probability model is maximized. Repeating steps and the speaker adaptation parameter estimation step,
Noise suppression method.
請求項1から3の何れかに記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。   The program for functioning a computer as a noise suppression apparatus in any one of Claim 1 to 3.
JP2011261767A 2011-11-30 2011-11-30 Noise suppression device, method and program Active JP5670298B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011261767A JP5670298B2 (en) 2011-11-30 2011-11-30 Noise suppression device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011261767A JP5670298B2 (en) 2011-11-30 2011-11-30 Noise suppression device, method and program

Publications (2)

Publication Number Publication Date
JP2013114151A JP2013114151A (en) 2013-06-10
JP5670298B2 true JP5670298B2 (en) 2015-02-18

Family

ID=48709714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011261767A Active JP5670298B2 (en) 2011-11-30 2011-11-30 Noise suppression device, method and program

Country Status (1)

Country Link
JP (1) JP5670298B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
JP6243858B2 (en) * 2015-02-05 2017-12-06 日本電信電話株式会社 Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program
JP6588936B2 (en) * 2017-03-22 2019-10-09 日本電信電話株式会社 Noise suppression apparatus, method thereof, and program
CN111402922B (en) * 2020-03-06 2023-06-30 武汉轻工大学 Audio signal classification method, device, equipment and storage medium based on small samples
EP4233051B1 (en) 2020-10-20 2024-07-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4275353B2 (en) * 2002-05-17 2009-06-10 パイオニア株式会社 Speech recognition apparatus and speech recognition method
US8296135B2 (en) * 2008-04-22 2012-10-23 Electronics And Telecommunications Research Institute Noise cancellation system and method

Also Published As

Publication number Publication date
JP2013114151A (en) 2013-06-10

Similar Documents

Publication Publication Date Title
JP6243858B2 (en) Speech model learning method, noise suppression method, speech model learning device, noise suppression device, speech model learning program, and noise suppression program
Li et al. An overview of noise-robust automatic speech recognition
CN112435654B (en) Data enhancement of speech data by frame insertion
JP3457431B2 (en) Signal identification method
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
JP5670298B2 (en) Noise suppression device, method and program
Liao et al. Uncertainty decoding for noise robust speech recognition
JP5997114B2 (en) Noise suppression device, noise suppression method, and program
JP5713818B2 (en) Noise suppression device, method and program
JP5740362B2 (en) Noise suppression apparatus, method, and program
CN101432799A (en) Soft alignment in Gaussian mixture model based transformation
WO2006033044A2 (en) Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP2006349723A (en) Acoustic model creation device, speech recognition device, acoustic model creation method, speech recognition method, acoustic model creation program, speech recognition program, and recording medium
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
JP5457999B2 (en) Noise suppressor, method and program thereof
JP4779239B2 (en) Acoustic model learning apparatus, acoustic model learning method, and program thereof
Ramya et al. Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JP7754428B2 (en) Speech recognition device, speech recognition method, and program
Tatarnikova et al. Building acoustic models for a large vocabulary continuous speech recognizer for Russian
JP5885686B2 (en) Acoustic model adaptation apparatus, acoustic model adaptation method, and program
Munteanu et al. Robust Romanian language automatic speech recognizer based on multistyle training
Mishra et al. Isolated Hindi digits recognition: a comparative study

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141217

R150 Certificate of patent or registration of utility model

Ref document number: 5670298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350