[go: up one dir, main page]

JP2007033920A - 雑音抑圧システムと方法及びプログラム - Google Patents

雑音抑圧システムと方法及びプログラム Download PDF

Info

Publication number
JP2007033920A
JP2007033920A JP2005217694A JP2005217694A JP2007033920A JP 2007033920 A JP2007033920 A JP 2007033920A JP 2005217694 A JP2005217694 A JP 2005217694A JP 2005217694 A JP2005217694 A JP 2005217694A JP 2007033920 A JP2007033920 A JP 2007033920A
Authority
JP
Japan
Prior art keywords
speech
noise
temporary estimated
estimated speech
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005217694A
Other languages
English (en)
Other versions
JP4765461B2 (ja
Inventor
Takayuki Arakawa
隆行 荒川
Takenori Tsujikawa
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005217694A priority Critical patent/JP4765461B2/ja
Priority to US11/489,594 priority patent/US9613631B2/en
Priority to CN2006101080579A priority patent/CN1905006B/zh
Publication of JP2007033920A publication Critical patent/JP2007033920A/ja
Application granted granted Critical
Publication of JP4765461B2 publication Critical patent/JP4765461B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

【課題】
音声の情報を欠落させることなく高い精度で雑音成分を除去できる雑音抑圧システム、方法の提供。
【解決手段】
雑音平均スペクトルを求める手段2と、入力信号と雑音平均スペクトルから仮推定音声を求める手段3と、標準パタンと、仮推定音声を標準パタン4を用いて補正する手段5を備える。
【選択図】
図1

Description

本発明は雑音抑圧システムに関し、特に、音声認識における雑音成分の抑圧に好適とされる雑音抑圧システム、雑音抑圧方法及び雑音抑圧プログラムに関する。
従来の音声認識のための雑音抑圧手法は、大別して以下の2つの手法がある。
(a)信号処理的手法を用いて入力信号から雑音成分を減算する。
(b)デコーダ側である音響モデルと雑音モデルを合成し、雑音適応音響モデルを作成する。
なお、本願明細書では、雑音は音声信号以外の信号のことを指し、比較的定常的と考えられる背景雑音に加え、例えば突発雑音や、残響、反響、エコー、あるいは、目的とする話者以外の他の話者の音声等を含む。
非特許文献1によれば、(a)はフロントエンドにおける手法、(b)はデコーダにおける処理と大別されている。
(a)の信号処理的手法として広く使われているものとしては、“スペクトル・サブトラクション法(SS法)”がある。
図10は、このSS法を実現するシステムの典型的な構成の一例を示す図である。図10に示すように、入力信号(スペクトルX)を取得する入力信号取得部1と、雑音平均スペクトル(N)を算出する手段2と、入力信号から雑音平均スペクトルを減算し、推定音声(仮推定音声S')を算出する手段3cとを備えている。
かかる構成のシステムは以下のような利点がある。
・計算量が少ない。
・雑音平均スペクトルを更新する手法など他の手法と容易に組み合わせて使える。
しかしながら、入力信号から雑音平均スペクトルを単純に減算すると、雑音の持つ分散成分や音声と雑音の位相差のために引き残し(ミュージカルノイズ)が生じ、この引き残し成分が誤認識の原因となる。
そこで、SS法では、フロアリングを行い、音声の谷の情報を埋めてしまう処理が必要となる。このフロアリングの値を大きくすれば、雑音の引き残しは抑えられるが、音声の谷の情報を埋めてしまうために、性能の劣化につながる。
また、特許文献1や非特許文献2、非特許文献6には、平滑化した事前SNR(推定音声を雑音平均スペクトルで除算したもの)を用いて、雑音低減フィルタを算出する手法が開示されている。
図11を参照すると、このシステムは、図10に示した構成に加えて、雑音低減フィルタを算出する手段6と、推定音声を算出する手段7とをさらに備えている。図11のシステムは、上記SS法の問題点であった雑音の引き残しを、平滑化を行うことにより、低減している。
平滑化を強く行うと、雑音の引き残し成分は抑えられるが、
・音声の始端部分が欠ける、
・音声の終端部分が検出しにくくなる、
などの問題がある。
このように、信号処理的手法には、以下のような問題がある。
・フロアリングや平滑化といった処理が必要であり、元々の音声の情報を欠落させてしまう。
・引き残し成分を抑えつつ、このような情報の欠落を最小限に留めるためには、雑音の種類やSNRに応じて、パラメータをチューニングする必要がある。
このため、信号処理的手法を汎用的に用いることは困難である。
(b)の音響モデルを雑音に適応させる手法としては、非特許文献3に記載されている“Parallel Model Combination(PMC)法”が広く知られている。
この手法は、雑音モデルを作成する手段と、予め雑音のない環境で学習した音響モデルHMMと、雑音モデルをリニアスペクトルに変形する手段と、音響モデルHMMをリニアスペクトルに変形する手段と、リニアスペクトルに変形した雑音モデルと音響モデルHMMを加算し雑音適応音響モデルHMMを作る手段と、作成された雑音適応モデルをケプストラムに変形する手段とを備えて構成される。
かかる構成のシステムは以下のような利点を有する。
すなわち、音響モデルHMMを雑音に適応させているために、雑音の種類やSNRによらず、認識を行うことができる。
しかしながら、以下のような問題もある。
・雑音適応音響モデルHMMを作るのに多くの計算コストが必要である。
・雑音平均スペクトルを更新する手法など他の手法と組み合わせる事が容易ではない。
また、非特許文献4には、音響モデルではなく、音声の標準パタンGMM(Gaussian Mixture Model)を雑音に適応させる方法として、“GMMによる音声信号推定法”が提案されている。
この手法は、図12に示すように、入力信号Xを取得する入力信号取得部1と、雑音平均スペクトルの算出する手段2と、あらかじめ雑音の無い環境で学習した音声の標準パタン4と、雑音適応パタンの作成部9と、雑音適応パタン10と、雑音パタンと標準パタンの平均ベクトルの移動量の期待値の算出部11と、推定音声Sの算出部7aとを備えて構成されている。
このような構成を有するシステムは、以下のような利点を有する。
すなわち、上記信号処理的手法で問題であった雑音成分の減算の操作を、標準パタンと雑音適応パタンとの変化分Gの期待値を求めるという操作で置き換えることにより、安定性の高い音声認識を行うことができる。
このような構成を有するシステムは、PMC法と同様、以下のような問題を有する。
・雑音適応パタンを作るのに計算コストが必要である。
・雑音平均スペクトルを更新する手法などと組み合わせて使うことが困難である。
特表2004−520616号公報 松本 弘 著 「雑音環境下の音声認識手法」 情報科学技術フォーラム FIT2003 2003年9月10日 Y.Ephraim,D.Malah,"Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator",IEEE Trans.on ASSP-32,No.6,pp.1109-1121 1984年12月 M.J.F.Gales and S.J.Young "Robust Continuous Speech Recognition Using Parallel Model Combination",IEEE Trans.SAP-4,No.5,pp.352-359 1996年9月 J.C.Segura,A.de la Torre,M.C.Benitez and A.M.Peinado "Model-Based Compensation of the Additive Noise For Continous Speech Recognition.Experiments Using AURORAII Database and Tasks",EuroSpeech‘01,Vol.1,pp.221-224 2001年 Rainer Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", IEEE Trans. On Speech and Auido Processing, Vol.9 , No.5, 2001年 7月 ETSI ES 202 050 V1.1.1,"Speech processing, Transmission and Quality aspects(STQ);Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithm," 2002年 Guorong Xuan, Wei Zhang, Peiqi Chai,"EM Algorithm of Gaussian Mixture Model and Hidden Markov Model", IEEE International Conference on Image Processing ICIP 2001, vol.1, pp.145-148 2001年 10月
上記したように、従来のシステムは下記記載の課題を有する。
第1の問題点は、信号処理的手法では、フロアリングや平滑化を行う必要があり、元の音声の情報を欠落させてしまう場合がある、ということである。その理由は、高雑音下では、雑音の分散や音声と雑音の位相差の影響が無視できず、入力音声から雑音の平均スペクトルを減算する際、雑音の引き残しが生じる、ためである。
第2の問題点は、信号処理的手法では、雑音の種類やSNRに応じて、パラメータのチューニングが必要である、ということである。その理由は、雑音の引き残しを抑えつつ、情報の欠落を最小限に留めるパラメータが経験的にしか求まらない、ためである。
第3の問題点は、音響モデルもしくは標準パタンを雑音適応させる手法では、時間変動する雑音に対して、雑音平均スペクトルの更新法と組み合わせ、毎フレーム雑音に適応させる事が困難である、ということである。その理由は、音響モデルもしくは標準パタンを雑音適応させるのに、多くの計算コストを必要とするためである。
本発明の目的は、音声の情報を欠落させることなく高い精度で雑音成分を除去できる雑音抑圧システム、方法並びにコンピュータ・プログラムを提供することにある。
本発明の別の目的は、チューニングパラメータを少なくし、かつチューニングパラメータの値に敏感でない雑音抑圧システム、方法並びにコンピュータ・プログラムを提供することにある。
本発明のさらに別の目的は、計算コストが少なく容易に雑音の時間変動に追従できる雑音抑圧システム、方法並びにコンピュータ・プログラムを提供することにある。
本願で開示される発明は、上記課題を解決するため、概略以下のように構成される。
本発明に係る第1のシステムは、雑音平均スペクトルを求める手段と、入力信号と雑音平均スペクトルから仮推定音声を求める手段と、標準パタンと、仮推定音声を標準パタンを用いて補正する手段を備える。
本発明に係る第1の雑音抑圧方法は、入力信号から雑音の平均スペクトルを算出する工程と、前記入力信号と、前記雑音の平均スペクトルとから、スペクトル領域で仮推定音声を求める工程と、音声の標準パタンを用いて前記仮推定音声を補正する工程と、を含む。
本発明に係る第1のプログラムは、入力信号を入力し雑音を抑圧して出力するコンピュータに、入力信号から雑音の平均スペクトルを算出する処理と、前記入力信号と、前記雑音の平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、音声の標準パタンを用いて前記仮推定音声を補正する処理と、を実行させるプログラムよりなる。
かかる構成としたことで、雑音の引き残しを標準パタンの知識により補正することができ、第1の目的を達成することができる。
また、仮推定音声がある程度不正確であっても良いために、チューニングパラメータの値に敏感ではない処理が期待できる。すなわち、本発明の第2の目標を達成することができる。
さらに、標準パタンを雑音に適応させる必要がないために、計算コストが少なくて済み、容易に雑音に追従できるために、本発明の第3の目的を達成することができる。
本発明に係る第2の雑音抑圧方法は、第1の雑音抑圧方法において、スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する工程と、特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声を補正する工程と、
を含む、ことを特徴とする。
本発明に係る第3の雑音抑圧方法は、第1又は第2の雑音抑圧方法において、前記仮推定音声を補正する工程において、
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、前記仮推定音声の補正値とする、ことを特徴とする。
本発明に係る第4の雑音抑圧方法は、第1又は第2の雑音抑圧方法において、前記仮推定音声を補正する工程において、
複数の音声のパタンからなる前記標準パタンを用いて、前記仮推定音声を補正し、
前記入力音声に最も近くなる標準パタンを選択して、前記仮推定音声の補正値とするか、あるいは、前記入力音声に近くなる前記複数の音声のパタンを距離に応じて重み付け平均することで前記仮推定音声の補正値とする、ことを特徴とする。
本発明に係る第5の雑音抑圧方法は、第1乃至第4の雑音抑圧方法のいずれかにおいて、前記仮推定音声を補正する工程が、
前記雑音の標準偏差を求める工程を含み、
前記雑音の標準偏差を考慮して、前記仮推定音声の補正を制御する、ことを特徴とする。
本発明に係る第6の雑音抑圧方法は、第1乃至第5の雑音抑圧方法のいずれかにおいて、前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを導出する工程と、
前記入力信号に前記雑音低減フィルタによるフィルタリング処理を施して前記雑音低減フィルタの出力より推定音声を得る工程と、
を含む、ことを特徴とする。
本発明に係る第7の雑音抑圧方法は、第6の雑音抑圧方法において、前記雑音低減フィルタを算出する際に、補正された仮推定音声と、前記雑音平均スペクトルに加え、前記入力信号を用いて、前記雑音低減フィルタを算出する、ことを特徴とする。
本発明に係る第8の雑音抑圧方法は、第6又は第7の雑音抑圧方法において、前記雑音低減フィルタを算出する際に、補正された仮推定音声、又は、補正された仮推定音声を雑音の平均スペクトルで除して得られる事前SNR(信号対雑音比)に対し、時間方向、周波数方向、および特徴ベクトル次元数のうちの少なくとも1つの方向に、平滑化を行う、ことを特徴とする。
本発明に係る第9の雑音抑圧方法は、第1乃至第8のいずれかの雑音抑圧方法において、前記標準パタンを用いて補正された仮推定音声を仮推定値とし、再び、前記標準パタンを用いて仮推定値を補正する処理を、複数回繰り返す、ことを特徴とする。
本発明に係る第10の方法は、第1乃至第10のいずれかの方法において、前記入力信号から雑音の平均スペクトルを算出する工程が、複数の入力信号のうち少なくとも1つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める工程が、前記複数の入力信号のうち少なくとも1つの入力信号と前記雑音のスペクトルとから、仮推定音声を求める、ことを特徴とする。
本発明に係る音声認識方法は、第1乃至第10のいずれかの雑音抑圧方法を用い、雑音を抑圧した音声を認識する工程を含む。
本発明に係る第2のプログラムは、第1のプログラムにおいて、前記仮推定音声を補正する処理が、
スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する処理と、
特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声を補正する処理と、
を含む、ことを特徴とする。
本発明に係る第3のプログラムは、第1又は第2のプログラムにおいて、前記仮推定音声を補正する処理が、
前記標準パタンとして確率分布を仮定し、前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、仮推定音声の補正値とする、ことを特徴とする。
本発明に係る第4のプログラムは、第1又は第2のプログラムにおいて、
前記仮推定音声を補正する処理が、
複数の音声のパタンからなる標準パタンを用いて仮推定音声を補正し、
入力音声に最も近くなる標準パタンを選択して仮推定音声の補正値とするか、あるいは
入力音声に近くなる複数の音声のパタンを、距離に応じて、重み付け平均することで、前記仮推定音声の補正値とする、ことを特徴とする。
本発明に係る第5のプログラムは、第1乃至第4のいずれか一のプログラムにおいて、
前記仮推定音声を補正する処理が、
雑音の標準偏差を求める処理を含み、前記雑音の標準偏差を考慮して補正を制御する、ことを特徴とする。
本発明に係る第6のプログラムは、第1乃至第5のいずれか一のプログラムにおいて、
補正された推定音声と、雑音平均スペクトルから雑音低減フィルタを算出する処理と、
入力信号に対して前記雑音低減フィルタを施し、推定音声を得る処理と、
をさらに前記コンピュータに実行させるプログラムよりなる。
本発明に係る第7のプログラムは、第6のプログラムにおいて、
前記雑音低減フィルタを算出する処理は、
補正された推定音声と雑音平均スペクトルに加えて、入力信号を用いて、雑音低減フィルタを算出する、ことを特徴とする。
本発明に係る第8のプログラムは、第6又は第7のプログラムにおいて、
前記雑音低減フィルタを算出する処理は、
補正された推定音声、あるいは、補正された推定音声を雑音の平均スペクトルで除して得られる事前SNRに対し、時間方向、周波数方向、および特徴ベクトル次元数のうち少なくとも1つの方向に平滑化を行う、ことを特徴とする。
本発明に係る第9のプログラムは、第1乃至第8のいずれかのプログラムにおいて、
標準パタンを用いて補正された推定音声を仮推定値とし、再び、前記標準パタンを用いて補正するという処理を、複数回繰り返す、ことを特徴とする。
本発明に係る第10のプログラムは、第1乃至第9のいずれかのプログラムにおいて、
前記入力信号から雑音の平均スペクトルを算出する処理が、
複数の入力信号のうち少なくとも1つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める処理が、
複数の入力信号のうち少なくとも1つの入力信号と前記雑音のスペクトルから仮推定音声を求める、ことを特徴とする。
本発明に係る第11のプログラムは、音声認識装置を構成するコンピュータに、第1乃至10のいずれかのプログラムにより、雑音が抑圧された音声信号を入力し、音声認識を実行する処理を実行させるプログラムよりなる。
本発明によれば、仮推定音声の雑音の引き残しを標準パタンの知識を用いて適切に補正できる。
本発明によれば、仮推定音声がある程度不正確であっても良いために、チューニングパラメータの値に敏感ではない処理が期待できる。
本発明によれば、標準パタンを雑音に適応させる必要がないために、計算コストが少なくて済み、容易に雑音に追従できる。
上記した本発明についてさらに詳細に説述すべく添付図面を参照して説明する。
図1は、本発明の第1の実施の形態のシステム構成を示す図である。図1参照すると、本発明の第1の実施の形態は、入力信号(入力信号スペクトルX)を取得する入力信号取得部1と、入力信号取得部1から取得した入力信号Xから雑音平均スペクトルNを算出する雑音平均スペクトルの算出部2と、入力信号取得部1から取得された入力信号Xと雑音平均スペクトルの算出部2で算出された雑音平均スペクトルNから仮推定音声S’を算出する仮推定音声算出部3と、記憶部に登録されている音声の標準パタン4と、仮推定音声算出部3で得られた仮推定音声を標準パタン4を用いて補正して出力する仮推定音声補正部5と、を備えている。図2は、本発明の第1の実施の形態の処理動作を説明するためのフローチャートである。図1及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
入力信号スペクトルをX(f,t)とする。
ただし、fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、tは、フレーム番号(t=1,2,…)である。入力信号スペクトルX(f,t)には、入力信号取得部1において、例えば、マイクで取得した音声情報を、短時間フレームでスペクトル解析したものなどを用いる。
まず、雑音の平均スペクトル算出部2において入力信号スペクトルX(f,t)から、雑音平均スペクトルN(f,t)を算出する(ステップS1)。
雑音平均スペクトルN(f,t)の算出には、例えば下記のいずれか手法を用いることができる。
・入力信号のスペクトルX(f,t)の開始数十フレームの平均値を用いる。
・バッファリングされた数十フレームの入力信号スペクトルX(f,t)をソートし、小さいほうから数えて数個目の値を用いる。例えば上記非特許文献5の記載が参照される。非特許文献5には、雑音を含む音声信号が与えられたときに、非定常状態のパワースペクトル密度の推定方法が記載され、この推定方法は、雑音パワースペクトル密度推定値を要する音声強調(スピーチエンハンスメント)アルゴリズムと結合される。
・音声区間と非音声区間を求めておき、非音声区間での入力信号スペクトルX(f,t)の平均値を用いる。例えば非特許文献6の記載が参照される。
次に、仮推定音声の算出部3において、入力信号スペクトルX(f,t)と雑音の平均スペクトル算出部2で算出された雑音平均スペクトルN(f,t)を用いて、
・SS法(図10参照)や、
・平滑化事前SNRを用いたウィナーフィルタ(図11参照)など、
公知の手法によって、仮の推定雑音S’(f,t)を算出する(ステップS2)。
SS法を使う場合、仮推定音声S’(f,t)は以下のように算出される。
S’(f,t) = max( X(f,t) - N(f,t), α N(f,t) ) …(1)
ただし、αは、フロアリングパラメータである。
特に制限されないが、標準パタン4は、この実施例では、あらかじめ雑音のない環境で学習した音声の標準パタンを保持しているものとする。この他にも、既知の雑音で学習した音声の標準パタンなどを保持していても良い。なお、標準パタンの学習方法の詳細については、例えば非特許文献7等の記載が参照される。非特許文献7には、GMM(Gaussian Mixed Model)とHMMのEM(Expectation-Maximum)アルゴリズムが記載されている。
本実施例では、標準パタン4は、例えば音声のパタンをケプストラムGMMの形で保持しているものとする。もちろん、これ以外の特徴量(対数スペクトルGMMやリニアスペクトルGMM、LPC(Linear Prediction Coding)ケプストラムGMM)を保持しておいてもよい。また、混合ガウス分布以外の確率分布を用いてもよい。
次に、標準パタンを用いた仮推定音声の補正部5で、仮推定音声の算出部3で算出された仮推定音声S’(f,t)を標準パタン4を用いて補正する(ステップS3)。
上記補正方法の具体例を以下に示す。
まず、仮推定音声を出力とする確率を以下のように定める。
P(S’(f,t)|k) = W(k) p(S’(f,t)|μS (k)S (k)) / Σk W(k) p(S’(f,t)|μS (k)S (k)) …(2)
だたし、
kは、GMMの要素であるガウス分布の添え字(k=1,…,K:Kは混合数)、
W(k)は、ガウス分布kの重み、
p(S’|μS (k)S (k))は、平均値μS (k) 分散σS (k)を持つガウス分布が推定音声S’を出力する確率である。
本実施例では、仮推定音声S’を標準パタン4で保持している音声のパタンの形に合わせてケプストラムの形に変形して用いる。
もちろん標準パタン4で保持している音声のパタンの形が変われば、それに合わせて仮推定音声S’の形を変えるものとする。
次に、上述の事後確率を用いて、音声の期待値
<S(f,t)> = Σk μS (k) P(S’(f,t)|k) …(3)
を求め、これを仮推定音声S’の補正値として出力する。<S(f,t)>は、入力信号から雑音が除去された音声の推定値となる。
次に、本実施の形態の効果について説明する。
本実施の形態では、音声の標準パタンを用いて、仮推定音声を補正する構成としたことにより、
・雑音の分散による推定誤差や、
・音声と雑音の位相差に由来する推定誤差
によって生じる推定音声の歪みを補正できる。
以上により、本実施形態によれば、従来の信号処理的手法の問題を解消することができる。
また、本実施形態によれば、標準パタンで推定音声を補正するために、式(1)で決めたフロアリングパラメータのようなチューニングパラメータが、ある程度不正確であっても良い。
また、本実施形態によれば、標準パタンを雑音に適応させる必要がないために、計算コストが少なくて済む。よって、雑音平均スペクトル算出部2に時間的に変動する雑音を推定するアルゴリズムを使うことができる。このため、容易に雑音に追従できる。
[第2の実施形態]
次に、本発明の第2の実施の形態について図面を参照して説明する。図3は、本発明の第2の実施の形態の構成を示す図である。図3を参照すると、本発明の第2の実施の形態は、前記第1の実施形態に対して、確率分布の形で保持する標準パタン4(図1参照)を、音声の平均値を複数個保持する標準パタン4aに変更し、また、音声の期待値を用いて仮推定音声を補正する仮推定音声の補正部5(図1参照)を、音声の平均値を用いて仮推定音声を補正する仮推定音声の補正部5aに変更したものである。
上記補正の具体例を以下に示す。まず、仮推定音声S’(f,t)と複数の音声のパタンによって構成される標準パタン(例えば音声パタンの平均値)との距離を比較する。ここでは、対数スペクトルの形で比較するものとする。もちろん、ケプストラムなど、他の形でもよい。
d(k) = Σf (S’(f,t)- μs (k)(f))2 …(4)
ただし、
fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、
kは1,…K (Kは標準パタンの数)、
μs (k)は、標準パタンを構成する音声のパタンkの平均値である。
仮推定音声S’(f,t)が他の形であるならば、fは他の添え字となる。
次に、仮推定音声S’(f,t)と標準パタンとの距離が最も小さくなるようなkを選び、S’(f,t)の値を、対応する標準パタンで置き換え補正値とする。あるいは、距離が近くなるものを複数個選び、距離に応じて重み付け平均したものを補正値としても良い。なお、距離は2乗に限定されるものでなく、絶対値等、他のものを使ってもよい。
本実施の形態では、計算コストが少なくて済む。
[第3の実施形態]
次に、本発明の第3の実施形態について図面を参照して説明する。図4は、本発明の第3の実施の形態の構成を示す図である。図4を参照すると、本発明の第3の実施の形態は、図1の前記第1の実施形態における雑音平均スペクトル算出部2を、入力信号取得部1から取得された入力信号から雑音平均スペクトルと雑音の標準偏差を算出する、雑音平均スペクトル及び雑音の標準偏差算出部2aに変更している。
また、図1の仮推定音声の算出部3を、入力信号取得部1から取得された入力信号と、雑音平均スペクトル及び雑音の標準偏差算出部2aで算出された雑音平均スペクトルと、雑音の標準偏差から、仮推定音声と仮推定音声の信頼度を算出する仮推定音声の算出部3aに変更し、標準パタンを用いた仮推定音声の補正部5を、仮推定音声の値だけではなく、仮推定音声の信頼度も考慮して、仮推定音声の補正を行う標準パタンを用いた仮推定音声の補正部5bに変更したものである。
次に、本実施の形態について、前記第1の実施の形態と異なる動作について説明する。
雑音平均スペクトル及び雑音の標準偏差算出部2aでは、入力信号スペクトルX(f,t)から、雑音平均スペクトル算出部2と同様な手法で、雑音平均スペクトルN(f,t)を算出することに加えて、雑音の標準偏差V(f,t)を算出する。
雑音の標準偏差V(f,t)を算出する方法は、例えば、
・入力信号スペクトルX(f,t)の開始数十フレームと雑音平均スペクトルN(f,t)とのずれを評価する、あるいは、
・音声区間と非音声区間を求めておき、非音声区間において入力信号スペクトルX(f,t)の標準偏差を求めてこれを雑音の標準偏差V(f,t)にするなど、公知の手法を用いて算出する。
仮推定音声及び仮推定音声の信頼度算出部3aでは、図1の仮推定音声算出部3と同様の手法を用いて仮推定音声S’(f,t)を求めることに加えて、上記推定音声S’(f,t)の信頼度(推定誤差範囲)を、雑音平均スペクトル及び雑音の標準偏差算出部2aで算出された雑音の標準偏差V(f,t)を用いて算出する。
具体的には、S’(f,t)の信頼度として、
・雑音の標準偏差V(f,t)をそのまま用いる、あるいは、
・雑音の標準偏差V(f,t)を事後SNRの値
η(f,t) = X(f,t) / N(f,t) …(5)
の逆数の値で重み付けされたものを用いる、ようにしてもよい。
標準パタンを用いた仮推定音声の補正部5bは、仮推定音声及び仮推定音声の信頼度算出部3aで算出された仮推定音声S’(f,t)を、標準パタン4を用いて補正する。
このとき、仮推定音声の信頼度算出部3aで算出した仮推定音声S’(f,t)の信頼度を用いて補正の範囲を制限する。
具体的には、標準パタンを用いて補正された仮推定音声<S>の値が、仮推定音声S’(f,t)の値から雑音の標準偏差V(f,t)を加減算した範囲
S’(f,t) - V(f,t) ≦ <S(f,t)> ≦ S’(f,t) + V(f,t) …(6)
に収まる場合には、仮推定値S’(f,t)を補正値<S>に置き換え、それ以外の場合には、置き換えないなどである。
次に、本実施の形態の効果について説明する。
本実施の形態では、仮推定音声の補正に雑音標準偏差に基づく信頼度を考慮していることで、標準パタンによる補正が大きくずれることを抑制する効果がある。
[第4の実施形態]
次に、本発明の第4の実施形態について図面を参照して詳細に説明する。図5は、本発明の第4の実施形態の構成を示す図である。図5参照すると、本発明の第4の実施の形態は、図1に示した第1実施の形態の構成に加えて、仮推定音声補正部5で補正された、仮推定音声と、雑音平均スペクトル算出部2で算出された雑音平均スペクトルとから雑音低減フィルタを算出する雑音低減フィルタ算出部6と、雑音低減フィルタ算出部6で算出された雑音低減フィルタと入力信号取得部1から取得された入力信号スペクトルXから、推定音声を算出する推定音声算出部7を備えて構成されている。
次に本実施の形態の動作について詳細に説明する。
雑音低減フィルタの算出部6は、標準パタンを用いた仮推定音声の補正部5で補正された仮推定音声<S(f,t)>と、雑音平均スペクトル算出部2で算出された雑音平均スペクトルN(f,t)とから雑音低減フィルタを算出する。
具体的には、補正された仮推定音声<S(f,t)>をリニアスペクトルに変形し、事前SNR η(f,t)を、
η(f,t) = <S(f,t)>/N(f,t) …(7)
として求める。
上記事前SNR η(f,t)は、1つ前のフレームの事前SNRη(f,t-1)を用い、以下のように、平滑化して求めてもよい。
η(f,t) = β × η(f,t-1) + (1-β) × <S(f,t)>/N(f,t) …(8)
ただし、β(0≦β≦1)は平滑化をコントロールするパラメータである。
上記した例のほかにも、
・フレームの先読みを行い、前後の数フレームを使って平滑化する、あるいは、フレーム方向ではなく周波数方向に平滑化する、あるいはその組み合わせを用いてもよい。
雑音低減フィルタW(f,t)は、
W(f,t)=η(f,t)/(1+η(f,t)) …(9)
として算出する。
最後に、推定音声を算出する推定音声算出部7では、雑音低減フィルタの算出部6で算出された雑音低減フィルタW(f,t)と入力信号取得部1から取得された入力音声X(f,t)を用いて推定音声S(f,t)を、
S(f,t) = W(f,t)× X(f,t) …(10)
として算出する。
次に、本実施の形態の効果について説明する。
本実施の形態では、補正された仮推定音声を用いて、事前SNRを算出し、雑音低減フィルタを用いて、最終的な推定音声を求める構成とされている。標準パタンを構成する音声のパタンが有限の個数であるため、量子化されてしまうことを回避し、精度の高い推定音声を得ることができる。
[第5の実施形態]
図6は、本発明の第5の実施形態の構成を示す図である。図6を参照すると、本発明の第5の実施の形態は、前記第4の実施の形態の構成に対して、仮推定音声推定部5で補正された仮推定音声と、雑音平均スペクトラムの算出部2で算出された雑音平均スペクトルとから雑音低減フィルタを算出する雑音低減フィルタ算出部6が、仮推定音声推定部5で補正された仮推定音声と、雑音平均スペクトラムの算出部2で算出された雑音平均スペクトルと入力信号取得部1で取得された入力信号とから、雑音低減フィルタを算出する雑音低減フィルタの算出部6aに変更されている。
次に、本実施の形態について、前記第4の実施形態と異なる動作について説明する。
本実施の形態において、雑音低減フィルタの算出部6aでは、雑音低減フィルタの算出部6と同様の手法を用いて事前SNR η(f,t)を求めることに加えて、入力信号スペクトルX(f,t)と雑音平均スペクトルN(f,t)とを用いて、事後SNR γ(f,t)を、
γ(f,t) = X(f,t)/N(f,t) …(11)
として求める。
雑音低減フィルタW(f,t)は、事前SNR η(f,t)と事後SNR γ(f,t)を組み合わせたもの(非特許文献2にあるMMSE(minimum mean square error)フィルタなど)を使用する。
[第6の実施形態]
図7は、本発明の第6の実施形態の構成を示す図である。図7参照すると、本発明の第6の実施の形態は、前記第1の実施の形態の構成に加えて、標準パタンを用いた仮推定音声補正部5で算出した補正音声をある条件を満たすならば出力へ、満たさないならば再び標準パタンを用いた補正部5へ送るように働く収束判定部8とから構成されている。
ここでの条件とは、例えば、
・「処理をN回繰り返したとき」や、
・「新しく算出された補正値と1回前の補正値の差がある閾値以下であるとき」
など様々な判別手段を考えることができる。
次に、本実施の形態の効果について説明する。
本実施の形態では、処理を複数回繰り返して行うことで、真の値に、漸近させることができ、精度の高い推定音声を得ることができる。
[第7の実施形態]
図8は、本発明の第7の実施形態の構成を示す図である。図8を参照すると、本発明の第7の実施の形態は、前記第1の実施の形態の構成に対して、入力信号Xを取得する入力信号取得部1として、複数の入力信号X1〜XKを取得する手段1aを備えている。例えば、2つのマイクを使用する場合であれば、1つのマイクを音声入力用、もう1つのマイクを雑音入力用とするようにしてもよい。また、方向に応じて2つのマイクの入力信号を加算、減算、あるいは数倍するなどしてから、仮推定音声算出部3bと雑音スペクトル算出部2bに渡すようにしてもよい。もちろん、さらに多くのマイクを用いても良い。
次に、本実施の形態の効果について説明する。
本実施の形態によれば、複数の入力を用意することにより、仮推定音声と雑音スペクトルの精度を高めることができ、結果精度の高い推定音声を得ることができる。
なお、前記第1乃至第7の実施の形態は、互いに組み合わせて構成してもよい。
[第8の実施の形態]
図9は、本発明の第8の実施形態の構成を示す図である。図9を参照すると、本発明の第8の実施の形態は、第1乃至第7の実施の形態の構成のいずれか、あるいはこれらを組み合わせた雑音抑圧部12と、雑音抑圧部12から出力される推定音声を用いて音声認識を行う認識部13とから構成される。
次に、本実施の形態の効果について説明する。
本実施の形態によれば、高雑音の環境下でも高い認識率となる認識システムを構築することができる。
本発明によれば、雑音のある環境で雑音成分を取り除き、目的とする音声成分のみを取り出す用途に適応できる。また、雑音下での音声認識といった用途に適用できる。
本発明の第1の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第1の実施の形態に係る雑音抑圧システムにおける処理手順を示す流れ図である。 本発明の第2の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第3の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第4の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第5の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第6の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第7の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 本発明の第8の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。 従来法(SS法)を用いた雑音抑圧システムの構成を示すブロック図である。 従来法(平滑化事前SNRを用いたウィナーフィルタ)を用いた雑音抑圧システムの構成を示すブロック図である。 従来法(GMMに基づく音声信号推定法)を用いた雑音抑圧システムの構成を示すブロック図である。
符号の説明
1 入力信号取得部
1a 入力信号取得部(多入力)
2 雑音平均スペクトル算出部
2a 雑音平均スペクトル及び標準偏差の算出部
2b 雑音スペクトル算出部(多入力)
3 仮推定音声算出部
3a 仮推定音声及び信頼度算出部
3b 仮推定音声算出部(多入力)
3c 仮推定音声算出部(スペクトル減算)
4 標準パタン(確率分布)
4a 標準パタン(平均値)
5 標準パタンを用いた仮推定音声補正部
5a 標準パタンを用いた仮推定音声補正部
5b 標準パタンを用いた仮推定音声補正部
6 雑音低減フィルタ算出部(事前SNRのみ用いる)
6a 雑音低減フィルタ算出部(事前SNRと事後SNRを用いる)
7 推定音声算出部
7a 推定音声算出部
8 収束判定部
9 雑音適応パタン作成部
10 雑音適応パタン
11 パタン移動ベクトル期待値算出部
12 雑音抑圧部
13 認識部

Claims (30)

  1. 入力信号から雑音の平均スペクトルを算出する手段と、
    前記入力信号と、前記雑音の平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
    予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声を補正する手段と、
    を含む、ことを特徴とする雑音抑圧システム。
  2. 前記仮推定音声を補正する手段が、スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する手段と、
    特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声を補正する手段と、
    を含む、ことを特徴とする請求項1記載の雑音抑圧システム。
  3. 前記仮推定音声を補正する手段が、前記標準パタンとして確率分布を仮定し、
    前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、仮推定音声の補正値とする、
    ことを特徴とする請求項1又は2記載の雑音抑圧システム。
  4. 前記仮推定音声を補正する手段が、複数の音声のパタンからなる標準パタンを用いて仮推定音声を補正し、
    前記入力音声に最も近くなる標準パタンを選択して仮推定音声の補正値とするか、又は、前記入力音声に近くなる複数の音声のパタンを、距離に応じて、重み付け平均することで、前記仮推定音声の補正値とする、
    ことを特徴とする請求項1又は2記載の雑音抑圧システム。
  5. 前記仮推定音声を補正する手段が、雑音の標準偏差を求める手段を含み、
    前記雑音の標準偏差を考慮して補正を制御する、ことを特徴とする請求項1乃至4のいずれか一に記載の雑音抑圧システム。
  6. 前記雑音の標準偏差から前記仮推定音声と仮推定音声の信頼度を算出する手段を含み、
    前記仮推定音声の値と仮推定音声の信頼度とを考慮して前記仮推定音声の補正を行う、ことを特徴とする請求項5に記載の雑音抑圧システム。
  7. 前記補正された仮推定音声と、前記雑音平均スペクトルから、雑音低減フィルタを導出する手段と、
    前記入力信号に前記雑音低減フィルタによるフィルタリングを施し前記雑音低減フィルタの出力より、推定音声を得る手段と、
    を含む、ことを特徴とする請求項1乃至6のいずれか一に記載の雑音抑圧システム。
  8. 前記雑音低減フィルタを導出する手段は、前記補正された仮推定音声と、前記雑音平均スペクトルとに加えて、前記入力信号を用いて、前記雑音低減フィルタを構成する、ことを特徴とする請求項7記載の雑音抑圧システム。
  9. 前記雑音低減フィルタを導出する手段は、補正された推定音声、あるいは、補正された推定音声を雑音の平均スペクトルで除して得られる事前SNRに対し、時間方向、周波数方向、および特徴ベクトル次元数のうち少なくとも1つの方向に平滑化を行う、ことを特徴とする請求項7又は8記載の雑音抑圧システム。
  10. 標準パタンを用いて補正された推定音声を仮推定値とし、再び、前記標準パタンを用いて補正するという処理を、複数回繰り返す、ことを特徴とする請求項1乃至9のいずれか一に記載の雑音抑圧システム。
  11. 前記入力信号から雑音の平均スペクトルを算出する手段が、
    複数の入力信号のうち少なくとも1つの入力信号から雑音のスペクトルを算出し、
    前記入力信号と雑音平均スペクトルから仮推定音声を求める手段が、
    複数の入力信号のうち少なくとも1つの入力信号と前記雑音のスペクトルから仮推定音声を求める、ことを特徴とする請求項1乃至10のいずれか一に記載の雑音抑圧システム。
  12. 前記仮推定音声を補正する手段が、
    前記仮推定音声S’(f,t)(ただし、tはフレーム番号)を出力とする確率P(S’(f,t)|k)を以下のように定め、
    P(S’(f,t)|k) = W(k) p(S’(f,t)|μS (k)S (k)) / Σk W(k) p(S’(f,t)|μS (k)S (k))
    (だたし、
    kは、GMM(Gaussian Mixed Model)の要素であるガウス分布の添え字(k=1,…,K:Kは混合数)、
    W(k)は、ガウス分布kの重み、
    p(S’(f,t)|μS (k)S (k))は、平均値μS (k) 分散σS (k)を持つガウス分布が推定音声S’を出力する確率である。)、
    仮推定音声S’(f,t)を前記標準パタンで保持している音声のパタンの形に合わせ、
    確率P(S’(f,t)|k)を用いて、音声の期待値
    <S(f,t)> = Σk μS (k) P(S’(f,t)|k)
    を求め、これを仮推定音声S’(f,t)の補正値とする、ことを特徴とする請求項1記載の雑音抑圧システム。
  13. 前記仮推定音声を補正する手段が、
    前記仮推定音声S’(f,t)(ただし、tはフレーム番号)と、複数の音声のパタンによって構成される前記標準パタンとの距離
    d(k) = Σf (S’(f,t)- μs (k)(f))2
    (ただし、
    fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、
    k=1,…K(Kは標準パタンの数)、
    μs (k)は、標準パタンを構成する音声のパタンkの平均値である)
    を求め、仮推定音声S’(f,t)と標準パタンとの距離が最も小さくなるようなkを選び、S’(f,t)の値を、対応する標準パタンで置き換え、仮推定音声S’(f,t)の補正値とする、
    ことを特徴とする請求項1記載の雑音抑圧システム。
  14. 前記仮推定音声を補正する手段が、
    前記仮推定音声S’(f,t)(ただし、tはフレーム番号)と複数の音声のパタンによって構成される前記標準パタンとの距離)
    d(k) = Σf (S’(f,t)- μs (k)(f))2
    (ただし、
    fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、
    k=1,…K(Kは標準パタンの数)、
    μs (k)は、標準パタンを構成する音声のパタンkの平均値である)
    を求め、仮推定音声S’(f,t)と標準パタンとの距離が近くなるものを複数個選び、距離に応じて重み付け平均したものを、仮推定音声S’(f,t)の補正値とする、ことを特徴とする請求項1記載の雑音抑圧システム。
  15. 前記雑音平均スペクトルN(f,t)(ただし、tはフレーム番号)と、前記仮推定音声<S(f,t)>とに基づき、算出される事前SNR η(f,t) = <S(f,t)>/N(f,t)に対して、雑音低減フィルタW(f,t)、
    W(f,t)=η(f,t)/(1+η(f,t))
    を算出し、
    前記雑音低減フィルタW(f,t)と入力信号スペクトルX(f,t)を用いて仮推定音声S(f,t)を、周波数領域での乗算
    S(f,t) = W(f,t)× X(f,t)
    にて算出する、ことを特徴とする請求項1記載の雑音抑圧システム。
  16. 前記事前SNR η(f,t)(ただし、tはフレーム番号)を1フレーム前のη(f,t-1) を用い、η(f,t) = β × η(f,t-1) + (1-β) × <S(f,t)>/N(f,t)
    (ただし、β(0≦β≦1)は平滑化をコントロールするパラメータ)として平滑化して求める、ことを特徴とする請求項15記載の雑音抑圧システム。
  17. 前記雑音平均スペクトルN(f,t)と、前記仮推定音声<S(f,t)>とに基づき、算出される事前SNR η(f,t)と、前記雑音平均スペクトルN(f,t)と、前記入力信号スペクトルX(f,t)とに基づき算出される事後SNR γ(f,t)を求め、
    前記雑音低減フィルタW(f,t)を、事前SNR η(f,t)と事後SNR γ(f,t)を組み合わせたものを用い、
    前記雑音低減フィルタW(f,t)と入力音声スペクトルX(f,t)を用いて仮推定音声S(f,t)を、周波数領域での乗算
    S(f,t) = W(f,t)× X(f,t)
    にて算出する、ことを特徴とする請求項1記載の雑音抑圧システム。
  18. 請求項1乃至17のいずれか一に記載の雑音抑圧システムを備え、
    前記入力信号に含まれる音声の強調を行う、ことを特徴とする信号強調システム。
  19. 請求項1乃至17のいずれか一に記載の雑音抑圧システムを備え、
    前記雑音抑圧システムにおいて雑音が抑圧された音声信号を入力し音声認識する手段を含む、ことを特徴とする音声認識装置。
  20. 入力信号から雑音を抑圧し音声を推定する方法であって、
    前記入力信号から雑音の平均スペクトルを算出する工程と、
    前記入力信号と前記雑音の平均スペクトルとからスペクトル領域で仮推定音声を求める工程と、
    予め記憶部に記憶されている音声の標準パタンを用いて、前記仮推定音声を補正する工程と、
    を含む、ことを特徴とする雑音抑圧方法。
  21. スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する工程と、
    特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声を補正する工程と、
    を含む、ことを特徴とする請求項20記載の雑音抑圧方法。
  22. 前記仮推定音声を補正する工程において、
    前記標準パタンとして確率分布を仮定し、
    前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、前記仮推定音声の補正値とする、ことを特徴とする請求項20又は21記載の雑音抑圧方法。
  23. 前記仮推定音声を補正する工程において、
    複数の音声のパタンからなる前記標準パタンを用いて、前記仮推定音声を補正し、
    前記入力音声に最も近くなる標準パタンを選択して、前記仮推定音声の補正値とするか、あるいは、前記入力音声に近くなる前記複数の音声のパタンを距離に応じて重み付け平均することで前記仮推定音声の補正値とする、ことを特徴とする請求項20又は21記載の雑音抑圧方法。
  24. 前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを算出する工程と、
    前記入力信号に対して前記雑音低減フィルタを施して推定音声を得る工程と、
    を含む、ことを特徴とする請求項20乃至23のいずれか一に記載の雑音抑圧方法。
  25. 入力信号を入力し雑音を抑圧し音声を推定するコンピュータに、
    入力信号から雑音の平均スペクトルを算出する処理と、
    前記入力信号と、前記雑音の平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、
    予め記憶部に記憶された音声の標準パタンを用いて前記仮推定音声を補正する処理と、
    を実行させるプログラム。
  26. 前記仮推定音声を補正する処理が、
    スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する処理と、
    特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声を補正する処理と、
    を含む、ことを特徴とする請求項25記載のプログラム。
  27. 前記仮推定音声を補正する処理が、
    前記標準パタンとして確率分布を仮定し、前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、仮推定音声の補正値とする、ことを特徴とする請求項25又は26記載のプログラム。
  28. 前記仮推定音声を補正する処理が、
    複数の音声のパタンからなる標準パタンを用いて仮推定音声を補正し、
    入力音声に最も近くなる標準パタンを選択して仮推定音声の補正値とするか、あるいは
    入力音声に近くなる複数の音声のパタンを、距離に応じて、重み付け平均することで、前記仮推定音声の補正値とする、ことを特徴とする請求項25又は26記載のプログラム。
  29. 請求項25乃至28のいずれか一に記載のプログラムにおいて、
    補正された推定音声と、雑音平均スペクトルから雑音低減フィルタを算出する処理と、
    入力信号に対して前記雑音低減フィルタを施し、推定音声を得る処理と、
    をさらに前記コンピュータに実行させるプログラム。
  30. 音声認識装置を構成するコンピュータに、
    請求項25乃至29のいずれか一に記載のプログラムによる処理で雑音が抑圧された音声信号を入力し、音声認識を実行する処理を実行させるプログラム。
JP2005217694A 2005-07-27 2005-07-27 雑音抑圧システムと方法及びプログラム Expired - Fee Related JP4765461B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005217694A JP4765461B2 (ja) 2005-07-27 2005-07-27 雑音抑圧システムと方法及びプログラム
US11/489,594 US9613631B2 (en) 2005-07-27 2006-07-20 Noise suppression system, method and program
CN2006101080579A CN1905006B (zh) 2005-07-27 2006-07-27 噪声抑制系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005217694A JP4765461B2 (ja) 2005-07-27 2005-07-27 雑音抑圧システムと方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007033920A true JP2007033920A (ja) 2007-02-08
JP4765461B2 JP4765461B2 (ja) 2011-09-07

Family

ID=37674255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005217694A Expired - Fee Related JP4765461B2 (ja) 2005-07-27 2005-07-27 雑音抑圧システムと方法及びプログラム

Country Status (3)

Country Link
US (1) US9613631B2 (ja)
JP (1) JP4765461B2 (ja)
CN (1) CN1905006B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031425A (ja) * 2007-07-25 2009-02-12 Nec Corp 雑音推定装置と方法およびプログラム
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム
JP2010072164A (ja) * 2008-09-17 2010-04-02 Nippon Telegr & Teleph Corp <Ntt> 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
WO2015141103A1 (ja) * 2014-03-17 2015-09-24 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
WO2016009654A1 (ja) * 2014-07-16 2016-01-21 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラムを格納した記録媒体
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法
JP2018036523A (ja) * 2016-08-31 2018-03-08 株式会社東芝 信号処理装置、信号処理方法およびプログラム

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
CN101715643B (zh) * 2007-06-27 2012-12-26 日本电气株式会社 多地点连接装置、信号分析以及装置、其方法及程序
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
ATE454696T1 (de) * 2007-08-31 2010-01-15 Harman Becker Automotive Sys Schnelle schätzung der spektraldichte der rauschleistung zur sprachsignalverbesserung
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US10296528B2 (en) * 2007-12-31 2019-05-21 Thomson Reuters Global Resources Unlimited Company Systems, methods and software for evaluating user queries
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
JP5381982B2 (ja) * 2008-05-28 2014-01-08 日本電気株式会社 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8380497B2 (en) 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
KR101253102B1 (ko) 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8571231B2 (en) 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
US20110178800A1 (en) 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
JP5867389B2 (ja) * 2010-05-24 2016-02-24 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
WO2012098579A1 (ja) * 2011-01-19 2012-07-26 三菱電機株式会社 雑音抑圧装置
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
WO2014049944A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US10347273B2 (en) 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
CN105812068B (zh) * 2016-03-23 2018-05-04 国家电网公司 一种基于高斯分布加权的噪声抑制方法及装置
KR102793521B1 (ko) 2016-12-14 2025-04-09 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN109346099B (zh) * 2018-12-11 2022-02-08 珠海一微半导体股份有限公司 一种基于语音识别的迭代去噪方法和芯片
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191689A (ja) * 1993-12-27 1995-07-28 Nec Corp 音声認識装置
JPH11327593A (ja) * 1998-05-14 1999-11-26 Denso Corp 音声認識システム
JP2003507764A (ja) * 1999-08-16 2003-02-25 ウェーブメーカーズ・インコーポレーテッド 雑音を含む音響信号を高品質化するための方法
JP2003216180A (ja) * 2002-01-25 2003-07-30 Matsushita Electric Ind Co Ltd 音声認識装置およびその方法
JP2005084653A (ja) * 2003-09-11 2005-03-31 National Institute Of Advanced Industrial & Technology 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359695A (en) * 1984-01-30 1994-10-25 Canon Kabushiki Kaisha Speech perception apparatus
JPH05134694A (ja) * 1991-11-15 1993-05-28 Sony Corp 音声認識装置
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6591234B1 (en) * 1999-01-07 2003-07-08 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US20020116177A1 (en) * 2000-07-13 2002-08-22 Linkai Bu Robust perceptual speech processing system and method
FR2820227B1 (fr) 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
FR2848715B1 (fr) * 2002-12-11 2005-02-18 France Telecom Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
JP4989967B2 (ja) * 2003-07-11 2012-08-01 コクレア リミテッド ノイズ低減のための方法および装置
US7483831B2 (en) * 2003-11-21 2009-01-27 Articulation Incorporated Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
EP1600947A3 (en) * 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtractive cancellation of harmonic noise
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191689A (ja) * 1993-12-27 1995-07-28 Nec Corp 音声認識装置
JPH11327593A (ja) * 1998-05-14 1999-11-26 Denso Corp 音声認識システム
JP2003507764A (ja) * 1999-08-16 2003-02-25 ウェーブメーカーズ・インコーポレーテッド 雑音を含む音響信号を高品質化するための方法
JP2003216180A (ja) * 2002-01-25 2003-07-30 Matsushita Electric Ind Co Ltd 音声認識装置およびその方法
JP2005084653A (ja) * 2003-09-11 2005-03-31 National Institute Of Advanced Industrial & Technology 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031425A (ja) * 2007-07-25 2009-02-12 Nec Corp 雑音推定装置と方法およびプログラム
WO2009038013A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 雑音除去システム、雑音除去方法および雑音除去プログラム
JP5344251B2 (ja) * 2007-09-21 2013-11-20 日本電気株式会社 雑音除去システム、雑音除去方法および雑音除去プログラム
JP2010072164A (ja) * 2008-09-17 2010-04-02 Nippon Telegr & Teleph Corp <Ntt> 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
WO2015141103A1 (ja) * 2014-03-17 2015-09-24 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
US10043532B2 (en) 2014-03-17 2018-08-07 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
WO2016009654A1 (ja) * 2014-07-16 2016-01-21 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラムを格納した記録媒体
US10748551B2 (en) 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法
JP2018036523A (ja) * 2016-08-31 2018-03-08 株式会社東芝 信号処理装置、信号処理方法およびプログラム

Also Published As

Publication number Publication date
JP4765461B2 (ja) 2011-09-07
US20070027685A1 (en) 2007-02-01
US9613631B2 (en) 2017-04-04
CN1905006B (zh) 2012-11-07
CN1905006A (zh) 2007-01-31

Similar Documents

Publication Publication Date Title
JP4765461B2 (ja) 雑音抑圧システムと方法及びプログラム
Xu et al. An experimental study on speech enhancement based on deep neural networks
EP1760696B1 (en) Method and apparatus for improved estimation of non-stationary noise for speech enhancement
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
US9530432B2 (en) Method for determining the presence of a wanted signal component
JP5262713B2 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
CN101154383B (zh) 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
JP2014137405A (ja) 音響処理装置及び音響処理方法
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
JP2003303000A (ja) 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置
JP2010078650A (ja) 音声認識装置及びその方法
US20060165202A1 (en) Signal processor for robust pattern recognition
Elshamy et al. An iterative speech model-based a priori SNR estimator
Delcroix et al. Cluster-based dynamic variance adaptation for interconnecting speech enhancement pre-processor and speech recognizer
Abe et al. Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction.
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
GB2564607A (en) Acoustic model learning device, acoustic model learning method, speech recognition device, and speech recognition method
Han et al. Reverberation and noise robust feature compensation based on IMM
Tashev et al. Unified framework for single channel speech enhancement
Borgström et al. HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
Li et al. Improved cepstra minimum-mean-square-error noise reduction algorithm for robust speech recognition
Xiong et al. Robust ASR in reverberant environments using temporal cepstrum smoothing for speech enhancement and an amplitude modulation filterbank for feature extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110530

R150 Certificate of patent or registration of utility model

Ref document number: 4765461

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees