JP2016042613A - 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ - Google Patents
目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ Download PDFInfo
- Publication number
- JP2016042613A JP2016042613A JP2014164948A JP2014164948A JP2016042613A JP 2016042613 A JP2016042613 A JP 2016042613A JP 2014164948 A JP2014164948 A JP 2014164948A JP 2014164948 A JP2014164948 A JP 2014164948A JP 2016042613 A JP2016042613 A JP 2016042613A
- Authority
- JP
- Japan
- Prior art keywords
- coherence
- frequency
- average
- signal
- target speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 57
- 230000007774 longterm Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003292 diminished effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】大雑音環境下でも、雑音の影響を軽減して平均コヒーレンスを算出し、目的音声区間の検出性能を改善できるようにする目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバを提供する。【解決手段】入力音信号に基づいて第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号とコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算部14と、周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算部15と、平均コヒーレンスに基づいて入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定部16とを備える。【選択図】図1
Description
本発明は、目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバに関し、例えば、電話やテレビ会議等の音声を用いる通信機器やサーバにおける音響信号処理に適用し得るものである。
例えば携帯端末(例えば、スマートフォンや携帯電話機等)や車載機器等には、入力された音声を認識する音声認識機能や音声通話機能等が搭載されるようになってきており、音声認識機能などの音声信号処理はますます厳しい雑音環境下で用いられるようになってきている。厳しい雑音環境下で音声信号処理機能が性能を維持できるようにするためには、利用者により発せられた音声を雑音等と区別して抽出することが好ましい。そして、正確に音声を抽出するためには、話者が話している区間(目的音声区間)と話者が話しておらず背景雑音だけが存在する区間(背景雑音区間)とを区別して検出する技術が必要である。
目的音声区間と背景雑音区間とを区別する方法として、音声信号レベルと雑音信号とのレベル差に基づいて検出する方法や、特許文献1に記載されるようなコヒーレンスを用いる方法が挙げられる。
特許文献1の記載技術は、マイクロホンの左右に死角を有する2つの指向性を形成して得た2つの信号の相関に応じたコヒーレンス係数を周波数帯域毎に算出し、全周波数帯域のコヒーレンス係数を平均した平均コヒーレンスの大小に基づいて目的音声区間を検出するものである。平均コヒーレンスの大小は目的音声の到来方位と直結する特徴量なので、特許文献1の記載技術は、目的音声の到来方位に基づいて目的音声区間を検出する方式であるといえる。そのため、音声信号のレベル差に基づいて検出する方式とは異なり、大きな雑音に目的音声が埋もれ、目的音声レベルと雑音レベルとの差がつきにくい場合でも、目的音声区間を検出することができる。
しかしながら、先述のように、近年、利用者は、ますます過酷な雑音環境下で携帯端末や車載機器等を利用するようになってきており、大きな雑音によってSN比が0に近づき、さらにはマイナスになってしまうような場合には、特許文献1に記載の方式であっても、目的音声が雑音の影響を受けて、目的音声の特徴が薄れてしまい、目的音声区間の検出性能が低下してしまうという問題が生じ得る。
例えば高速走行中の自動車内等のようにSN比がマイナスとなってしまう場合、周波数帯域毎に算出されるコヒーレンス係数の一部が雑音の影響を受け、目的音声の特徴が薄れていく。これにより、コヒーレンス係数を全周波数で平均した平均コヒーレンスも間接的に雑音の影響を受け、目的音声区間と雑音区間との特性差が小さくなるために、目的音声区間の検出性能が低下してしまう。
そのため、大雑音環境下でも正確に、目的音声区間を検出できるような目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバが求められている。
本発明は、前記課題を解決するためになされたものであり、次のような構成を採用する。
第1の本発明に係る目的音声区間検出装置は、(1)入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、(2)コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、(3)平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段とを備えることを特徴とする。
第2の本発明に係る目的音声区間検出方法は、(1)コヒーレンス係数計算手段が、入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出し、(2)平均コヒーレンス計算手段が、コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出し、(3)目的音声判定手段が、平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定することを特徴とする。
第3の本発明に係る目的音声区間検出プログラムは、コンピュータを、(1)入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、(2)コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、(3)平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段として機能させることを特徴とする。
第4の本発明に係る音声信号処理装置は、少なくとも2個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なう音声信号処理装置において、(1)入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、(2)コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、(3)平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段とを備えることを特徴とする。
第5の本発明に係るサーバは、少なくとも2個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なうサーバにおいて、(1)入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、(2)コヒーレンス係数計算手段により算出された周波数毎のコヒーレンス係数に基づいて、入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域でのコヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、(3)平均コヒーレンス計算手段により算出された平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段とを備えることを特徴とする。
本発明によれば、大雑音環境下でも、雑音の影響を軽減して平均コヒーレンスを算出し、目的音声区間の検出性能を改善できる。
(A)主たる実施形態
以下では、本発明に係る目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバの実施形態を、図面を参照しながら詳細に説明する。
以下では、本発明に係る目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバの実施形態を、図面を参照しながら詳細に説明する。
(A−1)実施形態の構成
この実施形態に係る目的音声区間検出装置は、一対のマイクロホンが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末やテレビ会議機器や車載機器等のように、一対のマイクロホンが搭載若しくは外付けされており、一対のマイクロホンにより収音された音声に対して音声信号処理を行なうものに広く適用することができる。
この実施形態に係る目的音声区間検出装置は、一対のマイクロホンが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末やテレビ会議機器や車載機器等のように、一対のマイクロホンが搭載若しくは外付けされており、一対のマイクロホンにより収音された音声に対して音声信号処理を行なうものに広く適用することができる。
特許請求の範囲に記載の「音声信号処理装置」は、少なくとも2個のマイクロホンにより捕捉された周囲音の入力音信号を用いて音声信号処理機能を有するものであり、例えば、携帯端末(例えば、スマートフォン、タブレット型端末、携帯電話機等を含む概念)、ノート型パーソナルコンピュータ、パーソナルコンピュータ、ゲーム端末、テレビ会議用機器、車載機器等を適用できる。
以下では、この実施形態に係る目的音声区間検出装置が、一対のマイクロホンが搭載されて構成されている場合を例示して説明する。
図1は、この実施形態に係る目的音声区間検出装置1の構成を示すブロック図である。
この実施形態に係る目的音声区間検出装置1は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素(例えば、スピーカ、マイクロホン、アナログ/デジタル変換部(A/D変換部)、デジタル/アナログ変換部(D/A変換部)等を除く部分)を、CPU、ROM、RAM等のプログラムの実行構成を適用して、その機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、目的音声区間検出装置1の機能的な詳細構成は、図1で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、目的音声区間検出装置1が有するメモリに装置出荷時に書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。
図1において、この実施形態に係る目的音声区間検出装置1は、マイクロホンm_1、マイクロホンm_2、FFT(高速フーリエ変換)部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス係数計算部14、平均コヒーレンス計算部15、目的音声区間判定部16を有する。
マイクロホンm_1及びm_2はそれぞれ、周囲音を捕捉して電気信号(アナログ信号)に変換するものである。マイクロホンm_1及びm_2は、正面から到来する音を主として捕捉するような指向性を有するものであることが好ましい。マイクロホンm_1及びM_2は、図示しないA/D変換部を介してFFT部11と接続しており、マイクロホンm_1及びm_2により捕捉された入力音声信号はそれぞれ、A/D変換部によりデジタル信号s1(n)及びs2(n)に変換されてFFT部11に与えられる。各マイクロホンm_1及びm_2は、例えば、目的音声区間検出装置1を搭載している機器の筐体に設けられたものであっても良いし、又は、機器に外付けされて接続されたものであっても良い。
FFT部11は、マイクロホンm_1及びM_2により捕捉された入力音声信号の各デジタル信号s1(n)及びs2(n)を、時間領域から周波数領域に変換して周波数領域信号X1(f,K)及びX2(f,K)を算出するものである。なお、上記「n」は時間を表すパラメータであり、「f」は周波数を表すパラメータであり、「K」は、分析フレームのフレーム番号を表すパラメータである。例えば、FFT部11は、入力信号s1(n)に基づき所定のN個のサンプルからなるものを1つの分析フレームとし、FFT部11は、分析フレーム毎に高速フーリエ変換処理を施すことで、入力信号s1(n)を周波数領域信号X1(f,K)に変換する。なお、以下では、フレームの順番が特に問題とならない場合には「K」の表記を省略して表現していることもある。
第1の指向性形成部12及び第2の指向性形成部13は、FFT部11からの2つの周波数領域信号に遅延減算処理を施して、所定の方位に死角を有する指向性を形成するものである。第1の指向性形成部12及び第2の指向性形成部13は、所定の方位に死角を有する指向性を形成した信号B1(n)及びB2(n)をコヒーレンス係数計算部14に与える。
第1の指向性形成部12は、式(1)に従って、FFT部11からの2つの周波数領域信号X1(f,K)及びX2(f,K)に基づいて、例えば正面に対して右方向に強い指向性を持つ信号B1(f)を算出するものである。
また、第2の指向性形成部13は、式2)に従って、FFT部11からの2つの周波数領域信号X1(f,K)及びX2(f,K)に基づいて、例えば正面に対して左方向に強い指向性を持つ信号B2(f)を算出するものである。信号B1(f)及びB2(f)は複素で表されている。
コヒーレンス係数計算部14は、第1の指向性形成部12及び第2の指向性形成部13により得られた信号B1(f,K)及びB2(f,K)を用いて、式(3)に従って、コヒーレンス係数cor(f,K)を周波数毎に算出するものである。なお、式(3)において、B2(f)*はB2(f)の共役複素数を示している。コヒーレンス係数計算部14は、得られたコヒーレンス係数cor(f,K)を平均コヒーレンス計算部15に与える。
なお、この実施形態では、コヒーレンス係数計算部14は、式(4)を利用してコヒーレンスAVE_CORを算出しないが、後述する説明でコヒーレンスCORに言及するので、式(4)にコヒーレンスAVE_CORの算出式を記載しておく。式(4)に示すコヒーレンスAVE_CORは、全ての周波数f1〜fmのコヒーレンス係数cor(f)の平均値である。
平均コヒーレンス計算部15は、コヒーレンス係数計算部14により得られたコヒーレンス係数cor(f,K)に基づいて、雑音の影響の大きさを周波数毎に判定し、雑音の影響の小さい周波数帯域のコヒーレンス係数のみを用いて、平均コヒーレンスAVE_COR(K)を算出するものである。
ここで、平均コヒーレンス計算部15について説明する。例えば、走行中の自動車等の車内のように大雑音環境下では、目的音声が雑音に埋もれてしまう。図2は、大雑音環境下における目的音声及び雑音信号の概略的な特性を簡単に説明する説明図である。図2において、横軸は周波数を示しており、縦軸は信号パワーを示している。図2に示すように、雑音信号は、低域に雑音成分のパワーが集中しており、高域では雑音成分のパワーが小さいという特性があり、周波数帯域毎に雑音信号成分の含有量が異なる。そのため、雑音信号が音声信号に及ぼす影響が大きい帯域と小さい帯域とがある。
そして、周波数毎のコヒーレンス係数には、(a)雑音信号成分の影響が大きい周波数帯域では、目的音声の特徴が薄れるため、目的音声の有無によらずコヒーレンス係数の値には大きな変動が無い、(b)雑音信号成分の影響が小さい周波数帯域では、目的音声の特徴が残るため、目的音声が存在する区間ではコヒーレンス係数が急変動する、という特徴がある。
そこで、この実施形態では、平均コヒーレンス計算部15が、周波数毎のコヒーレンス係数の特徴に基づいて、周波数毎に雑音信号成分の影響が大きいか否かを判定する。そして、平均コヒーレンス計算部15は、雑音信号成分の影響が大きい周波数帯域のコヒーレンス係数について、コヒーレンスの算出には寄与させずに棄却し、雑音の影響が小さい周波数帯域のコヒーレンス係数のみを用いてコヒーレンスの算出に寄与させるように制御する。これにより、大雑音環境下でも、雑音信号成分の影響を軽減した上でコヒーレンスを算出し、目的音声区間の検出性能を改善できるようになる。
図3は、この実施形態に係る平均コヒーレンス計算部15の構成を示すブロック図である。図3において、この実施形態に係る平均コヒーレンス計算部15は、長期平均値算出部151、雑音影響度判定部152、加算部153、カウンター部154、平均コヒーレンス算出部155、周波数毎長期平均値格納部156を有する。
長期平均値算出部151は、コヒーレンス係数計算部14により得られた各周波数のコヒーレンス係数cor(f,K)を用いて、コヒーレンス係数の長期平均値long_cor(f,K)を周波数毎に算出するものである。
雑音影響度判定部152は、長期平均値算出部151により得られた周波数毎のコヒーレンス係数の長期平均値long_cor(f,K)と、コヒーレンス係数cor(f,K)との比と所定の閾値Θとを比較して、雑音の影響度を周波数毎に判定するものである。なお、この実施形態では、雑音影響度判定部152が、コヒーレンス係数の長期平均値long_cor(f,K)と、コヒーレンス係数cor(f,K)との比を求める場合を例示するが、比に限定されるものではなく、コヒーレンス係数の長期平均値long_cor(f,K)と、コヒーレンス係数cor(f,K)との差分を求め、その差分値と閾値とを比較して判定するようにしても良い。
この判定法で雑音の影響の大きさを推定できる背景を捕捉する。上述したように、大雑音環境下において、雑音信号成分の影響が大きい周波数帯域では、目的音声信号成分が雑音信号成分に埋もれてしまい、目的音声信号の特徴が薄れてしまい、コヒーレンス係数の値に大きな変動はない。これに対して、雑音信号成分の影響が小さい周波数帯域では、目的音声信号の特徴が残るため、目的音声信号成分の影響を受けてコヒーレンス係数が急変動する。
そこで、雑音影響度判定部152は、周波数毎に、コヒーレンス係数の長期平均値long_cor(f,K)と、コヒーレンス係数cor(f,K)との比又は差分値と所定の閾値Θとを比較し、その比又は差分値が閾値Θ以上のときには、目的音声に由来する信号成分の寄与が大きく、雑音信号成分の影響が小さいと判定し、その比又は差分が閾値Θより小さいときには、目的音声に由来する信号成分の寄与が小さく、雑音信号成分の影響が大きいと判定する。
加算部153は、雑音影響度判定部152により雑音信号成分の影響が小さいと判定された周波数のコヒーレンス係数のみを加算するものである。また、加算部153は、フレーム毎に、雑音信号成分の影響の小さい周波数のコヒーレンス係数の加算値を求めるため、フレーム毎にコヒーレンス係数の加算値を初期化する。
カウンター部154は、加算部153により加算されたコヒーレンス係数の数をカウントするものである。すなわち、カウンター部154は、加算部153によりコヒーレンス係数が加算される毎に、カウンター値をインクリメントする。また、カウンター部154は、フレーム毎に加算したコヒーレンス係数の数をカウントするようにするため、フレーム毎にカウンター値を初期化する。
平均コヒーレンス算出部155は、加算部153により加算されて得たコヒーレンス係数の加算値を、カウンター部154によりカウントされたカウンター値で除算して、平均コヒーレンスAVE_COR(K)を算出するものである。平均コヒーレンス算出部155により得られた平均コヒーレンスAVE_COR(K)が、平均コヒーレンス計算部15の出力として目的音声区間判定部16に与えられる。
周波数毎長期平均値格納部156は、長期平均値算出部151において周波数毎のコヒーレンス係数の長期平均値を算出する際に利用する、各周波数のコヒーレンス係数の過去の長期平均値を周波数毎に格納するものである。
目的音声区間判定部16は、平均コヒーレンス計算部15により得られた平均コヒーレンスAVE_COR(K)に基づいて、目的音声区間を判定するものである。
図4は、この実施形態に係る目的音声区間判定部16の構成を示すブロック図である。図4において、目的音声区間判定部16は、平均コヒーレンス取得部161、閾値比較判定部162、判定結果出力部163を有する。
平均コヒーレンス取得部161は、平均コヒーレンス計算部15により得られた平均コヒーレンスAVE_COR(K)を取得するものである。
閾値比較判定部162は、平均コヒーレンス取得部161により取得された平均コヒーレンスAVE_COR(K)と目的音声区間判定閾値とを比較し、平均コヒーレンスAVE_COR(K)が目的音声区間判定閾値より大きいとき、当該フレームは目的音声区間と判定し、そうでないとき、当該フレームは背景雑音区間と判定するものである。
判定結果出力部163は、閾値比較判定部162により目的音声区間と判定されたとき、判定結果を格納する変数resに「1」を代入して後段の構成部に出力し、又背景雑音区間と判定されたときに、変数resに「0」を代入して後段の構成部に出力するものである。
(A−2)実施形態の動作
次に、実施形態に係る目的音声区間検出装置1における目的音声区間検出方法の処理動作を、図面を参照しながら詳細に説明する。
次に、実施形態に係る目的音声区間検出装置1における目的音声区間検出方法の処理動作を、図面を参照しながら詳細に説明する。
一対のマイクロホンm_1及びm_2により捕捉された入力音信号(アナログ信号)は、図示しないA/D変換部によりデジタル信号に変換され、デジタル信号s1(n)及びs2(n)がFFT部11に与えられる。
FFT部11において、デジタル信号s1(n)及びs2(n)はそれぞれ、時間領域から周波数領域に変換され、周波数領域信号X1(f,K)及びX2(f,K)が第1の指向性形成部12及び第2の指向性形成部13に与えられる。
第1の指向性形成部12及び第2の指向性形成部13では、所定の方位に死角を有する信号B1(f,K)及びB2(f,K)が生成されて、信号B1(f,K)及びB2(f,K)がコヒーレンス係数計算部14に与えられる。
コヒーレンス係数計算部14では、式(3)に従って、第1の指向性形成部12からの信号B1(f,K)と、第2の指向性形成部13からの信号B2(f,K)とに基づいて、コヒーレンス係数cor(f,K)が計算される。得られたコヒーレンス係数cor(f,K)は、平均コヒーレンス計算部15に与えられる。
平均コヒーレンス計算部15では、各周波数のコヒーレンス係数cor(f,K)に基づいて雑音の影響の強弱を周波数毎に判定し、雑音の影響の小さい帯域のコヒーレンス係数のみを用いて平均コヒーレンスAVE_COR(K)が算出される。
図5は、実施形態に係る平均コヒーレンス計算部15における平均コヒーレンス計算処理の動作例を示すフローチャートである。
S101では、平均コヒーレンスAVE_COR(K)と、雑音の影響が小さい周波数のコヒーレンス係数の数を示すカウンター値(COUNT)とが初期化される。
次に、全ての周波数について周波数毎に雑音の影響の大きさを判定するために、S102〜S106の処理を周波数毎にループさせる。S102では、所定の周波数ビンfからSTARTし、当該周波数ビンに関する処理が終了すると、周波数ビンfの値をインクリメント(図4では、「f++」と表記する。)、ENDまで繰り返し処理を行なう。
S103では、当該周波数のコヒーレンス係数の長期平均値long_cor(f,K)が算出される。ここで、コヒーレンス係数の長期平均値long_cor(f,K)の算出方法は、式(5)を利用することができる。
式(5)は、当該周波数のコヒーレンス係数の過去の長期平均値long_cor(f,K−1)と、現在のコヒーレンス係数cor(f,K)とを用いて重み付け平均を行なうことにより、長期平均値long_cor(f,K)を算出する関係式である。
ここで、αは、長期平均値long_cor(f,K−1)と、現在のコヒーレンス係数cor(f,K)とに付与する重みを表す値であり、0<α<1の任意の値をとることができる。例えば、αが「0」に近い値とする場合、過去の長期平均値long_cor(f,K−1)の影響を大きくした長期平均値long_cor(f,K)を算出することができる。一方、αが「1」に近い値とする場合、現在のフレームのコヒーレンス係数cor(f,K)の影響を大きくした長期平均値long_cor(f,K)を算出することができる。なお、αは、固定値であっても良いし、又は変動値であっても良い。さらに、αは、周波数毎に同じ値であっても良いし、又は異なる値であっても良い。
また、式(5)における過去のコヒーレンス係数の長期平均値long_cor(f,K−1)は、任意のフレーム長のコヒーレンス係数を用いて算出したものであっても良い。任意のフレーム長は、周波数毎に異なるものであっても良い。
なお、この実施形態では、式(5)を利用してコヒーレンス係数の長期平均値long_cor(f,K)を算出する場合を例示したが、その他の任意の算出方式を用いるようにしても良い。例えば、他の算出方式として算術平均を利用するようにしても良い。算術平均の場合、例えば式(5)においてα=0.5とすることで、過去の長期平均値long_cor(f,K−1)と、現在のコヒーレンス係数cor(f,K)との影響度を同じにして、現在フレームの長期平均値long_cor(f,K)を算出できる。
S104では、コヒーレンス係数の値の急激な変動を検出するため、S103で算出した長期平均値long_cor(f,K)と現在フレームのコヒーレンス係数cor(f,K)との比を取り、その比と閾値Θとを比較する。そして、上記比が閾値Θ以上であれば目的音声の影響が大きいと判定し、処理はS105に移行する。また、上記比が閾値Θ未満であれば、雑音の影響が大きく、目的音声の影響は小さいと判定し、処理はS106に移行する。
long_cor(f,K)/cor(f,K)≧Θ …(6)
式(6)において、閾値Θは、任意の値とすることができ、例えば固定値であっても良いし又は可変値であっても良い。さらに、閾値Θは、周波数毎に、同じ値であっても良いし又は異なる値としても良い。
式(6)において、閾値Θは、任意の値とすることができ、例えば固定値であっても良いし又は可変値であっても良い。さらに、閾値Θは、周波数毎に、同じ値であっても良いし又は異なる値としても良い。
S105において、上記比が閾値Θ以上であり、目的音声の影響が大きいと判定される(すなわち、雑音の影響が小さいと判定される)と、平均コヒーレンスを格納する中間変数値AVE_COR(K)に、当該周波数帯域のコヒーレンス係数cor(f,K)を加算すると共に、コヒーレンス数をカウントするカウンター値をインクリメント(図4では「COUNT++」と表記する。)する。
S105では、上記比が閾値Θ以上であり、目的音声の影響が大きいと判定した周波数帯域のコヒーレンス係数cor(f,K)を平均コヒーレンスAVE_COR(K)に加算している。しかし、上記比が閾値Θ未満であり、目的音声の影響が小さいと判定された周波数帯域のコヒーレンス係数は加算せず、平均コヒーレンスAVE_COR(K)に寄与させない。以上のS102〜S106の処理を、全ての周波数について終了するまでループする。
S107では、平均コヒーレンスAVE_COR(K)をカウンター値(COUNT)で除算することで、平均コヒーレンスAVE_COR(K)が算出される。そして、得られた平均コヒーレンスAVE_COR(K)は、目的音声区間判定部16に与えられる。
S108では、分析フレームであるKがインクリメントされ(図4では「K++」と表記する。)、次のフレームについて処理が繰り返し行なわれる。
目的音声区間判定部16では、平均コヒーレンス計算部15により算出された平均コヒーレンスAVE_COR(K)と所定の閾値とが比較され、平均コヒーレンスAVE_COR(K)が閾値以上であれば目的音声区間と判定し、平均コヒーレンスAVE_COR(K)が閾値未満であれば背景雑音区間と判定する。そして、目的音声区間判定部16は、目的音声区間であれば、判定結果を格納する変数resに「1」を代入し、背景雑音区間であればresに「0」を代入し、判定結果が後段の構成部に与えられる。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、大雑音環境下においても、雑音信号成分の影響が小さい周波数帯域を選択し、当該周波数帯域でのコヒーレンス係数のみを寄与させて平均コヒーレンスを算出することができる。これにより、大雑音下での目的音声区間検出性能を高めることができる。
以上のように、第1の実施形態によれば、大雑音環境下においても、雑音信号成分の影響が小さい周波数帯域を選択し、当該周波数帯域でのコヒーレンス係数のみを寄与させて平均コヒーレンスを算出することができる。これにより、大雑音下での目的音声区間検出性能を高めることができる。
(B)他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用することができる。
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用することができる。
(B−1)上述した実施形態では、本発明をテレビ会議システムや携帯電話などの通信装置に適用することで、目的音声区間の検出性能を向上させることができるため、通話音質や音声認識機能の向上が期待できる。
また、上述した実施形態では、走行中の自動車や電車等の車内における大雑音環境下を例示した。しかし、大雑音環境下は、低域に雑音信号成分のパワーが強く影響を及ぼし、周波数が高くなるほど雑音信号成分のパワーが小さくなる傾向にあるという特性を有する環境を意図しており、車内に限らず、屋外にいる装置使用者のすぐそばを自動車や電車等が走行する場所であっても良いし、飛行場やガードレール下などにおいても上述した実施形態と同様の効果を得ることができる。
(B−2)上述した実施形態では、平均コヒーレンス計算部が、周波数毎のコヒーレンス係数に基づいて雑音信号成分の影響の強弱を判定する場合を例示したが、グラディエント・インデックス(GI:Gradient Index)を修正したmodGIを用いて判定するようにしても良い。
(B−3)上述した実施形態では、音声目的音信号単体で全ての処理を実行するものを示したが、目的音声区間の検出処理等を外部のサーバに委ねて実行するようにしても良い。例えば、音声信号処理装置がスマートフォン等の場合において、いわゆるクラウドシステムによってシステムを構成し、音声信号処理装置により取得された入力音信号が外部サーバに送信されて、外部サーバが目的音声区間の検出処理を行なうようにしても良い。特許請求の範囲における「サーバ」は、上記のようなクラウドシステムを構成するサーバを含むものとする。
(B−4)上述した実施形態では、一対のマイクロホンにより捕捉された入力音信号を直ちに処理する装置やプログラムを示したが、一対のマイクロホンにより捕捉された信号を記録媒体に記録し、それを再生する場合にも本発明を適用できる。
(B−5)上述した実施形態では、2個のマイクロホンを一対として音声信号処理装置が有する場合を例示したが、音声信号処理装置は3個以上のマイクロホンを有するようにしても良い。音声信号処理装置が3個以上のマイクロホンを有する場合でも、各マイクロホンにより捕捉された入力音信号に基づいて、所定の方位に死角を有する指向性を有する複数の指向性信号を形成することにより、本発明を適用することができる。
1…目的音声区間検出装置、m_1及びM_2…マイクロホン、11…FFT(高速フーリエ変換)部、12…第1の指向性形成部、13…第2の指向性形成部、14…コヒーレンス係数計算部、15…平均コヒーレンス計算部、16…目的音声区間判定部。
Claims (7)
- 入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
を備えることを特徴とする目的音声区間検出装置。 - 上記平均コヒーレンス計算手段が、
上記コヒーレンス係数の長期平均値を周波数毎に算出する長期平均値計算部と、
周波数毎に、上記長期平均値と上記コヒーレンス係数との比又は差分値と所定の閾値とを比較して、上記比又は上記差分値が所定の閾値以上の場合に雑音信号成分の影響が弱い周波数帯域と判定し、そうでない場合に雑音信号成分の影響が強い周波数帯域と判定する雑音影響度判定部と、
上記雑音影響度判定部により雑音信号成分の影響が小さいと判定された周波数帯域での上記コヒーレンス係数を加算した加算値を、加算したコヒーレンス係数の数を示す値で除算することで上記平均コヒーレンスを算出する平均コヒーレンス算出部と
を有することを特徴とする請求項1に記載の目的音声区間検出装置。 - 入力音信号を時間領域から周波数領域に変換する周波数解析手段と、
上記周波数解析手段により得られた周波数領域信号に遅延減算処理を施して、上記第1の指向性信号を形成して上記コヒーレンス係数算出手段に与える第1の指向性形成手段と、
上記周波数解析手段により得られた周波数領域信号に遅延減算処理を施して、上記第2の指向性信号を形成して上記コヒーレンス係数算出手段に与える第2の指向性形成手段と
を備えることを特徴とする請求項1又は2に記載の目的音声区間検出装置。 - コヒーレンス係数計算手段が、入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出し、
平均コヒーレンス計算手段が、上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出し、
目的音声判定手段が、上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する
ことを特徴とする目的音声区間検出方法。 - コンピュータを、
入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
して機能させることを特徴とする目的音声区間検出プログラム。 - 少なくとも2個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なう音声信号処理装置において、
入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
を備えることを特徴とする音声信号処理装置。 - 少なくとも2個のマイクロホンにより捕捉された周囲音の入力音信号に基づいて所定の音声信号処理を行なうサーバにおいて、
入力音信号に基づいてそれぞれ形成された、第1の所定方位に死角を有する第1の指向性信号と第2の所定方位に死角を有する第2の指向性信号との相関を反映させたコヒーレンス係数を、周波数毎に算出するコヒーレンス係数計算手段と、
上記コヒーレンス係数計算手段により算出された周波数毎の上記コヒーレンス係数に基づいて、上記入力音信号に含まれる雑音信号成分の影響の強弱を周波数毎に判定し、雑音信号成分の影響の小さい周波数帯域での上記コヒーレンス係数を用いて平均コヒーレンスを算出する平均コヒーレンス計算手段と、
上記平均コヒーレンス計算手段により算出された上記平均コヒーレンスに基づいて、入力音信号の当該区間が目的音声区間に属するか否かを判定する目的音声区間判定手段と
を備えることを特徴とするサーバ。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014164948A JP2016042613A (ja) | 2014-08-13 | 2014-08-13 | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014164948A JP2016042613A (ja) | 2014-08-13 | 2014-08-13 | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2016042613A true JP2016042613A (ja) | 2016-03-31 |
Family
ID=55592192
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014164948A Pending JP2016042613A (ja) | 2014-08-13 | 2014-08-13 | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2016042613A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018142819A (ja) * | 2017-02-27 | 2018-09-13 | 沖電気工業株式会社 | 非目的音判定装置、プログラム及び方法 |
| WO2018174135A1 (ja) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | 収音装置および収音方法 |
| WO2018173267A1 (ja) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | 収音装置および収音方法 |
| JP2020503788A (ja) * | 2017-01-03 | 2020-01-30 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ビームフォーミングを使用するオーディオキャプチャ |
| CN111492668A (zh) * | 2017-12-14 | 2020-08-04 | 巴科股份有限公司 | 用于在限定的空间内定位音频信号的发源点的方法和系统 |
| US11094323B2 (en) | 2016-10-14 | 2021-08-17 | Samsung Electronics Co., Ltd. | Electronic device and method for processing audio signal by electronic device |
| CN115499770A (zh) * | 2022-08-29 | 2022-12-20 | 歌尔科技有限公司 | 耳机的语音活动检测方法、装置、耳机及介质 |
-
2014
- 2014-08-13 JP JP2014164948A patent/JP2016042613A/ja active Pending
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11094323B2 (en) | 2016-10-14 | 2021-08-17 | Samsung Electronics Co., Ltd. | Electronic device and method for processing audio signal by electronic device |
| JP7041157B6 (ja) | 2017-01-03 | 2022-05-31 | コーニンクレッカ フィリップス エヌ ヴェ | ビームフォーミングを使用するオーディオキャプチャ |
| JP7041157B2 (ja) | 2017-01-03 | 2022-03-23 | コーニンクレッカ フィリップス エヌ ヴェ | ビームフォーミングを使用するオーディオキャプチャ |
| JP2020503788A (ja) * | 2017-01-03 | 2020-01-30 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ビームフォーミングを使用するオーディオキャプチャ |
| JP2018142819A (ja) * | 2017-02-27 | 2018-09-13 | 沖電気工業株式会社 | 非目的音判定装置、プログラム及び方法 |
| US10873810B2 (en) | 2017-03-24 | 2020-12-22 | Yamaha Corporation | Sound pickup device and sound pickup method |
| US10979839B2 (en) | 2017-03-24 | 2021-04-13 | Yamaha Corporation | Sound pickup device and sound pickup method |
| JPWO2018174135A1 (ja) * | 2017-03-24 | 2020-01-16 | ヤマハ株式会社 | 収音装置および収音方法 |
| EP3905718A1 (en) | 2017-03-24 | 2021-11-03 | Yamaha Corporation | Sound pickup device and sound pickup method |
| WO2018173267A1 (ja) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | 収音装置および収音方法 |
| WO2018174135A1 (ja) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | 収音装置および収音方法 |
| CN111492668A (zh) * | 2017-12-14 | 2020-08-04 | 巴科股份有限公司 | 用于在限定的空间内定位音频信号的发源点的方法和系统 |
| CN111492668B (zh) * | 2017-12-14 | 2021-10-29 | 巴科股份有限公司 | 用于在限定的空间内定位音频信号的发源点的方法和系统 |
| US11350212B2 (en) | 2017-12-14 | 2022-05-31 | Barco N.V. | Method and system for locating the origin of an audio signal within a defined space |
| CN115499770A (zh) * | 2022-08-29 | 2022-12-20 | 歌尔科技有限公司 | 耳机的语音活动检测方法、装置、耳机及介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11825279B2 (en) | Robust estimation of sound source localization | |
| JP2016042613A (ja) | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ | |
| JP5875609B2 (ja) | 雑音抑圧装置 | |
| CN111418010A (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
| WO2012038998A1 (ja) | 雑音抑圧装置 | |
| JP2008064733A (ja) | 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム | |
| JPWO2013065088A1 (ja) | 雑音抑圧装置 | |
| WO2013164029A1 (en) | Detecting wind noise in an audio signal | |
| JP2014137414A (ja) | 雑音抑圧装置、方法、及びプログラム | |
| CN109102819A (zh) | 一种啸叫检测方法及装置 | |
| EP2752848B1 (en) | Method and apparatus for generating a noise reduced audio signal using a microphone array | |
| WO2020110228A1 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
| CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
| JP6048596B2 (ja) | 集音装置、集音装置の入力信号補正方法および移動機器情報システム | |
| CN113316075B (zh) | 一种啸叫检测方法、装置及电子设备 | |
| JP6631127B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声処理装置 | |
| JP6314475B2 (ja) | 音声信号処理装置及びプログラム | |
| JP6481397B2 (ja) | マイクロホン間隔制御装置及びプログラム | |
| JP6903947B2 (ja) | 非目的音抑圧装置、方法及びプログラム | |
| JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
| JP6711205B2 (ja) | 音響信号処理装置、プログラム及び方法 | |
| CN113573205B (zh) | 信号处理方法、设备及计算机存储介质 | |
| JP6361360B2 (ja) | 残響判定装置及びプログラム | |
| JP2015070292A (ja) | 集音・放音装置及び集音・放音プログラム | |
| JP2013125085A (ja) | 目的音抽出装置及び目的音抽出プログラム |